RLFH 2

BOND: Aligning LLMs with Best-of-N Distillation 논문리뷰

online train은 정책을 업데이트, 샘플의 점수를 reward 모델이 여러번 매겨야하는 computational costoffline RL methods 는 task에 한정되지 않지만 고정된 데이터셋으로 학습해 데이터셋을 curate하는게 매우 중요하다 RLHF 알고리즘과 강화 학습(RL)으로 대형 언어 모델을 미세 조정하는 것은 challenging. 주로 이는 pretrained 지식의 망각을 유발할 수 있으며, 보상 모델의 허점이 reward hacking을 초래할 수 있기 때문이다. 기본 전략은 policy-gradient 방법을 사용하고 KL 정규화를 SFT 정책에 맞추는 것이다. 이러한 RL 알고리즘은 원래 모델의 일반적인 능력을 보존하고 misalignment 문제를 해결하기 위해 높..

RLFH 2024.08.14

LLM Critics Help Catch LLM Bugs 논문리뷰

https://arxiv.org/pdf/2407.00215scalable oversight2024년 6/28, 7/12모델의 output을 평가하기 위한 다른 LLM (주로 RLFH를 위함)-> human supervision X, human evaluation 향상오픈AI - 실제 세팅에서 scalable oversight 실행 (toy 세팅이 아닌)딥마인드 - [debate, consultancy] open or not 의 6개의 프로토콜 환경에서 scalable oversight 테스트오픈 AI 코드 생성 환경에서의 에러를 detect, 실제 flawless라고 평가된 훈련데이터에서 수백개의 결점 발견, 또한 out of distribution의 코드 생성이 아닌 데이터셋에서도 발견(question..

RLFH 2024.08.10