online train은 정책을 업데이트, 샘플의 점수를 reward 모델이 여러번 매겨야하는 computational costoffline RL methods 는 task에 한정되지 않지만 고정된 데이터셋으로 학습해 데이터셋을 curate하는게 매우 중요하다 RLHF 알고리즘과 강화 학습(RL)으로 대형 언어 모델을 미세 조정하는 것은 challenging. 주로 이는 pretrained 지식의 망각을 유발할 수 있으며, 보상 모델의 허점이 reward hacking을 초래할 수 있기 때문이다. 기본 전략은 policy-gradient 방법을 사용하고 KL 정규화를 SFT 정책에 맞추는 것이다. 이러한 RL 알고리즘은 원래 모델의 일반적인 능력을 보존하고 misalignment 문제를 해결하기 위해 높..