https://arxiv.org/pdf/2308.08998
요약 : Reward model + SFT
핵심
Grow stage에서 데이터셋을 샘플링 ~ current policy model
reward model을 통해 filtered
improve 파트
NLL loss
Figure 1 모식도
pseudo - 알고리즘
Reward 부여 방식 : <EOS> 토큰 뒤에 scalar reward로
'inference-time, RLHF > STaR, ReST' 카테고리의 다른 글
ReST-MCTS 논문리뷰 (0) | 2024.08.28 |
---|---|
Recursive intropspection 논문 리뷰 (Teaching LanguageModel Agents How to Self-Improve) (0) | 2024.07.28 |
Quiet-STaR : AI 논문리뷰 (0) | 2024.07.17 |