ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling

inference-time, RLHF/STaR, ReST

jinuklee 2024. 10. 9. 00:02

요약 : Reward model + SFT

핵심

Grow stage에서 데이터셋을 샘플링 ~ current policy model

reward model을 통해 filtered

improve 파트

NLL loss

Figure 1 모식도

pseudo - 알고리즘

Reward 부여 방식 : <EOS> 토큰 뒤에 scalar reward로

ReST-MCTS 논문리뷰 (0)	2024.08.28
Recursive intropspection 논문 리뷰 (Teaching LanguageModel Agents How to Self-Improve) (0)	2024.07.28
Quiet-STaR : AI 논문리뷰 (0)	2024.07.17

이진욱님의 블로그

ai research memo for reference

이진욱님의 블로그