ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling

inference-time, RLHF/STaR, ReST

jinuklee 2024. 10. 9. 00:02

요약 : Reward model + SFT

핵심

Grow stage에서 데이터셋을 샘플링 ~ current policy model

reward model을 통해 filtered

improve 파트

NLL loss

Figure 1 모식도

pseudo - 알고리즘

Reward 부여 방식 : <EOS> 토큰 뒤에 scalar reward로

ReST-MCTS 논문리뷰 (0)	2024.08.28
Recursive intropspection 논문 리뷰 (Teaching LanguageModel Agents How to Self-Improve) (0)	2024.07.28
Quiet-STaR : AI 논문리뷰 (0)	2024.07.17

이진욱님의 블로그

ai research memo for reference

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이진욱님의 블로그