ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling

inference-time, RLHF/STaR, ReST

ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling

jinuklee 2024. 10. 9. 00:02

https://arxiv.org/pdf/2308.08998

요약 : Reward model + SFT

핵심

Grow stage에서 데이터셋을 샘플링 ~ current policy model

reward model을 통해 filtered

improve 파트

NLL loss

Figure 1 모식도

pseudo - 알고리즘

Reward 부여 방식 : <EOS> 토큰 뒤에 scalar reward로