inference-time, RLHF/STaR, ReST

ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling

jinuklee 2024. 10. 9. 00:02

https://arxiv.org/pdf/2308.08998

요약 : Reward model + SFT

 

핵심 

Grow stage에서 데이터셋을 샘플링 ~ current policy model

reward model을 통해 filtered

 

improve 파트

 

NLL loss

 

 

Figure 1 모식도

 

pseudo - 알고리즘

 

Reward 부여 방식 : <EOS> 토큰 뒤에 scalar reward로