inference-time, RLHF/STaR, ReST
ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling
jinuklee
2024. 10. 9. 00:02
https://arxiv.org/pdf/2308.08998
요약 : Reward model + SFT
핵심
Grow stage에서 데이터셋을 샘플링 ~ current policy model
reward model을 통해 filtered
improve 파트
NLL loss
Figure 1 모식도
pseudo - 알고리즘
Reward 부여 방식 : <EOS> 토큰 뒤에 scalar reward로