Recursive intropspection 논문 리뷰 (Teaching LanguageModel Agents How to Self-Improve)

inference-time, RLHF/STaR, ReST

jinuklee 2024. 7. 28. 13:52

RISE poses fine-tuning for a single-turn prompt as solving a multi-turn Markov decision process (MDP)

SINGLE

ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling (1)	2024.10.09
ReST-MCTS 논문리뷰 (0)	2024.08.28
Quiet-STaR : AI 논문리뷰 (0)	2024.07.17

현재글Recursive intropspection 논문 리뷰 (Teaching LanguageModel Agents How to Self-Improve)

이진욱님의 블로그

ai research memo for reference

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이진욱님의 블로그