기존의 연구들은 특정 reasoning 과제를 제공하거나 경우에 따라 reasoning 자체를 제공하기 위해 신중하게 선별된 데이터셋에 의존합니다.
여기서 의문점이 만약 reasoning이 모든 텍스트에 내재되어 있다면, reasoning을 가르치기 위해 언어 모델링이라는 과제에 leverage 하지 말아야 할 이유가 있을까이다
1. Parallel rationale generation (think,
2. Mixing post-rationale and base predictions (talk,
3. Optimizing rationale generation (learn
'inference-time, RLHF > STaR, ReST' 카테고리의 다른 글
ReST 논문리뷰 Reinforced Self-Training (ReST) for Language Modeling (1) | 2024.10.09 |
---|---|
ReST-MCTS 논문리뷰 (0) | 2024.08.28 |
Recursive intropspection 논문 리뷰 (Teaching LanguageModel Agents How to Self-Improve) (0) | 2024.07.28 |