inference-time, RLHF/STaR, ReST

Quiet-STaR : AI 논문리뷰

jinuklee 2024. 7. 17. 12:20

기존의 연구들은 특정 reasoning 과제를 제공하거나 경우에 따라 reasoning 자체를 제공하기 위해 신중하게 선별된 데이터셋에 의존합니다.

여기서 의문점이 만약 reasoning이 모든 텍스트에 내재되어 있다면, reasoning을 가르치기 위해 언어 모델링이라는 과제에 leverage 하지 말아야 할 이유가 있을까이다

 

1. Parallel rationale generation (think,

2. Mixing post-rationale and base predictions (talk,

3. Optimizing rationale generation (learn