수학 기출문제집을 푼다(STaR), 모르는 것을 친구들과 (gain confidence) 선생님게 지도받는다(evaluator) 수학공식과 같은 hint가 될수있는 것을 스스로 찾는다(search) 채점하고 풀이과정을 본다(self-critique, reward model via answer matching)
challenge verify the correctness for each intermediate step and the final answer
sc-CoT는 majority voting
RAP self-rewarding
본문에서는 near-random self-rewarding
M*(mindSTaR, 2024)에서는 이를 https://arxiv.org/abs/2405.16265
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
Although Large Language Models (LLMs) achieve remarkable performance across various tasks, they often struggle with complex reasoning tasks, such as answering mathematical questions. Recent efforts to address this issue have primarily focused on leveraging
arxiv.org
reward 모델을 train하므로 이를 해결했지만 데이터 수집, 생성에 어려움 across various task에서의 일반화 어려움
3.methodology
⋄ A1: one step사고를 제안
이 행동은 기존의 추론 단계를 고려하여 주어진 질문에 대한 다음 한 step의 사고를 생성하도록 LLM을 유도
이 접근 방식은 CoT와 달리 완전한 사고를 생성하는 것이 아니라 추론 과정을 단순화하고 LLM이 더 나은 의사결정을 할 수 있게
⋄ A2: remaining 사고 단계를 제안
상태별로 한 단계 사고만 생성하는 대신, 이 행동은 표준 CoT와 일치하여 단순한 질문을 더 적은 단계로 해결하는 "빠른 사고"를 가능하게 함
이미 생성된 추론 단계를 고려하여, LLM이 최종 답에 도달할 때까지 남은 단계를 직접적으로 생성하도록 유도
⋄ A3: 다음 sub 질문과 그 답을 제안
이 행동은 가장 단순한 문제 제시에서 영감을 받아, 복잡한 문제를 일련의 더 간단한 하위 질문으로 나누고 순차적으로 해결 RAP논문에 따라, LLM이 다음 하위 질문을 묻고 답하도록 유도
⋄ A4: sub 질문을 다시 답
A3에서 하위 질문이 정확하게 답변되지 않을 수 있음을 고려하여, 이 action은 이를 다시 답변하도록 제안 정확도를 높이기 위해,
이 행동은 LLM이 몇 개의 샘플로 CoT를 사용하도록 유도합니다. A3에서 생성된 원래 답변은 CoT와 유사한 프롬프트를 사용하지 않고, 대신 e least-to-most problem decomposition prompt 를 따른다https://arxiv.org/abs/2205.10625.
A5
질문, sub question을 재구성, 프롬프트에 담긴 조건을 misunderstand해서 오류로 이어지는 경우가 다수기에 simple하게 만듦
실제 위의 A%의 ablation study


'inference-time, RLHF > search (language)' 카테고리의 다른 글
Agent Q 논문리뷰: Advanced Reasoning and Learningfor Autonomous AI Agents (0) | 2024.08.17 |
---|---|
M* 논문리뷰 MindStar: Enhancing Math Reasoning in Pre-trainedLLMs at Inference Time (0) | 2024.08.17 |
AlphaMath Almost Zero: Process Supervision Without Process 논문리뷰 (0) | 2024.08.16 |
graph of thought 논문 리뷰 (GoT) (0) | 2024.07.19 |
MCTS(monte carlo tree search) + LLM (0) | 2024.06.22 |