inference-time, RLHF/search at inference (GoT,MCTS, A*) 9

Agent Q 논문리뷰: Advanced Reasoning and Learningfor Autonomous AI Agents

https://arxiv.org/pdf/2408.07199기존의 PRM을 각 step의 correctness를 확인하게 위해 쓰인것과 달리, critic 모델을 통해 process 감독을 하고 가능한 에이젼트 action에 순위를 매김자세히policy(LLM actor)이 K개의 action을 제시 policy(LLM critic , 동일한 Base LLM)이 제안된 action에 순위를 매김순위는 expansion(MCTS) 후 노드 선(MCTS)을 가이드 하는데 사용되고, DPO pair를 구성하는데 사용됨  We combine a planning and reasoning agent with MCTS inference-time search and AI self-critique for self-supe..

MUTUAL REASONING MAKES SMALLER LLMSSTRONGER PROBLEM-SOLVERS 논문 리뷰

수학 기출문제집을 푼다(STaR), 모르는 것을 친구들과 (gain confidence) 선생님게 지도받는다(evaluator) 수학공식과 같은 hint가 될수있는 것을 스스로 찾는다(search) 채점하고 풀이과정을 본다(self-critique, reward model via answer matching)  challenge verify the correctness for each intermediate step and the final answersc-CoT는 majority votingRAP self-rewarding본문에서는 near-random self-rewarding M*(mindSTaR, 2024)에서는 이를 https://arxiv.org/abs/2405.16265 MindStar: E..

AlphaMath Almost Zero: Process Supervision Without Process 논문리뷰

https://arxiv.orgs/pdf/2405.03553 중요한점. The parameters of the linear layer associated with Vϕ1 are randomly initialized, leading to an initial tendency of the value head to predict a value close to 0 at the first (k = 1) round of MCTS. However, as the simulations in the first round MCTS proceed, the rewards (±1) from terminal nodes are back-propagated to their parent nodes. As simulations N grad..

graph of thought 논문 리뷰 (GoT)

기존의 related workCoT- SC (여러개의 CoT 생성후 best를 선택)ToT (LLM의 reasoning 과정을 tree형태로 모델링) GoT---------------------사고의 다양한 과정을 사용, 또한 이전의 사고(thought)으로 backtrack도 가능하게함 하지만 사고라는 과정 자체를 rigid한 tree 구조에만 제한했다는 한계가 존재 이 연구에서 우리는 LLM의 사고가 임의의 그래프 구조를 형성할 수 있게 함으로써 근본적으로 더 강력한 프롬프팅을 달성할 수 있다고 주장 e.g)이는 인간의 추론, 뇌 구조, 또는 알고리즘 실행과 같은 다양한 현상에서 동기를 얻었다. 새로운 아이디어를 작업할 때, 인간은 단순히 사고의 연쇄(CoT에서처럼)를 따르거나 서로 다른 별개의 사고..

MCTS(monte carlo tree search) + LLM

https://arxiv.org/abs/2406.07394 Monte Carlo Tree Search (MCTS)는 게임 및 복잡한 결정 과정에서 널리 사용되는 의사 결정 알고리즘으로, 탐색 트리를 구축하고 결과를 시뮬레이션하여 행동의 가치를 추정하는 방식 일반적으로 네 가지 주요 단계로 구성됨 (Browne 등, 2012): 선택 (Selection): 루트에서 시작하여 UCT(상한 신뢰 구간) 전략을 기반으로 promising 자식 노드를 탐색 리프 노드에 도달할 때까지 진행 확장 (Expansion): 리프 노드에서는 게임의 종료 상태가 아닌 경우 새로운 자식 노드를 추가하여 잠재적인 미래의 움직임을 illustrate 시뮬레이션 또는 평가 (Simulation or Evaluation): 새로 추..