inference-time, RLHF 41

Agent Q 논문리뷰: Advanced Reasoning and Learningfor Autonomous AI Agents

https://arxiv.org/pdf/2408.07199기존의 PRM을 각 step의 correctness를 확인하게 위해 쓰인것과 달리, critic 모델을 통해 process 감독을 하고 가능한 에이젼트 action에 순위를 매김자세히policy(LLM actor)이 K개의 action을 제시 policy(LLM critic , 동일한 Base LLM)이 제안된 action에 순위를 매김순위는 expansion(MCTS) 후 노드 선(MCTS)을 가이드 하는데 사용되고, DPO pair를 구성하는데 사용됨  We combine a planning and reasoning agent with MCTS inference-time search and AI self-critique for self-supe..

MUTUAL REASONING MAKES SMALLER LLMSSTRONGER PROBLEM-SOLVERS 논문 리뷰

수학 기출문제집을 푼다(STaR), 모르는 것을 친구들과 (gain confidence) 선생님게 지도받는다(evaluator) 수학공식과 같은 hint가 될수있는 것을 스스로 찾는다(search) 채점하고 풀이과정을 본다(self-critique, reward model via answer matching)  challenge verify the correctness for each intermediate step and the final answersc-CoT는 majority votingRAP self-rewarding본문에서는 near-random self-rewarding M*(mindSTaR, 2024)에서는 이를 https://arxiv.org/abs/2405.16265 MindStar: E..

AlphaMath Almost Zero: Process Supervision Without Process 논문리뷰

https://arxiv.orgs/pdf/2405.03553 중요한점. The parameters of the linear layer associated with Vϕ1 are randomly initialized, leading to an initial tendency of the value head to predict a value close to 0 at the first (k = 1) round of MCTS. However, as the simulations in the first round MCTS proceed, the rewards (±1) from terminal nodes are back-propagated to their parent nodes. As simulations N grad..

On scalable oversight with weak LLMs judgingstrong LLMs 논문 리뷰

https://arxiv.org/pdf/2407.04622출발점두 AI 사이의 토론을 통해 judge model에 올바른 대답을 선택하게 한다는 아이디어( AI safety via debate arxiv)에서 출발토론에서의 nash equilibria 와 같이 두 AI 모두 가장 convincing(설득력 잇는) 방식으로 judge(심판) AI에게 진실을 말할 것이라는 hope1. Introduction유형 1. Extractive질문과 그에 따른 답변 선택지 2개, 그리고 원본 source article하지만 judge model can't see the article -> information-asymmetry2. closed질문과 그에 따른 답변 선택지 2개만 존재3. multimodal 이미지 포..

graph of thought 논문 리뷰 (GoT)

기존의 related workCoT- SC (여러개의 CoT 생성후 best를 선택)ToT (LLM의 reasoning 과정을 tree형태로 모델링) GoT---------------------사고의 다양한 과정을 사용, 또한 이전의 사고(thought)으로 backtrack도 가능하게함 하지만 사고라는 과정 자체를 rigid한 tree 구조에만 제한했다는 한계가 존재 이 연구에서 우리는 LLM의 사고가 임의의 그래프 구조를 형성할 수 있게 함으로써 근본적으로 더 강력한 프롬프팅을 달성할 수 있다고 주장 e.g)이는 인간의 추론, 뇌 구조, 또는 알고리즘 실행과 같은 다양한 현상에서 동기를 얻었다. 새로운 아이디어를 작업할 때, 인간은 단순히 사고의 연쇄(CoT에서처럼)를 따르거나 서로 다른 별개의 사고..

Quiet-STaR : AI 논문리뷰

기존의 연구들은 특정 reasoning 과제를 제공하거나 경우에 따라 reasoning 자체를 제공하기 위해 신중하게 선별된 데이터셋에 의존합니다.여기서 의문점이 만약 reasoning이 모든 텍스트에 내재되어 있다면, reasoning을 가르치기 위해 언어 모델링이라는 과제에 leverage 하지 말아야 할 이유가 있을까이다 1. Parallel rationale generation (think,2. Mixing post-rationale and base predictions (talk,3. Optimizing rationale generation (learn

Red Teaming Language Models with Language Model 2022/2/7

언어모델은 안전성 검사, 즉 유해할수 있는 결과를 생성해낼 가능성이 있다면 배포될 수 없다. 이러한 검사는 human annotator에 의해 손수작성된 테스트 케이스를 사용하는데 이는 비싸다 이를 위해 우리는 target LM(배포할려는 모델)이 부적절하게 행동하는, 테스트케이스를 생성함으로써(red-teaming) 경우를 다른 LM을 통해 자동화해서 찾는다 우리는 생성된 테스트 질문(red lm)에 대한 target LM의 응답을 분류기(red clf)를 사용하여 평가하며, 이 분류기는 공격적인 콘텐츠를 감지하도록 훈련되었다. 이를 통해 2800억 매개변수의 LM 챗봇(target lm)에서 수만 개의 공격적인 응답을 발견했다. 우리는 다양한 수준의 다양성과 난이도를 가진 테스트 사례를 생성하기 위해..