분류 전체보기 251

Agent Q 논문리뷰: Advanced Reasoning and Learningfor Autonomous AI Agents

https://arxiv.org/pdf/2408.07199기존의 PRM을 각 step의 correctness를 확인하게 위해 쓰인것과 달리, critic 모델을 통해 process 감독을 하고 가능한 에이젼트 action에 순위를 매김자세히policy(LLM actor)이 K개의 action을 제시 policy(LLM critic , 동일한 Base LLM)이 제안된 action에 순위를 매김순위는 expansion(MCTS) 후 노드 선(MCTS)을 가이드 하는데 사용되고, DPO pair를 구성하는데 사용됨  We combine a planning and reasoning agent with MCTS inference-time search and AI self-critique for self-supe..

MUTUAL REASONING MAKES SMALLER LLMSSTRONGER PROBLEM-SOLVERS 논문 리뷰

수학 기출문제집을 푼다(STaR), 모르는 것을 친구들과 (gain confidence) 선생님게 지도받는다(evaluator) 수학공식과 같은 hint가 될수있는 것을 스스로 찾는다(search) 채점하고 풀이과정을 본다(self-critique, reward model via answer matching)  challenge verify the correctness for each intermediate step and the final answersc-CoT는 majority votingRAP self-rewarding본문에서는 near-random self-rewarding M*(mindSTaR, 2024)에서는 이를 https://arxiv.org/abs/2405.16265 MindStar: E..

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models 논문리뷰

https://arxiv.org/abs/2401.01335 Self-Play Fine-Tuning Converts Weak Language Models to Strong Language ModelsHarnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring addiarxiv.orgpreliminary  알고리즘 간단하게

카테고리 없음 2024.08.16

AlphaMath Almost Zero: Process Supervision Without Process 논문리뷰

https://arxiv.orgs/pdf/2405.03553 중요한점. The parameters of the linear layer associated with Vϕ1 are randomly initialized, leading to an initial tendency of the value head to predict a value close to 0 at the first (k = 1) round of MCTS. However, as the simulations in the first round MCTS proceed, the rewards (±1) from terminal nodes are back-propagated to their parent nodes. As simulations N grad..

meta prompting 논문리뷰

(i) break down complex tasks or problems into smaller, manageable piecestask를 decompose(ii) assign these pieces to specialized “expert” models with proper and detailed natural-language instructions이러한 decompse된 subtask들을 전문화된 “expert” 모델에 할당하고,모델에 적절하고 상세한 자연어 지시를 제공(iii) oversee the communication between these expert modelsexpert 모델 간에 소통을 감독(iv) apply its own critical thinking, reasoning, and ..

카테고리 없음 2024.08.15

BOND: Aligning LLMs with Best-of-N Distillation 논문리뷰

online train은 정책을 업데이트, 샘플의 점수를 reward 모델이 여러번 매겨야하는 computational costoffline RL methods 는 task에 한정되지 않지만 고정된 데이터셋으로 학습해 데이터셋을 curate하는게 매우 중요하다 RLHF 알고리즘과 강화 학습(RL)으로 대형 언어 모델을 미세 조정하는 것은 challenging. 주로 이는 pretrained 지식의 망각을 유발할 수 있으며, 보상 모델의 허점이 reward hacking을 초래할 수 있기 때문이다. 기본 전략은 policy-gradient 방법을 사용하고 KL 정규화를 SFT 정책에 맞추는 것이다. 이러한 RL 알고리즘은 원래 모델의 일반적인 능력을 보존하고 misalignment 문제를 해결하기 위해 높..

RLFH 2024.08.14

agentscope (Very Large-Scale Multi-Agent Simulation in)

(i) Scalability and Efficiency Limitation시뮬레이션에 포함된 에이전트의 scale는 특정 시뮬레이션을 수행할 때 중요할 수 있다. 작은 scale의 시뮬레이션은 현실 세계의 복잡성을 정확하게 나타내지 못해 시뮬레이션의 신뢰성과 현실성이 떨어질 위험이 있다 에이전트의 규모를 늘리면 시뮬레이션 플랫폼의 확장성과 효율성에 대한 challenge가 발생 구체적으로, 에이전트가 작업과 통신을( execute their tasks and communications )적절한 순서로 효율적으로 조직하는 것은 실행 시간을 줄이고 정확한 결과를 보장하는 데 어려움이 있다. 또한, 시뮬레이션 플랫폼은 대규모 에이전트 기반 시뮬레이션에서 에이전트 간 및 에이전트-환경 상호작용을 지원하기 위해 ..

카테고리 없음 2024.08.13