분류 전체보기 286

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models 논문리뷰

https://arxiv.org/abs/2401.01335 Self-Play Fine-Tuning Converts Weak Language Models to Strong Language ModelsHarnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring addiarxiv.orgpreliminary  알고리즘 간단하게

카테고리 없음 2024.08.16

AlphaMath Almost Zero: Process Supervision Without Process 논문리뷰

https://arxiv.orgs/pdf/2405.03553 중요한점. The parameters of the linear layer associated with Vϕ1 are randomly initialized, leading to an initial tendency of the value head to predict a value close to 0 at the first (k = 1) round of MCTS. However, as the simulations in the first round MCTS proceed, the rewards (±1) from terminal nodes are back-propagated to their parent nodes. As simulations N grad..

meta prompting 논문리뷰

(i) break down complex tasks or problems into smaller, manageable piecestask를 decompose(ii) assign these pieces to specialized “expert” models with proper and detailed natural-language instructions이러한 decompse된 subtask들을 전문화된 “expert” 모델에 할당하고,모델에 적절하고 상세한 자연어 지시를 제공(iii) oversee the communication between these expert modelsexpert 모델 간에 소통을 감독(iv) apply its own critical thinking, reasoning, and ..

카테고리 없음 2024.08.15

BOND: Aligning LLMs with Best-of-N Distillation 논문리뷰

online train은 정책을 업데이트, 샘플의 점수를 reward 모델이 여러번 매겨야하는 computational costoffline RL methods 는 task에 한정되지 않지만 고정된 데이터셋으로 학습해 데이터셋을 curate하는게 매우 중요하다 RLHF 알고리즘과 강화 학습(RL)으로 대형 언어 모델을 미세 조정하는 것은 challenging. 주로 이는 pretrained 지식의 망각을 유발할 수 있으며, 보상 모델의 허점이 reward hacking을 초래할 수 있기 때문이다. 기본 전략은 policy-gradient 방법을 사용하고 KL 정규화를 SFT 정책에 맞추는 것이다. 이러한 RL 알고리즘은 원래 모델의 일반적인 능력을 보존하고 misalignment 문제를 해결하기 위해 높..

RLFH 2024.08.14

agentscope (Very Large-Scale Multi-Agent Simulation in)

(i) Scalability and Efficiency Limitation시뮬레이션에 포함된 에이전트의 scale는 특정 시뮬레이션을 수행할 때 중요할 수 있다. 작은 scale의 시뮬레이션은 현실 세계의 복잡성을 정확하게 나타내지 못해 시뮬레이션의 신뢰성과 현실성이 떨어질 위험이 있다 에이전트의 규모를 늘리면 시뮬레이션 플랫폼의 확장성과 효율성에 대한 challenge가 발생 구체적으로, 에이전트가 작업과 통신을( execute their tasks and communications )적절한 순서로 효율적으로 조직하는 것은 실행 시간을 줄이고 정확한 결과를 보장하는 데 어려움이 있다. 또한, 시뮬레이션 플랫폼은 대규모 에이전트 기반 시뮬레이션에서 에이전트 간 및 에이전트-환경 상호작용을 지원하기 위해 ..

카테고리 없음 2024.08.13

LLM + VLM + 디퓨전 모델

https://arxiv.org/html/2407.20798v1DIFFUSION AUGMENTED AGENTS: A FRAMEWORK FOR EFFICIENT EXPLORATION AND TRANSFER LEARNINGRL의 실제 환경에서의 data scarcity 문제기존의 학습된 knowledge에서 transfer, sample 효율성을 향상시키기LLM이 main controller, 즉 뇌처럼 역할LLM이 VLM, 디퓨전모델(DM)에 input을 즉 querying , 에이젼트의 high-level 행동을 이끔(guide) LLM을 통해 instruction으로 text description을 얻고 (decompose)VLM을 통해 observation과 텍스트 묘사를 임베딩으로 얻고 이를 코사인..

agent 2024.08.11

LLM Critics Help Catch LLM Bugs 논문리뷰

https://arxiv.org/pdf/2407.00215scalable oversight2024년 6/28, 7/12모델의 output을 평가하기 위한 다른 LLM (주로 RLFH를 위함)-> human supervision X, human evaluation 향상오픈AI - 실제 세팅에서 scalable oversight 실행 (toy 세팅이 아닌)딥마인드 - [debate, consultancy] open or not 의 6개의 프로토콜 환경에서 scalable oversight 테스트오픈 AI 코드 생성 환경에서의 에러를 detect, 실제 flawless라고 평가된 훈련데이터에서 수백개의 결점 발견, 또한 out of distribution의 코드 생성이 아닌 데이터셋에서도 발견(question..

RLFH 2024.08.10

chatdev 논문리뷰 (Communicative Agents for Software Development)

https://arxiv.org/pdf/2307.07924v5https://github.com/OpenBMB/ChatDevchat-powered software- development framework를 의미 Technically, to facilitate cooperative communication,협력적 커뮤니케이션을 촉진시키기 위해 ChatDev introduces chat chain to further break down each phase into smaller and manageable subtasks,채팅 chain을 사용해 각 단계를 subtask로 나누는 which guides multi-turn communications between different roles to propose ..

agent/multi - agent 2024.08.10

AGENTGYM: Evolving Large Language Model-basedAgents across Diverse Environments 논문리뷰

https://arxiv.org/pdf/2406.04151가장 중요한것1) diverse environments for agent exploration and learning 에이전트의 탐색과 학습을 위한 다양한 환경 2) a trajectory set to equip agents with basic capabilities and prior knowledge에이전트에게 기본적인 능력과 사전 지식을 갖추게 하는 trajectory 집합3) an effective and scalable evolution method효과적이고 확장 가능한 진화 방법

agent/multi - agent 2024.08.08