agent 23

ReAcT 논문리뷰 SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS

https://arxiv.org/pdf/2210.0362  Alfworld 벤치마크 문제를 해결하기 위한 ReAct 예시인데일단 어떤 task를 solve 하기 위해 우리는 환경으로부터 observation을 받아 action(following the specific policy)을 생성하는데 이떄 context가 다음과 같다. Learning a policy is challenging when the mapping c → a is highly implicit and requires extensive computation ReAcT는 이 a ( agent’s action space = 이 경우 space of language)를 augment하는 것 obeservation이나 외부 환경에 이 action..

agent 2024.08.03

mind search 논문리뷰

mindsearch 논문리뷰최근의 recent work는 검색엔진을 LLM과 통합시킬려는 시도함하지만 3가지 문제를 직면(1) 복잡한 request은 검색 엔진에서 한 번에 정확하고 완전하게 retrieve되기 어렵다 (e.g 19세기 러시아 문학이 20세기 프랑스 철학에 미친 영향)(2) 통합해야될 관련 정보가 대량의 노이즈와 함께 여러 웹 페이지에 분산되어 있다.(3) 긴 contents을 가진 많은 웹 페이지는 LLM의 최대 컨텍스트 길이를 초과할 수 있다 (위키피디아처럼 길면 한번에 분석 x)https://arxiv.org/pdf/2407.20183WebSearcherWebPlanner기존의 연구에는 검색 과정을 RAG task로 보는 경우도 있지만 웹 기반 정보 검색의 깊이와 복잡성을 super..

agent/multi - agent 2024.08.01

CRITIC: LARGE LANGUAGE MODELS CAN SELFCORRECT WITH TOOL-INTERACTIVE CRITIQUING 논문리뷰

llm의 결과를 cross check하는( e.g 인터넷 검색엔진에 확인, 생성한 코드가 올바른지 인터프리터로 실행해 디버깅과정과 유사한 시스템 More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process 정확히는 text를 evaluate하고 이과정을 통해 구한 feedback을 업데이트하는것 QA에서의 활용사례 first QA result without any feed..

agent/multi - agent 2024.07.29

AutoGen: Enabling Next-Gen LLMApplications via Multi-Agent Conversation 논문리뷰

https://arxiv.org/pdf/2308.08155 가장 큰 특징 : customizable, conversable, conversation programming1.introduction 세가지 이유1) 지금의 LLM은 the ability to incorporate feedback을 가짐2) single LLM can exhibit a broad range of capabilities (특히 정확한 프롬프트와 inference환경으로 configured일때), conversations between differently configured agents can help combine these broad LLM capabilities in a modular and complementary mann..

agent/multi - agent 2024.07.28

metagpt 논문리뷰

https://arxiv.org/pdf/2308.00352Solutions to more complex tasks, however, are complicated through logic inconsistencies due to cascading hallucinations caused by naively chaining LLMs 기존의 multi-agent의 할루시네이션으로 인한 LLM을 연결할 때의 생기는 inconsistency 문제를 해소하기 위한 metagpt 프레임워크  아래의 SOP를 prompt로 바꿔 streamlined workflow 제공 thus allowing agents with human-like domain expertise to verify intermediate results..

agent/multi - agent 2024.07.28

LEGO: A Multi-agent Collaborative Framework with Role-playing andIterative Feedback for Causality Explanation Generation 논문리뷰

https://openreview.net/pdf?id=RAtrnAtAsM2. methodology(1) Fine-grained World Knowledge Integration Module(2) Iterative Feedback and Refinement Moduleone LLM serve as Explainer - initial 결과물 생성Critic LLM - Obeservation, Iterative feed back 받음 -> refine its explanation 2.1 Fine-grained World Knowledge Integrationinception prompt -> 에 의해Cause Analyst role Effect Analyst role가 two LLMs에게 assign됨 The..

agent/multi - agent 2024.07.26

Debating with More Persuasive LLMs Leads to More Truthful Answers 논문리뷰

2024년 5월 30일자 논문LLM을 align 할때 주로 human-labelled 데이터가 주로 사용되었다. 하지만 LLM이 점점 정교해짐에 따라 human expertise를 능가하게 되고 사람이 평가하는 역할은 이러한 LLM, expertise를 감독하는 non-expert의 영역이 될 것이다모델의 잘못된 대답을 align하기 위해 각 분야의 전문가를 다 모으기는 빡셈 이러한 anticipation 기대에 앞서약한 모델(judge)이 강한모델을 평가하는 것(supervise)이 가능한가에 대한 질문 ?-> debate 방식 평가non-expert 모델(weak)이 정답을 선택하고 강한 모델이 debate를 통해 이 정확도를 증가시킴   답변 정확도non-expert 심사원(실제 사람) : 60% ..

agent/multi - agent 2024.07.24

GovSim(Cooperate or Collapse: Emergence of SustainableCooperation in a Society of LLM Agents) 논문리뷰

LLM의 협력에 관해어류( 공유 자원 )를 어획하는 소규모 어부 집단에서부터 기후 변화의 부정적 영향을 줄이기 위해 오염을 제한하는 국제조약에 이르기까지 협력해서 문제를 해결하는 것은다양하다. 그러나 이기적인 개인이나 조직이 greater good을 sustain 하기 위해 개인적인 비용을 지불해야 하는 상황에 있을 때, 협력을 유지하는 것은 어려울 수 있다mechanism designers 들이 이러한 개인들의 협력을 이끌어내기 위해 incentive-compatible systems 개발 , 이런 시스템은 주로 top-down process, 하지만 실제사람들은 from the bottom up 개발을 하기도함 LLM 에이전트를 위한 최초의 공유 자원 공유 시뮬레이션 플랫폼( first common ..

agent/multi - agent 2024.07.23