agent/multi - agent

Reflexion: Language Agents withVerbal Reinforcement Learning 논문리뷰

jinuklee 2024. 8. 3. 19:42

1. Introduction

예를 들어, 그림 1에서 Reflexion 에이전트는 시도, 오류 및 자기 성찰(trial, error, self-reflect)을 통해 의사결정, 프로그래밍 및 추론 작업을 해결하기 위해 자신의 행동을 최적화하는 방법을 학습한다.

 

유용한 성찰 피드백을 생성하는 것은 모델이 어디서 실수를 했는지에 대한 이해(즉, the credit assignment problem)뿐만 아니라 개선을 위한 actionable insight을 포함한 요약을 생성할 수 있는 능력을 필요로 하기 때문에 challenging

 

우리는 이를 수행하기 위해 세 가지 방법을 탐구한다 –

1) simple binary environment feedback

2) pre-defined heuristics for common failure cases

3) self-evaluation such as binary classification using LLMs (decision-making) or self-written unit tests (programming)

모든 구현에서 the evaluation signal은 장기 기억에 저장할 수 있는 자연어 경험 요약으로 증폭된다.

 

3 .Reflexion: reinforcement via verbal reflection

Actor

state obeservation에 따라 필요한 텍스트와 action을 생성

traditional 정책 기반 강화 학습(RL) 설정과 유사하게, 현재 시점 t에서 현재 정책 πθ로부터 행동 a를 샘플링하고, 환경으로부터 관찰 O를 받는다.

Chain of Thought 및 ReAct 를 포함한 다양한 Actor 모델을 탐구

또한 이 agent에게 추가적인 context를 제공하기 위해 memory component 'mem' 을 추가한다

 

Evaluator

Actor가 생성한 output의 품질을 평가하는 데 중요한 역할

Evaluator는 생성된 trajectory을 입력으로 받아 given task context 내에서 성능을 반영하는 보상 점수를 계산

 

reasoning tasks의 경우 exact match (EM) grading 기반의 reward 함수 사용

decision-making tasks의 경우 특정 평가 기준에 맞춘 pre-defined heuristic functions

몇몇 LLM을 evaluator로써도 활용

 

reflection

자기성찰 모델(Self-Reflection model)은 Reflexion 프레임워크에서 중요한 역할을 하며, 미래 trial 시도에 유용한 피드백을 제공하기 위해 verbal 자기 성찰(self-reflection을 생성한다.

이 모델은 sparse reward signal, binary success status (success/fail), the current trajectory, 그리고 지속적인 메모리(mem)를 바탕으로 구체적이고 세밀한 피드백을 생성한다.

이 피드백은 scalar reward보다 더 유익하며, 에이전트의 메모리(mem)에 저장된다.

예를 들어, 다단계 의사결정 과제에서 에이전트가 실패 신호를 받으면, 특정 행동 a(i)가 이후의 잘못된 행동 a(i+1)과 a(i+2를 초래했다는 것을 추론할 수 있다. 그런 다음 에이전트는 다른 행동 a'(i)를 취했어야 하며, 이는 a'(i+1)과 a'(i+2 를 초래했을 것이라고 verbally state할 수 있으며, 이 경험을 메모리에 저장할 수 있다.

이후 시도에서 에이전트는 과거 경험을 활용하여 시간 t에서 행동 a'(i)를 선택함으로써 의사결정 방식을 조정할 수 있다.

이러한 시도, 오류, 자기 성찰 및 지속적인 메모리의 반복적인 과정은 에이전트가 다양한 환경에서 정보가 풍부한 피드백 신호를 활용하여 의사결정 능력을 빠르게 향상시키도록 한다.

 

Memory

Reflexion 과정의 핵심 구성 요소는 단기 및 장기 메모리의 개념이다.

추론 시 에이전트는 단기 및 장기 메모리에 근거하여 결정을 내리는데, 이는 인간이 최근의 세밀한 세부 사항을 기억하면서도 여러 시도에서 학습된 중요한 경험을 회상하는 방식과 유사하다.

RL 환경에서 the current trajectory는 단기 메모리 역할을 하며, Self-Reflection 모델의 출력은 장기 메모리에 저장된다.

이 두 가지 메모리 구성 요소는 특정 context를 제공하면서도 여러 시도에 걸쳐 학습된 lesson의 영향을 받아 작동하며, 이는 다른 LLM 행동 선택 작업에 비해 Reflexion 에이전트의 주요 이점이다.

 

Reflexion process

Reflexion은 1에서 반복적인 최적화 과정으로 공식화된다.