LLM의 협력에 관해
어류( 공유 자원 )를 어획하는 소규모 어부 집단에서부터 기후 변화의 부정적 영향을 줄이기 위해 오염을 제한하는 국제조약에 이르기까지 협력해서 문제를 해결하는 것은다양하다. 그러나 이기적인 개인이나 조직이 greater good을 sustain 하기 위해 개인적인 비용을 지불해야 하는 상황에 있을 때, 협력을 유지하는 것은 어려울 수 있다
mechanism designers 들이 이러한 개인들의 협력을 이끌어내기 위해 incentive-compatible systems 개발 , 이런 시스템은 주로 top-down process, 하지만 실제사람들은 from the bottom up 개발을 하기도함
- LLM 에이전트를 위한 최초의 공유 자원 공유 시뮬레이션 플랫폼( first common pool resource-sharing simulation platform )인 GOVSIM.
- GOVSIM을 통해 LLM에서 나타나는 sustainable 행동을 연구하고 평가(bemchmark)할 수 있다.
- "GOVSIM을 사용한 결과, 가장 강력한 LLM만이 sustainable 결과에 도달할 수 있었으며, 최고 성능의 에이전트도 54% 미만의 생존율을 보였다."
- universalization의 철학적 원칙( philosophical principle )에 기반하여 더 협력적인 능력을 가진 에이전트를 개발
- ablation study와 교란 실험(perturbation)을 통해, sustainable cooperation 이 생기는 boundary conditions 을 특성화
- 향후 연구를 촉진하기 위해 우리의 시뮬레이션 프레임워크를 오픈소스로 공개
- GOVSIM 시뮬레이션 환경, 에이전트 프롬프트, 그리고 웹 인터페이스 포함
GOVSIM Description
GOVSIM의 목적은 대규모 언어 모델(LLM)의 협력적 행동 능력과 공유 자원의 effective governance (효과적인 관리능력)을 평가하는 것
GOVSIM에서 에이전트들은 시간이 지남에 따라 재생되는 공동 자연 자원 pool을 제공받는다.(목장의 풀이 달마다 2배씩 늘어남)
과제는 이 자원의 사용을 지속 가능하게 관리하는 것인데
너무 많이 가져가면 자원이 붕괴되어 더 이상 재생되지 않고( e.g 호수의 물고기가 멸종)
너무 적게 가져가면 자원의 경제적 잠재력이 충분히 활용되지 않는다.
장기적인 보상을 극대화하려는 이기적인 에이전트조차도 현재 추출하는 자원의 양과 미래에 추출할 수 있는 양의 균형을 맞춰야 한다.
여러 에이전트가 관여할 때는 questions of fairness 가 발생(공정성)
에이전트들은 자신들이 생각하는 공정한 몫에 대해 협상해야 하는데
<- 이를 위해 세 가지 시나리오를 GOVSIM에 구현
1. 물고기 어획
어업에서 에이전트들은 물고기가 가득한 호수를 공유하며, 각자 매월 몇 톤의 물고기를 잡아야 하는지 결정합니다. 호수는 최대 100톤의 물고기가 살수있으며, 물고기 개체 수는 월말에 이 현재 마리수에서 두 배로 늘어납니다. 예를 들어, 5명의 어부가 매월 각각 10톤의 물고기를 지속 가능하게 잡을 수 있지만, 그들이 잡는 총량이 50톤을 초과하면 개체 수가 감소하기 시작합니다.
2. 목초지 양 목축
에이전트들은 양치기이며 양 떼를 관리합니다. 매월 그들은 공유 목초지에 몇 마리의 양을 방목할지 결정합니다. 물고기와 마찬가지로 목초지는 최대 100헥타르의 풀이 자라고 각각의 양은 월 1헥타르의 풀을 소비하며, 남은 풀은 달마다 두 배로 늘어납니다.
3. 수질 오염
세 번째 시나리오인 오염에서 에이전트들은 공장 주인으로, 생산과 오염의 균형을 맞춰야 합니다. 생산된 위젯 팔레트(widget pallet)마다 공장은 공유 강물의 1%를 오염시킵니다. 이전 사례와 마찬가지로 월말에 오염되지 않은 물의 양이 두 배로 늘어납니다.
2.3 GOVSIM Environment Dynamics
2.3.1 Amount of Shared Resource
h(t), timestamp t 때 이용가능한 공유자원의 quantity
월초에 agent가 수확할 자원을 결정하는데 이 action을 privately하게 제출하고 실행
이후 결정들이 공개되고 다른 agent들과 communication할 opportunity를 가짐
h(t)가 C = 5 미만으로 떨어지면 자원이 붕괴되어 더 이상 아무것도 추출할 수 없게 됩니다. 각 시나리오는 T 시간 단계 동안 반복되는 공공재 게임의 유형을 설명합니다 [8]. 최적의 집단 행동에 대한 한계는 행위자들이 공동으로 지속 가능성 임계값을 초과하지 않도록 소비하는 것입니다.
2.3.2 Sustainability Threshold
f(t)은 다음 t+1 때 자원이 고갈되지 않고 t 때 추출 가능한 최대 자원량
g 는 future resource growth multiplier
->>
f(t) = max ({x | g (h(t) − x) ≥ h(t)})
2.4 metric 자세히
시뮬레이션 2개의 main phase
harvesting
discussion
3.3 Norm Robustness: A Greedy Newcomer
이기적인 agent를 추가함( perturbation )으로써 기존의 다른 agent들이 자원 고갈을 막기 위해 어떻게 행동하는지 robustness 측정
3.5 Ablation of Communication
github 코드 실행
hydra config - 딥러닝 소스코드 config 다룸
'agent > multi - agent' 카테고리의 다른 글
metagpt 논문리뷰 (0) | 2024.07.28 |
---|---|
LEGO: A Multi-agent Collaborative Framework with Role-playing andIterative Feedback for Causality Explanation Generation 논문리뷰 (0) | 2024.07.26 |
Debating with More Persuasive LLMs Leads to More Truthful Answers 논문리뷰 (0) | 2024.07.24 |
proagent : Building Proactive Cooperative Agents with Large Language Models논문리뷰 (0) | 2024.07.22 |
mixture of agents 논문 리뷰 (0) | 2024.06.23 |