https://arxiv.org/pdf/2407.04622
출발점
두 AI 사이의 토론을 통해 judge model에 올바른 대답을 선택하게 한다는 아이디어( AI safety via debate arxiv)에서 출발
토론에서의 nash equilibria 와 같이 두 AI 모두 가장 convincing(설득력 잇는) 방식으로 judge(심판) AI에게 진실을 말할 것이라는 hope

1. Introduction
유형
1. Extractive
질문과 그에 따른 답변 선택지 2개, 그리고 원본 source article
하지만 judge model can't see the article -> information-asymmetry
2. closed
질문과 그에 따른 답변 선택지 2개만 존재
3. multimodal
이미지 포함한 질문, 그에따른 답변 2개
여섯개의 protocol
1. consultancy
한개의 AI만이 존재 주장할 답변 선택지를 50/50 확률로 임명받음(correct/incorrect)
-> tries to convince judge model(이를 통해 설득)
2. open consultancy
위와 같지만 AI가 주장할 답변을 스스로 선택한다는 차이점 존재
3. debate
judge 를 convince 하기 위해 두 Ai가 서로 경쟁
4. open debate
protagonist , 주인공 debater 토론 참여자가 주장할 option을 하나 선택
5. QA with article
article이 주어지고 judge model이 아무런 토론,consultancy 없이 답변
6. QA without article
article 없이 judge model이 답변
5.Conclusion
multi-task 연구를 수행하여 scalable oversight 프로토콜, consultancy 및 debate, 그리고 이들의 open variant을 평가하고, 다양한 모델과 프로토콜에 대한 대규모 실험의 분석 결과를 보고
이전에 연구되지 않은 closed QA 작업에서 약한 judge들이 consultancy보다 debate 프로토콜에서 더 높은 정확도를 달성하고, 직접적인 질문 응답(direct QA)과 비슷한 수준의 정확도를 달성한다는 것을 발견했습니다.
또한, 새로운 확장 가능한 oversight 프로토콜인 open debate와 open consultancy를 구현함으로써 이러한 접근 방식의 장단점을 더욱 명확히 볼 수 있었습니다
consultant/debater가 올바르게 선택했을 때 약한 judge model들은 debate에 비해 consultancy에서 약간 더 나은 성과를 보이지만, consultant가 잘못 선택했을 때는 debate에 비해 consultancy에서 훨씬 더 나쁜 성과를 보입니다.
모든 작업에 걸쳐, 더 강한 debater들(Elo 점수로 측정)이 judge의 정확도를 높이는 것으로 나타났지만, 그 효과는 QuALITY 작업만을 연구한 Khan et al. (2024); Radhakrishnan (2023)에 비해 상대적으로 약했다.
우리는 이를 debate에 대한 weakly promising signal로 해석하지만, 이는 단지 debate가 훈련 프로토콜로서 어떻게 작용할지에 대한 proxy(대리, 잠재적 효과성을 간접적으로 나타내는 지표 )일 뿐임을 주목합니다(우리의 모든 실험은 inference-only만으로 수행되었습니다).
2.Related work
3. method
4.experiment