https://openreview.net/pdf?id=Ep0TtjVoap
a 는 CoT, b는 PAL ,c는 ToRA의 tool(PAL)을 통합한 rationale(CoT)을 활용
imitation learning
GPT4 같은 모델을 써서 만든 ToRA corpus로 모델 M 학습진행
output space shaping
모델 M의 ToRA를 샘플링 후 이를 teacher model에 evaluate, validate 후 수정된 trajectory 를 corpus로 사용
'multi-step reasoning(수학, 코딩, 계획)' 카테고리의 다른 글
LLM Agents can Autonomously Hack Websites (0) | 2024.06.28 |
---|