multi-step reasoning(수학, 코딩, 계획)
ToRA ( A TOOL-INTEGRATED REASONING AGENTFOR MATHEMATICAL PROBLEM SOLVING) 논문리뷰
jinuklee
2024. 8. 8. 12:51
https://openreview.net/pdf?id=Ep0TtjVoap

a 는 CoT, b는 PAL ,c는 ToRA의 tool(PAL)을 통합한 rationale(CoT)을 활용

imitation learning
GPT4 같은 모델을 써서 만든 ToRA corpus로 모델 M 학습진행
output space shaping
모델 M의 ToRA를 샘플링 후 이를 teacher model에 evaluate, validate 후 수정된 trajectory 를 corpus로 사용