multi-step reasoning(수학, 코딩, 계획)

ToRA ( A TOOL-INTEGRATED REASONING AGENTFOR MATHEMATICAL PROBLEM SOLVING) 논문리뷰

jinuklee 2024. 8. 8. 12:51

https://openreview.net/pdf?id=Ep0TtjVoap

a 는 CoT, b는 PAL ,c는 ToRA의 tool(PAL)을 통합한 rationale(CoT)을 활용

imitation learning

GPT4 같은 모델을 써서 만든 ToRA corpus로 모델 M 학습진행

 

output space shaping 

모델 M의 ToRA를 샘플링 후 이를 teacher model에 evaluate, validate 후 수정된 trajectory 를 corpus로 사용