반응형
https://openreview.net/pdf?id=Ep0TtjVoap

a 는 CoT, b는 PAL ,c는 ToRA의 tool(PAL)을 통합한 rationale(CoT)을 활용

imitation learning
GPT4 같은 모델을 써서 만든 ToRA corpus로 모델 M 학습진행
output space shaping
모델 M의 ToRA를 샘플링 후 이를 teacher model에 evaluate, validate 후 수정된 trajectory 를 corpus로 사용
반응형
'multi-step reasoning(수학, 코딩, 계획)' 카테고리의 다른 글
| LLM Agents can Autonomously Hack Websites (0) | 2024.06.28 |
|---|