Self-Training with Direct Preference OptimizationImproves Chain-of-Thought Reasoning 논문리뷰

카테고리 없음

Self-Training with Direct Preference OptimizationImproves Chain-of-Thought Reasoning 논문리뷰

jinuklee 2024. 8. 18. 01:17

https://arxiv.org/pdf/2407.18248

현재글Self-Training with Direct Preference OptimizationImproves Chain-of-Thought Reasoning 논문리뷰

이진욱님의 블로그

ai research memo for reference

Today :
Yesterday :

티스토리툴바