Weak-to-Strong Reasoning 논문리뷰 (Llama3-8b-instruct 로 Llama3-70b 훈련할때 supervise)

카테고리 없음

Weak-to-Strong Reasoning 논문리뷰 (Llama3-8b-instruct 로 Llama3-70b 훈련할때 supervise)

jinuklee 2024. 7. 22. 13:29

Full Weak FT” refers to the results of the baseline where the strong model is naively fine-tuned on the full dataset generated by the weak model

강한 모델이 약한 모델에 의해 파인튜닝됨

현재 약한 모델에서 강한 모델로의 추론 프레임워크( weak-to-strong reasoning framework )내에서, 단순한 미세 조정을 넘어서 약한 오류의 과적합을 방지하고 강한 모델의 본질적인 추론 능력을 더욱 끌어내기 위한 효과적인 방법이 부족한 상황입니다

첫 번째 단계에서, 더 정확할 가능성이 높은 적은 양의 데이터를 활용하는 것이 더 유리하다고 가정

약한 모델이 생성한 데이터 강한 모델이 ICL을 통해 자체 생성한 데이터를 결합

두 번째 단계에서는, 개선된 추론 능력을 갖춘 강한 모델을 개발한 후, 이 모델의 능력을 활용하여 선호도 최적화를 위한 대조 샘플

모델이 약한 모델의 오류로부터 효과적으로 학습

현재글Weak-to-Strong Reasoning 논문리뷰 (Llama3-8b-instruct 로 Llama3-70b 훈련할때 supervise)

이진욱님의 블로그

ai research memo for reference

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

이진욱님의 블로그

Weak-to-Strong Reasoning 논문리뷰 (Llama3-8b-instruct 로 Llama3-70b 훈련할때 supervise)

'카테고리 없음'의 다른글

티스토리툴바