카테고리 없음

Beyond Human Data: Scaling Self-Training forProblem-Solving with Language Models 논문리뷰

jinuklee 2024. 8. 17. 19:53

https://arxiv.org/pdf/2312.06585

Generate (E-step):  모델을 사용해 샘플링후 필터링(binary feedback) 

Improve (M-step): 이 샘플을 통해 finetuning

이 과정을 몇번 반복

 

We make some modifications to ReST (detailed in Section 3), and call our approach ReST𝐸𝑀. We show that ReST𝐸𝑀 can be viewed as applying expectation-maximization for reinforcement learning

 

models fine-tuned on model-generated synthetic data exhibit remarkably larger performance gains compared to those trained on human-written data (Figure 2, 3). Interestingly, exceeding a couple of iterations of ReST𝐸𝑀 leads to diminishing improvement, indicating potential overfitting on small amount of training problems (Figure 4). Additionally, models fine-tuned using ReST𝐸𝑀 improve pass@k as well as majority voting performance.

 

ReST를 RL의 expectation-maximization을 적용시키는것으로 볼수있다 viewed as

 

Expectation-Maximization(EM)은 주로 잠재 변수(숨겨진 변수)가 포함된 확률 모델에서 최대 우도 추정(maximum likelihood estimation)을 찾기 위해 사용되는 통계 기법입니다. 이 기법을 강화 학습(Reinforcement Learning, RL)과 결합하여 성능을 최적화하는 방법에 대해 설명해 드릴게요.

강화 학습에서의 EM 기법

  1. Optimality 변수 O:
    • O는 특정 결과(예: 보상으로 이어지는 행동 시퀀스)가 최적(optimal)인지 여부를 나타내는 이진 변수입니다.
    • O=1 이면 해당 결과가 최적이라는 의미이며, 즉 높은 보상을 얻는 결과입니다.
    • 확률 p(O=1∣x,y)는 주어진 입력 와 출력 에 대해 그 결과가 최적일 가능성을 나타냅니다.
  2. 함수 f(r(x,y)):
    • r(x,y)는 보상 함수로, 주어진 입력 x에 대한 출력 y의 질을 측정합니다.
    • f는 이 보상 값을 확률 공간으로 매핑하는 비감소(non-decreasing), 비음수(non-negative) 함수입니다. 이 함수는 소프트맥스(softmax)나 시그모이드(sigmoid) 같은 형태일 수 있으며, 확률 p(O=1∣x,y)가 0과 1 사이에서 적절히 정규화되도록 합니다.
  3. 로그 우도 최대화:
    • 목표는 주어진 입력 x에 대해 최적 결과(O=1)를 관찰할 가능성(로그 우도)을 최대화하는 것입니다.제시된 식 는 가능한 모든 출력 y에 대해 최적 결과를 관찰할 가능성의 로그를 나타냄 
      • 여기서 pθ(y∣x)는 현재 모델 파라미터 θ 하에서 입력 x에 대해 특정 출력 y를 생성할 확률입니다.
      • p(O=1∣x,y)는 주어진 입력 x에 대해 출력 y가 최적일 확률

  1. Expectation-Maximization 단계:
    • E-step (기대 단계): 현재 모델 파라미터를 기준으로 잠재 변수(이 경우 최적 변수 O)의 기대값을 추정합니다.
    • M-step (최대화 단계): E-step에서 계산된 기대 로그 우도를 최대화하도록 모델 파라미터 θ를 업데이트합니다.

요약

이 EM 프레임워크에서 강화 학습은 최적 결과일 확률을 반복적으로 추정(E-step)하고, 최적 결과를 생성할 가능성을 높이도록 모델을 조정(M-step)하는 방식으로 이루어집니다. 이 과정을 반복하면 점차적으로 높은 보상을 얻는 출력을 생성하는 모델로 수렴하게 됩니다.