https://arxiv.org/pdf/2312.06585
Generate (E-step): 모델을 사용해 샘플링후 필터링(binary feedback)
Improve (M-step): 이 샘플을 통해 finetuning
이 과정을 몇번 반복
We make some modifications to ReST (detailed in Section 3), and call our approach ReST𝐸𝑀. We show that ReST𝐸𝑀 can be viewed as applying expectation-maximization for reinforcement learning
models fine-tuned on model-generated synthetic data exhibit remarkably larger performance gains compared to those trained on human-written data (Figure 2, 3). Interestingly, exceeding a couple of iterations of ReST𝐸𝑀 leads to diminishing improvement, indicating potential overfitting on small amount of training problems (Figure 4). Additionally, models fine-tuned using ReST𝐸𝑀 improve pass@k as well as majority voting performance.
ReST를 RL의 expectation-maximization을 적용시키는것으로 볼수있다 viewed as
Expectation-Maximization(EM)은 주로 잠재 변수(숨겨진 변수)가 포함된 확률 모델에서 최대 우도 추정(maximum likelihood estimation)을 찾기 위해 사용되는 통계 기법입니다. 이 기법을 강화 학습(Reinforcement Learning, RL)과 결합하여 성능을 최적화하는 방법에 대해 설명해 드릴게요.
강화 학습에서의 EM 기법
- Optimality 변수 O:
- O는 특정 결과(예: 보상으로 이어지는 행동 시퀀스)가 최적(optimal)인지 여부를 나타내는 이진 변수입니다.
- O=1 이면 해당 결과가 최적이라는 의미이며, 즉 높은 보상을 얻는 결과입니다.
- 확률 p(O=1∣x,y)는 주어진 입력 와 출력 에 대해 그 결과가 최적일 가능성을 나타냅니다.
- 함수 f(r(x,y)):
- r(x,y)는 보상 함수로, 주어진 입력 x에 대한 출력 y의 질을 측정합니다.
- f는 이 보상 값을 확률 공간으로 매핑하는 비감소(non-decreasing), 비음수(non-negative) 함수입니다. 이 함수는 소프트맥스(softmax)나 시그모이드(sigmoid) 같은 형태일 수 있으며, 확률 p(O=1∣x,y)가 0과 1 사이에서 적절히 정규화되도록 합니다.
- 로그 우도 최대화:
- 목표는 주어진 입력 x에 대해 최적 결과(O=1)를 관찰할 가능성(로그 우도)을 최대화하는 것입니다.제시된 식 는 가능한 모든 출력 y에 대해 최적 결과를 관찰할 가능성의 로그를 나타냄
- 여기서 pθ(y∣x)는 현재 모델 파라미터 θ 하에서 입력 x에 대해 특정 출력 y를 생성할 확률입니다.
- p(O=1∣x,y)는 주어진 입력 x에 대해 출력 y가 최적일 확률
- 목표는 주어진 입력 x에 대해 최적 결과(O=1)를 관찰할 가능성(로그 우도)을 최대화하는 것입니다.제시된 식 는 가능한 모든 출력 y에 대해 최적 결과를 관찰할 가능성의 로그를 나타냄
- Expectation-Maximization 단계:
- E-step (기대 단계): 현재 모델 파라미터를 기준으로 잠재 변수(이 경우 최적 변수 O)의 기대값을 추정합니다.
- M-step (최대화 단계): E-step에서 계산된 기대 로그 우도를 최대화하도록 모델 파라미터 θ를 업데이트합니다.
요약
이 EM 프레임워크에서 강화 학습은 최적 결과일 확률을 반복적으로 추정(E-step)하고, 최적 결과를 생성할 가능성을 높이도록 모델을 조정(M-step)하는 방식으로 이루어집니다. 이 과정을 반복하면 점차적으로 높은 보상을 얻는 출력을 생성하는 모델로 수렴하게 됩니다.