https://arxiv.org/pdf/2305.20050
0. Abstract
outcome supervision
final result에 피드백ㄷ을 제공
process supervision
each intermediate reasoning step에 피드백을 제공
process supervision significantly outperforms outcome supervision for training models to solve problems from the challenging MATH dataset (PRM이 ORM보다 좋은것의 맥락)
2. Methods
2.1 scope
각 모델 scale에서, 모든 솔루션을 생성하기 위해 하나의 고정된 모델을 사용
이 모델을 생성기(generator)라고 함
강화 학습(RL)으로 생성기를 개선하려는 시도를 하지 않는다. outcome 감독과 process 감독에 대해 논의할 때, 이는 보상 모델에 제공되는 감독을 의미
생성기가 RL로 훈련될 경우 보상 모델로부터 받을 감독에 대해서는 논의하지 않는다. 생성기를 RL로 미세 조정하는 것이 자연스러운 다음 단계일 수 있지만, 이는 의도적으로 이 연구의 초점에서 제외되었다
대신, 가능한 한 가장 신뢰할 수 있는 보상 모델을 훈련하는 방법에만 집중
보상 모델을 평가할 때는 생성기에서 균등하게 샘플링된 솔루션들 중에서 최적의 솔루션을 탐색(best-of-N search)하는 능력에 기반해 평가
각 테스트 문제에 대해 보상 모델이 가장 높은 순위로 선택한 솔루션을 선택하고, 그 최종 답변을 기준으로 자동 채점을 진행하며, 그 중 정답인 비율을 보고
더 신뢰할 수 있는 보상 모델은 올바른 솔루션을 더 자주 선택할 것
- We train PRMs to predict the correctness of each step after the last token in each step.
각 단계의 마지막 토큰 뒤에 각 단계의 correctness을 예측하기 위해 PRM을 훈련 - This prediction takes the form of a single token, and we maximize the log-likelihood of these target tokens during training.
이 예측은 단일 토큰의 형태, 훈련 중에 이 target 토큰들의 log likelihood를 최대화 (?) - The PRM can therefore be trained in a standard language model pipeline without any special accommodations.
따라서 PRM은 별도의 조정 없이 표준 LLM 파이프라인에서 훈련될 수 있다. - To determine the step-level predictions at test time, it suffices to perform a single PRM forward pass over the whole solution.
테스트 시점에서 단계별 prediction을 결정하기 위해서는 전체 솔루션에 대해 단일 PRM forward pass를 수행하는 것으로 충분하다. - We visualize large-scale PRM scores for two different solutions in Figure 2.
우리는 그림 2에서 두 가지 다른 솔루션에 대한 PRM 점수를 시각화한다.
- To compare multiple solutions, it is necessary to compute a single score for each solution.
여러 솔루션을 비교하기 위해서는 각 솔루션에 대해 단일 점수를 계산할 필요가 있다. - This is an important but straightforward detail: we define the PRM score for a solution to be the probability that every step is correct under the PRM
- PRM 시 모든 단계가 올바를 확률 = 솔루션의 PRM 점수로 define
- We implement this as the product of the correctness probabilities for each step.
이를 각 단계의 correctness 확률의 곱으로 구현한다. - We describe other possible scoring strategies and additional PRM training details in Appendix F.
다른 가능한 점수 산정 전략과 추가적인 PRM 훈련 세부 사항을 부록 F에서 설명 - When we provide process supervision, we deliberately choose to supervise only up to the first incorrect step.
process 감독을 제공할 때, 일부러 첫 번째의 incorrect 단계까지만 감독하는 것을 선택한다. - This makes the comparison between outcome and process supervision more straightforward.
- For correct solutions, both methods provide the same information, namely that every step is correct.
올바른 솔루션에 대해서는, 두 방법 모두 모든 단계가 올바르다는 동일한 정보를 제공 - For incorrect solutions, both methods reveal the existence of at least one mistake, and process supervision additionally reveals the precise location of that mistake.
잘못된 솔루션에 대해서는, 두 방법 모두 적어도 하나의 실수가 있음을 드러내며, process 감독은 추가적으로 그 실수의 정확한 위치를 드러낸다. - If we were to provide additional process supervision beyond the first mistake, then process supervision would have an even greater information advantage.
첫 번째 실수 이후에 추가적인 프로세스 감독을 제공한다면, 프로세스 감독은 훨씬 더 큰 정보적 이점을 가지게 될 것이다 - This decision also keeps the labelling cost similar for humans: without relying on an easy-to-check final answer, determining the correctness of a solution is equivalent to identifying its first mistake.
이 결정은 또한 사람들에게 라벨링 비용을 유사하게 유지시킨다: 쉽게 확인할 수 있는 최종 답에 의존하지 않고, 솔루션의 올바름을 판단하는 것은 첫 번째 실수를 식별하는 것과 같다. - While most MATH problems do have easy-to-check final answers, we expect this to not remain true in more complex domains.
대부분의 수학 문제들은 쉽게 확인할 수 있는 최종 답을 가지고 있지만, 우리는 이것이 더 복잡한 도메인에서는 유지되지 않을 것이라고 기대한다.
결론 human label링으로 pRM을 훈련해 이 PRM verifier를 사용해 BoN을 돌릴시 ORM과 majority voting보다 좋은 성능을 보임