ReST-MCTS 논문리뷰
self training에서는 intermediate 에러(wrong or useless)가 있는데도 우연히 결과가 올바른 false positive 데이터가 만들어지는 경우가 있다One way to tackle this issue 에는 verifier나 reward model이 있는데 (math-sheperd 논문, let's verify step by step 논문) 실제로 ReST , Self-Rewarding CoT , ToT, Self-Consistency , Best-of-N 를 outperform SC 다수의 reasoning trace 샘플후 frequent 선택BoNPRM 또는 ORM이 선택하는 것이 BoNHistorically, the main challenge with learni..