https://arxiv.org/abs/2312.08935
수학 문제 해결에서 각 step에 reward를 주게 train된 PRM
https://huggingface.co/datasets/peiyi9979/Math-Shepherd?row=89
https://arxiv.org/abs/2312.08935
수학 문제 해결에서 각 step에 reward를 주게 train된 PRM
https://huggingface.co/datasets/peiyi9979/Math-Shepherd?row=89