Improving Reward Models with Synthetic Critiques 논문리뷰

inference-time, RLHF/Process reward model

Improving Reward Models with Synthetic Critiques 논문리뷰

jinuklee 2024. 8. 29. 00:56

https://arxiv.org/pdf/2405.20850