티스토리

이진욱님의 블로그
검색하기내 프로필
카테고리 없음

Regularized Best-of-N Sampling to Mitigate Reward Hacking forLanguage Model Alignment 논문리뷰

jinuklee 2024. 8. 29. 23:12

https://openreview.net/pdf?id=ewRlZPAReR

블로그 정보

이진욱님의 블로그

구독하기
이진욱님의 블로그, 블로그 홈
댓글수0
문의안내
  • 티스토리
  • 로그인
  • 고객센터
© Kakao Corp.