이진욱님의 블로그
홈
태그
방명록
빅테크 리포트
LLM
멀티모달
디퓨전 모델
카테고리 없음
Regularized Best-of-N Sampling to Mitigate Reward Hacking forLanguage Model Alignment 논문리뷰
jinuklee
2024. 8. 29. 23:12
https://openreview.net/pdf?id=ewRlZPAReR
공유하기
게시글 관리
이진욱님의 블로그
티스토리툴바
이진욱님의 블로그
구독하기