Generative verifiers 논문리뷰

inference-time, RLHF/Process reward model

Generative verifiers 논문리뷰

jinuklee 2024. 8. 28. 14:56

Generative verifiers
2024년 8월 27일자 논문

PRM, ORM verifier가 LLM의 reasoning 퍼포먼스를 올리기 위해 사용되는데
흔한 방식으로는 BoN, 여러 후보를 생성후 verifier로 rank한후 best를 선택

이때의 verifier는 정확히 score만을 위한 classifier로 train됨

이는 LLM의 텍스트 생성 능력을 활용하지 못하는 것

또한 LLM as judge와 달리 이 verifier는 LLM기반 verifier임으로 majority voting과 같은 strategy도 사용가능 (CoT도 가능)

'inference-time, RLHF > Process reward model' 카테고리의 다른 글

MULTI-STEP PROBLEM SOLVING THROUGH A VERIFIER: ANEMPIRICAL ANALYSIS ON MODEL-INDUCED PROCESSSUPERVISION 논문리뷰 (0)	2024.08.29
Improving Reward Models with Synthetic Critiques 논문리뷰 (0)	2024.08.29
V-star: Training verifiers for self-taught reasoners 논문리뷰 (0)	2024.08.27
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations 논문리뷰 (0)	2024.08.23
OmegaPRM - Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision 논문리뷰 (0)	2024.08.23

현재글Generative verifiers 논문리뷰

이진욱님의 블로그

ai research memo for reference

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

이진욱님의 블로그

Generative verifiers 논문리뷰

'inference-time, RLHF > Process reward model' 카테고리의 다른 글

'inference-time, RLHF/Process reward model'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Generative verifiers 논문리뷰

'inference-time, RLHF > Process reward model' 카테고리의 다른 글

'inference-time, RLHF/Process reward model'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역