카테고리 없음

video-STaR

jinuklee 2024. 7. 15. 17:20

Q* - part 2

Video-STaR - 2024년 7월 8일자 논문
https://arxiv.org/abs/2407.06189

visual-language alignment , instruction tuning를 통한 LVLM에서
향상된 instruction 데이터 생성이 목표
(라벨링된 어느 비디오 데이터든 적용 가능함)

----------
Self-Taught Reasoners (STaR)

LLM에 프롬프트를 통해 요청하여 CoT 형태로 답변 생성(rationalized), 올바른 답변된 질문만을 추가 훈련에 사용하는 방식
----------

verifier를 통해 label 에 포함된 단어가 있는 답변만 통과되는 형식 등 사용해 self training with augmented Reasoning(STaR)를 실행

 

0. 질문 생성

여러개의 질문 후보군을 생성 (TASK에 대한 묘사와 비디오 데이터의 라벨을 포함해서 프롬프트)

 

kinetics 실제 질문 생성


1. 답변 생성
환각을 줄이기 위한 verifier을 활용해 답변 생성

 


2.라벨 rationalization


답변 생성의 주요 두가지 단점 보완

1. 일부 응용 분야, 특히 challenging, 도메인을 벗어난 task에서는 초기 답변 생성 비율이 낮아 필터링 후(verifier)에는 거의 훈련 샘플이 남지 않음

2. 모델이 훈련 세트의 새로운 문제를 해결하지 못하고 올바르게 답변한 예시로만 훈련되기 때문에 개선이 정체

 

 

 

과정

0번 사이클 답변(적절)생성 x or 라벨 rationalize x

1번 사이클시 답변생성 x 후 라벨 rationalize 성공 -> 학습에 사용

2번 사이클시 이를 선택하는 모습 (verified 답변생성) -> 학습에 사용

 

실제 1,2 프롬프트 예시

3. LABEL VERIFICATION

라벨을 PARSER-verifier 을 통해 골드, 즉 gt(ground truth)라벨인지 확인

각 비디오에는 1-3개의 관련 label

정확한 것으로 분류되려면 예측된 label이 골드 label의 5% 오차 범위 내에 있어야함

IoU,  bert 임베딩 유사도 등 사용

요약

즉 LVLM으로 생성된 답변이 (2.1) 필터링 후(2.3) 라벨을 포함하고 있으면 바로 instruction-tuning 아니면 label rationalization(2.2)을 거쳐 라벨을 rationalize한 후 필터링 후(2.3) instruction-tuning하는 식

실제 실험에 사용된

여러데이터셋 벤치마크 예시