REVISIT LARGE-SCALE IMAGE-CAPTION DATA IN PRETRAINING MULTIMODAL FOUNDATION MODELS 논문리뷰

inference-time, RLHF/STaR, ResT - LMM

jinuklee 2024. 10. 9. 14:11

GLOV: GUIDED LARGE LANGUAGE MODELS AS IMPLICIT OPTIMIZERS FOR VISION LANGUAGE MODELS 논문리뷰 (0)	2024.10.12
LMM의 DPO : Aligning Modalities in Vision Large Language Models via Preference Fine-tuning 논문리뷰 (0)	2024.10.09
[CVPR 2024] Rich Human Feedback for Text-to-Image Generation 논문리뷰 (0)	2024.10.09
LLaVA-Video-178K : Video Instruction Tuning With Synthetic Data 논문리뷰 (0)	2024.10.09
llava-critic 논문리뷰 (0)	2024.10.09

현재글REVISIT LARGE-SCALE IMAGE-CAPTION DATA IN PRETRAINING MULTIMODAL FOUNDATION MODELS 논문리뷰

이진욱님의 블로그

ai research memo for reference

이진욱님의 블로그