이진욱님의 블로그
홈
태그
방명록
빅테크 리포트
LLM
멀티모달
디퓨전 모델
VLM
VideoPrism: A Foundational Visual Encoder for Video Understanding
jinuklee
2024. 9. 30. 15:35
https://arxiv.org/pdf/2402.13217
공유하기
게시글 관리
이진욱님의 블로그
'
VLM
' 카테고리의 다른 글
VideoLLaMA 2Advancing Spatial-Temporal Modeling and AudioUnderstanding in Video-LLM
(0)
2024.09.30
INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING 논문리뷰
(0)
2024.09.30
Qwen2-VL: Enhancing Vision-Language Model’s Perceptionof the World at Any Resolution
(0)
2024.09.21
An interactive agent foundation model 논문리뷰
(0)
2024.09.14
티스토리툴바
이진욱님의 블로그
구독하기