VideoPrism: A Foundational Visual Encoder for Video Understanding

VLM

jinuklee 2024. 9. 30. 15:35

VideoLLaMA 2Advancing Spatial-Temporal Modeling and AudioUnderstanding in Video-LLM (0)	2024.09.30
INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING 논문리뷰 (0)	2024.09.30
Qwen2-VL: Enhancing Vision-Language Model’s Perceptionof the World at Any Resolution (0)	2024.09.21
An interactive agent foundation model 논문리뷰 (0)	2024.09.14

이진욱님의 블로그

ai research memo for reference

이진욱님의 블로그