vision language action 모델 VLA 모델의 가장 큰 문제점은 액션의 모달리티와 언어의 모달리티 사이의 mismatch 괴리가 있는 점이다.이는 비디오에서의 자막 captioning (비디오,언어 모달리티와의 합성)과 유사한데언어레벨의 액션 토큰은 매우 상당한 supervision을 필요로하고 모든 가능한 액션에 대해 정확히 묘사하지 못한다.이를 위해 behavior trajectories 를 통한 어떤 액션, 즉 행동에 대한 결과에 대한 묘사(양질의 지식을)를 behaviour tokenizer로 학습을 해 이를 잘 연구되있는 vision, language (비젼, 언어) 토크나이져의 토큰화된 토큰과 결합한다. 이후 autoregressive model에 학습 이 behaviour t..