table 이해 및 Q&A 모델
https://arxiv.org/pdf/2404.07181
table 이해
제약 - Ligand 3D 디자인 : 디퓨전 사용
https://arxiv.org/pdf/2403.07902
그래픽 레이아웃 디자인
https://arxiv.org/pdf/2404.14368
그래픽 레이아웃 생성 멀티모달 모델
RGB-A 이미지를 인풋으로 써서 json draft 프로토콜을 결과로 생성한다
사용한 데이터셋은 아래와 같다
https://huggingface.co/datasets?other=graphic%20design
https://huggingface.co/Lin-Chen/ShareGPT4V-7B
https://huggingface.co/datasets/cyberagent/crello
사용한 off the shelf 모델 즉, 대체가능한 모델에는
RGBA-Encoder로 ViT-L/14 (with 224 × 224 four-channel input)
CLIP visual tower 파라미터로 훈련 첫 진행(initailize)한다
https://huggingface.co/openai/clip-vit-large-patch14
LLM
Qwen1.5-0.5B - tiny 버젼 https://huggingface.co/Qwen/Qwen1.5-0.5B
Qwen1.5-7B - small 버젼를 사용했다