[Paper Review] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-Qwen-VL-A-Versatile-Vision-Language-Model-for-Understanding-Localization-Text-Reading-and-Beyond
1
WANG, Peng, et al. Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024.
์ด๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ ์ธ์ํ๊ณ ์ดํดํ๋๋ก ์ค๊ณ๋ ๋๊ท๋ชจ vision-language ๋ชจ๋ธ(LVLM)์ธ Qwen-VL ์๋ฆฌ์ฆ๋ฅผ ์๊ฐํฉ๋๋ค. Qwen-LM์ ๊ธฐ๋ฐ์ผ๋ก ์์ํ์ฌ, ์ธ์ฌํ๊ฒ ์ค๊ณ๋ (i) visual receptor, (ii) input-output interface, (iii) 3๋จ๊ณ training pipeline, (iv) ๋ค๊ตญ์ด multimodal ์ ์ ์ฝํผ์ค๋ฅผ ํตํด visual capacity๋ฅผ ๋ถ์ฌํ์ต๋๋ค. ๊ธฐ์กด์ ์ด๋ฏธ์ง ์ค๋ช ๋ฐ ์ง์์๋ต์ ๋์ด์, image-caption-box tuple์ ์ ๋ ฌํ์ฌ Qwen-VL์ grounding ๋ฐ text-reading ๋ฅ๋ ฅ์ ๊ตฌํํ์ต๋๋ค. Qwen-VL๊ณผ Qwen-VL-Chat์ ํฌํจํ ๊ฒฐ๊ณผ ๋ชจ๋ธ๋ค์ ๋น์ทํ ๋ชจ๋ธ ๊ท๋ชจ์ generalist ๋ชจ๋ธ๋ค ์ค์์ ๋ค์ํ visual-centric benchmark(์: ์ด๋ฏธ์ง ์บก์ ๋, ์ง์์๋ต, visual grounding)์ ๋ค์ํ ์ค์ (์: zero-shot, few-shot)์์ ์๋ก์ด ๊ธฐ๋ก์ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ ์ค์ ๋ํ benchmark์์๋ instruction-tuned๋ Qwen-VL-Chat์ด ๊ธฐ์กด vision-language chatbot๋ค์ ๋นํด ์ฐ์์ฑ์ ๋ณด์ฌ์ค๋๋ค. ๋ชจ๋ ๋ชจ๋ธ์ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ด์งํ๊ธฐ ์ํด ๊ณต๊ฐ๋ฉ๋๋ค.
-
์๋ก
์ต๊ทผ Large Language Model(LLM) (Brown et al., 2020; OpenAI, 2023; Anil et al., 2023; Gao et al., 2023; Qwen, 2023)๋ค์ด ํ ์คํธ ์์ฑ ๋ฐ ์ดํด์ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ผ๋ก ์ธํด ํฐ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ instruction fine-tuning์ ํตํด ์ฌ์ฉ์ ์๋์ ๋์ฑ ์ ์ ๋ ฌ๋ ์ ์์ผ๋ฉฐ, ๊ฐ๋ ฅํ ์ํธ์์ฉ ๋ฅ๋ ฅ๊ณผ ์ง๋ฅํ ์ด์์คํดํธ๋ก์ ์์ฐ์ฑ์ ํฅ์์ํฌ ์ ์๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๊ทธ๋ฌ๋ native large language model๋ค์ ์์ํ ํ ์คํธ ์ธ๊ณ์๋ง ์กด์ฌํ๋ฉฐ, ๋ค๋ฅธ ์ผ๋ฐ์ ์ธ modality(์ด๋ฏธ์ง, ์์ฑ, ๋น๋์ค ๋ฑ)๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํด ์์ฉ ๋ฒ์์ ํฐ ์ ์ฝ์ด ์์ต๋๋ค. ์ด๋ฌํ ๋๊ธฐ๋ก, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์๊ฐ์ ์ ํธ๋ฅผ ์ธ์ํ๊ณ ์ดํดํ ์ ์๋ ๋ฅ๋ ฅ์ผ๋ก ํฅ์์ํจ Large Vision Language Model(LVLM) ๊ทธ๋ฃน (Alayrac et al., 2022; Chen et al., 2022; Li et al., 2023c; Dai et al., 2023; Huang et al., 2023; Peng et al., 2023; Zhu et al., 2023; Liu et al., 2023; Ye et al., 2023b,a; Chen et al., 2023a; Li et al., 2023a; Zhang et al., 2023; Sun et al., 2023; OpenAI, 2023)์ด ๊ฐ๋ฐ๋์์ต๋๋ค. ์ด๋ฌํ ๋๊ท๋ชจ vision-language ๋ชจ๋ธ๋ค์ ์ค์ vision-central ๋ฌธ์ ํด๊ฒฐ์์ ์ ๋งํ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ LVLM์ ํ๊ณ์ ์ ์ฌ๋ ฅ์ ํ๊ตฌํ๊ธฐ ์ํ ๋ง์ ์ฐ๊ตฌ๊ฐ ์ํ๋์์์๋, ํ์ฌ ์คํ์์ค LVLM๋ค์ ํญ์ ๋ถ์ ์ ํ ํ๋ จ๊ณผ ์ต์ ํ๋ก ์ธํด ์ด๋ ค์์ ๊ฒช๊ณ ์์ผ๋ฉฐ, ์ด๋ ๋ ์ ๋ชจ๋ธ๋ค(Chen et al., 2022, 2023b; OpenAI, 2023)๋ณด๋ค ํจ์ฌ ๋ค์ฒ์ ธ ์์ด ์คํ์์ค ์ปค๋ฎค๋ํฐ์์์ LVLM์ ๋ํ ์ถ๊ฐ์ ์ธ ํ๊ตฌ์ ์์ฉ์ ์ ํดํ๊ณ ์์ต๋๋ค. ๋์ฑ์ด ์ค์ ์๊ฐ์ ์๋๋ฆฌ์ค๋ ์๋นํ ๋ณต์กํ๋ฏ๋ก, ์ธ๋ฐํ ์๊ฐ์ ์ดํด๊ฐ LVLM์ด ์ฌ๋๋ค์ ํจ๊ณผ์ ์ด๊ณ ์ ํํ๊ฒ ๋์ธ ์ ์๋ ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉํฅ์ผ๋ก๋ ์์์ ์๋๋ง์ด ์ด๋ฃจ์ด์ก์ผ๋ฉฐ(Peng et al., 2023; Chen et al., 2023a), ๋๋ถ๋ถ์ ์คํ์์ค LVLM๋ค์ ์ฌ์ ํ ๊ฑฐ์น ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๊ณ ์์ผ๋ฉฐ object grounding์ด๋ text reading๊ณผ ๊ฐ์ ์ธ๋ฐํ ์ธ์์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ ๋ชจ์ํ๊ณ ์คํ์์ค Qwen ํจ๋ฐ๋ฆฌ์ ์ต์ ๊ตฌ์ฑ์์ธ Qwen-VL ์๋ฆฌ์ฆ๋ฅผ ์ ์ํฉ๋๋ค. Qwen-VL๋ค์ Qwen-7B (Qwen, 2023) ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ณ ์ฑ๋ฅ์ด๊ณ ๋ค์ฌ๋ค๋ฅํ vision-language foundation ๋ชจ๋ธ ์๋ฆฌ์ฆ์ ๋๋ค. ์ธ์ด ์ ๋ ฌ๋ visual encoder์ ์์น ์ธ์ adapter๋ฅผ ํฌํจํ ์๋ก์ด visual receptor๋ฅผ ๋์ ํ์ฌ LLM basement์ visual capacity๋ฅผ ๋ถ์ฌํ์ต๋๋ค. ์ ์ฒด ๋ชจ๋ธ ์ํคํ ์ฒ์ input-output interface๋ ์๋นํ ๊ฐ๊ฒฐํ๋ฉฐ, ๋ฐฉ๋ํ image-text corpus collection์์ ์ ์ฒด ๋ชจ๋ธ์ ์ต์ ํํ๊ธฐ ์ํด 3๋จ๊ณ training pipeline์ ์ ๊ตํ๊ฒ ์ค๊ณํ์ต๋๋ค.
์ฌ์ ํ๋ จ๋ checkpoint์ธ Qwen-VL์ ์๊ฐ์ ์ ๋ ฅ์ ์ธ์ํ๊ณ ์ดํดํ๋ฉฐ, ์ฃผ์ด์ง prompt์ ๋ฐ๋ผ ์ํ๋ ์๋ต์ ์์ฑํ๊ณ , ์ด๋ฏธ์ง ์บก์ ๋, ์ง์์๋ต, ํ ์คํธ ์งํฅ ์ง์์๋ต, visual grounding๊ณผ ๊ฐ์ ๋ค์ํ vision-language ์์ ์ ์ํํ ์ ์์ต๋๋ค. Qwen-VL-Chat์ Qwen-VL์ ๊ธฐ๋ฐ์ผ๋ก ํ instruction-tuned vision-language chatbot์ ๋๋ค. ๊ทธ๋ฆผ 2์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, Qwen-VL-Chat์ ์ฌ์ฉ์์ ์ํธ์์ฉํ๊ณ ์ฌ์ฉ์์ ์๋์ ๋ฐ๋ผ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ ์ ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, Qwen-VL ์๋ฆฌ์ฆ ๋ชจ๋ธ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
โข ์ต๊ณ ์ ์ฑ๋ฅ: Qwen-VL๋ค์ ๋น์ทํ ๊ท๋ชจ์ counterpart๋ค์ ๋นํด ๋ค์ํ vision-centric ์ดํด benchmark์์ ์ต๊ณ ์์ค์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ Qwen-VL์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๊ธฐ์กด benchmark(์: captioning, question-answering, grounding) ๋ฟ๋ง ์๋๋ผ ์ต๊ทผ์ ๋์ ๋ ์ผ๋ถ ๋ํ benchmark์์๋ ํ์ธ๋ฉ๋๋ค.
โข ๋ค๊ตญ์ด: Qwen-LM๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, Qwen-VL๋ค์ ์๋นํ ์์ corpus๊ฐ ์์ด์ ์ค๊ตญ์ด๋ก ๊ตฌ์ฑ๋ ๋ค๊ตญ์ด image-text ๋ฐ์ดํฐ๋ก ํ๋ จ๋์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก Qwen-VL๋ค์ ์์ด, ์ค๊ตญ์ด ๋ฐ ๋ค๊ตญ์ด instruction์ ์์ฐ์ค๋ฝ๊ฒ ์ง์ํฉ๋๋ค.
โข Multi-image: ํ๋ จ ๋จ๊ณ์์ ์์๋ก interleaved๋ image-text ๋ฐ์ดํฐ๋ฅผ Qwen-VL์ ์ ๋ ฅ์ผ๋ก ํ์ฉํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ ํตํด Qwen-Chat-VL์ ์ฌ๋ฌ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ context๋ฅผ ๋น๊ต, ์ดํด ๋ฐ ๋ถ์ํ ์ ์์ต๋๋ค.
โข ์ธ๋ฐํ ์๊ฐ์ ์ดํด: ํ๋ จ์์ ์ฌ์ฉํ ๋ ๋์ ํด์๋์ ์ ๋ ฅ ํฌ๊ธฐ์ ์ธ๋ฐํ corpus ๋๋ถ์, Qwen-VL๋ค์ ๋์ ๊ฒฝ์๋ ฅ์ ๊ฐ์ง ์ธ๋ฐํ ์๊ฐ์ ์ดํด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ๊ธฐ์กด vision-language generalist๋ค๊ณผ ๋น๊ตํด, Qwen-VL๋ค์ grounding, text-reading, ํ ์คํธ ์งํฅ ์ง์์๋ต, ์ธ๋ฐํ ๋ํ ์ฑ๋ฅ์์ ํจ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
-
๋ฐฉ๋ฒ๋ก
2.1 ๋ชจ๋ธ ์ํคํ ์ฒ
Qwen-VL์ ์ ์ฒด ๋คํธ์ํฌ ์ํคํ ์ฒ๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ๋ชจ๋ธ parameter์ ์ธ๋ถ ์ฌํญ์ ํ 1์ ๋์ ์์ต๋๋ค:
Large Language Model: Qwen-VL์ large language model์ ๊ธฐ์ด ๊ตฌ์ฑ ์์๋ก ์ฑํํฉ๋๋ค. ๋ชจ๋ธ์ Qwen-7B (Qwen, 2023)์ ์ฌ์ ํ๋ จ๋ weights๋ก ์ด๊ธฐํ๋ฉ๋๋ค.
Visual Encoder: Qwen-VL์ visual encoder๋ Vision Transformer (ViT) (Dosovitskiy et al., 2021) ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ฉฐ, Openclip์ ViT-bigG (Ilharco et al., 2021)์ ์ฌ์ ํ๋ จ๋ weights๋ก ์ด๊ธฐํ๋ฉ๋๋ค. ํ๋ จ ๋ฐ ์ถ๋ก ๊ณผ์ ์์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ ํน์ ํด์๋๋ก ํฌ๊ธฐ๊ฐ ์กฐ์ ๋ฉ๋๋ค. visual encoder๋ ์ด๋ฏธ์ง๋ฅผ stride 14๋ก patch๋ค๋ก ๋ถํ ํ์ฌ ์ฒ๋ฆฌํ๊ณ , ์ด๋ฏธ์ง feature๋ค์ set์ ์์ฑํฉ๋๋ค.
Position-aware Vision-Language Adapter: ๊ธด ์ด๋ฏธ์ง feature sequence๋ก ์ธํ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด, Qwen-VL์ ์ด๋ฏธ์ง feature๋ค์ ์์ถํ๋ vision-language adapter๋ฅผ ๋์ ํฉ๋๋ค. ์ด adapter๋ ๋ฌด์์๋ก ์ด๊ธฐํ๋ single-layer cross-attention module๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ชจ๋์ trainable vector๋ค(Embedding) ๊ทธ๋ฃน์ query vector๋ก ์ฌ์ฉํ๊ณ , visual encoder์ ์ด๋ฏธ์ง feature๋ค์ cross-attention ์ฐ์ฐ์ key๋ก ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฉ์ปค๋์ฆ์ visual feature sequence๋ฅผ 256์ ๊ณ ์ ๊ธธ์ด๋ก ์์ถํฉ๋๋ค. query ์์ ๋ํ ablation์ ๋ถ๋ก E.2์ ๋์ ์์ต๋๋ค. ๋ํ ์ธ๋ฐํ ์ด๋ฏธ์ง ์ดํด๋ฅผ ์ํ ์์น ์ ๋ณด์ ์ค์์ฑ์ ๊ณ ๋ คํ์ฌ, ์์ถ ์ค ์์น ์ธ๋ถ ์ฌํญ์ ์ ์ฌ์ ์์ค์ ์ํํ๊ธฐ ์ํด 2D absolute positional encoding์ด cross-attention ๋ฉ์ปค๋์ฆ์ query-key pair์ ํตํฉ๋ฉ๋๋ค. ๊ธธ์ด 256์ ์์ถ๋ ์ด๋ฏธ์ง feature sequence๋ ์ดํ large language model์ ์ ๋ ฅ๋ฉ๋๋ค.
2.2 ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ
Image Input: ์ด๋ฏธ์ง๋ visual encoder์ adapter๋ฅผ ํตํด ์ฒ๋ฆฌ๋์ด ๊ณ ์ ๊ธธ์ด์ ์ด๋ฏธ์ง feature sequence๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ฏธ์ง feature ์
๋ ฅ๊ณผ ํ
์คํธ feature ์
๋ ฅ์ ๊ตฌ๋ณํ๊ธฐ ์ํด, ๋ ๊ฐ์ ํน์ ํ ํฐ(์ )์ด ์ด๋ฏธ์ง feature sequence์ ์์๊ณผ ๋์ ๊ฐ๊ฐ ์ถ๊ฐ๋์ด ์ด๋ฏธ์ง ์ฝํ
์ธ ์ ์์๊ณผ ๋์ ๋ํ๋
๋๋ค.
Bounding Box Input and Output: ๋ชจ๋ธ์ ์ธ๋ฐํ ์๊ฐ์ ์ดํด ๋ฐ grounding capacity๋ฅผ ํฅ์์ํค๊ธฐ ์ํด, Qwen-VL์ ํ๋ จ์๋ ์ง์ญ ์ค๋ช , ์ง๋ฌธ ๋ฐ detection ํํ์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ฉ๋๋ค. ์ด๋ฏธ์ง-ํ ์คํธ ์ค๋ช ์ด๋ ์ง๋ฌธ์ ํฌํจํ๋ ๊ธฐ์กด ์์ ๊ณผ ๋ฌ๋ฆฌ, ์ด ์์ ์ ๋ชจ๋ธ์ด ์ง์ ๋ ํ์์ผ๋ก ์ง์ญ ์ค๋ช ์ ์ ํํ๊ฒ ์ดํดํ๊ณ ์์ฑํด์ผ ํฉ๋๋ค. ์ฃผ์ด์ง bounding box์ ๋ํด ์ ๊ทํ ๊ณผ์ ([0, 1000) ๋ฒ์ ๋ด)์ด ์ ์ฉ๋๊ณ ์ง์ ๋ ๋ฌธ์์ด ํ์์ผ๋ก ๋ณํ๋ฉ๋๋ค: โ(X_topleft, Y_topleft),(X_bottomright, Y_bottomright)โ. ์ด ๋ฌธ์์ด์ ํ ์คํธ๋ก ํ ํฐํ๋๋ฉฐ ์ถ๊ฐ์ ์ธ ์์น vocabulary๊ฐ ํ์ํ์ง ์์ต๋๋ค. detection ๋ฌธ์์ด๊ณผ ์ผ๋ฐ ํ ์คํธ ๋ฌธ์์ด์ ๊ตฌ๋ณํ๊ธฐ ์ํด, ๋ ๊ฐ์ ํน์ ํ ํฐ(์ )์ด bounding box ๋ฌธ์์ด์ ์์๊ณผ ๋์ ์ถ๊ฐ๋ฉ๋๋ค. ๋ํ bounding box๋ฅผ ํด๋นํ๋ ์ค๋ช ๋จ์ด๋ ๋ฌธ์ฅ๊ณผ ์ ์ ํ ์ฐ๊ด์ํค๊ธฐ ์ํด, ๋ ๋ค๋ฅธ ํน์ ํ ํฐ set(์ )์ด ๋์ ๋์ด bounding box๊ฐ ์ฐธ์กฐํ๋ ๋ด์ฉ์ ํ์ํฉ๋๋ค.
-
ํ๋ จ
๊ทธ๋ฆผ 3์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, Qwen-VL ๋ชจ๋ธ์ ํ๋ จ ๊ณผ์ ์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: ๋ ๋จ๊ณ์ pre-training๊ณผ ๋ง์ง๋ง instruction fine-tuning ํ๋ จ ๋จ๊ณ์ ๋๋ค.
3.1 Pre-training
์ฒซ ๋ฒ์งธ pre-training ๋จ๊ณ์์๋ ์ฃผ๋ก ๋๊ท๋ชจ์ weakly labeled, ์น์์ ํฌ๋กค๋ง๋ image-text pair set์ ์ฌ์ฉํฉ๋๋ค. ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ฌ๋ฌ ๊ณต๊ฐ์ ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅํ ์์ค์ ์ผ๋ถ in-house ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํน์ ํจํด์ ๋ฐ์ดํฐ์ ์ ์ ๋ฆฌํ๊ธฐ ์ํด ๋ ธ๋ ฅํ์ต๋๋ค. ํ 2์ ์์ฝ๋ ๋ฐ์ ๊ฐ์ด, ์๋ ๋ฐ์ดํฐ์ ์ ์ด 50์ต ๊ฐ์ image-text pair๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ, ์ ๋ฆฌ ํ 14์ต ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ๋จ์๊ณ , ๊ทธ ์ค 77.3%๊ฐ ์์ด(ํ ์คํธ) ๋ฐ์ดํฐ, 22.7%๊ฐ ์ค๊ตญ์ด(ํ ์คํธ) ๋ฐ์ดํฐ์ ๋๋ค.
์ด ๋จ๊ณ์์๋ large language model์ ๋๊ฒฐํ๊ณ vision encoder์ VL adapter๋ง ์ต์ ํํฉ๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๋ 224 ร 224๋ก ํฌ๊ธฐ๊ฐ ์กฐ์ ๋ฉ๋๋ค. ํ๋ จ ๋ชฉ์ ์ ํ ์คํธ ํ ํฐ์ cross-entropy๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋๋ค. ์ต๋ learning rate๋ 2e^-4์ด๋ฉฐ, ํ๋ จ ๊ณผ์ ์ image-text pair์ ๋ํด batch size 30720์ ์ฌ์ฉํ๊ณ , ์ ์ฒด ์ฒซ ๋ฒ์งธ pre-training ๋จ๊ณ๋ 50,000 step ๋์ ์ง์๋์ด ์ฝ 15์ต ๊ฐ์ image-text sample์ ์๋นํฉ๋๋ค. ๋ ๋ง์ hyperparameter๋ ๋ถ๋ก C์ ์์ธํ ๋์ ์๊ณ , ์ด ๋จ๊ณ์ ์๋ ด ๊ณก์ ์ ๊ทธ๋ฆผ 6์ ๋ํ๋ ์์ต๋๋ค.
3.2 Multi-task Pre-training
๋ ๋ฒ์งธ multi-task pre-training ๋จ๊ณ์์๋ ๋ ํฐ ์ ๋ ฅ ํด์๋์ interleaved image-text ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ํ์ง์ ์ธ๋ฐํ VL annotation ๋ฐ์ดํฐ๋ฅผ ๋์ ํฉ๋๋ค. ํ 3์ ์์ฝ๋ ๋ฐ์ ๊ฐ์ด, 7๊ฐ์ ์์ ์ ๋์์ Qwen-VL์์ ํ๋ จํ์ต๋๋ค. ํ ์คํธ ์์ฑ์ ๊ฒฝ์ฐ, LLM์ ๋ฅ๋ ฅ์ ์ ์งํ๊ธฐ ์ํด in-house ์์ง๋ corpus๋ฅผ ์ฌ์ฉํฉ๋๋ค. Captioning ๋ฐ์ดํฐ๋ LAION-COCO๋ฅผ ์ ์ธํ๊ณ ํจ์ฌ ์ ์ sample๋ก ํ 2์ ๋์ผํฉ๋๋ค. VQA ์์ ์ ์ํด GQA (Hudson and Manning, 2019), VGQA (Krishna et al., 2017), VQAv2 (Goyal et al., 2017), DVQA (Kafle et al., 2018), OCR-VQA (Mishra et al., 2019) ๋ฐ DocVQA (Mathew et al., 2021)๋ฅผ ํฌํจํ๋ ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ํผํฉ์ ์ฌ์ฉํฉ๋๋ค. Kosmos-2๋ฅผ ๋ฐ๋ผ grounding ์์ ์ ์ํด ์ฝ๊ฐ์ ์์ ๊ณผ ํจ๊ป GRIT (Peng et al., 2023) ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํฉ๋๋ค. reference grounding๊ณผ grounded captioning duality ์์ ์ ๊ฒฝ์ฐ, GRIT (Peng et al., 2023), Visual Genome (Krishna et al., 2017), RefCOCO (Kazemzadeh et al., 2014), RefCOCO+, RefCOCOg (Mao et al., 2016)์์ ํ๋ จ sample์ ๊ตฌ์ฑํฉ๋๋ค. ํ ์คํธ ์งํฅ ์์ ์ ๊ฐ์ ํ๊ธฐ ์ํด Common Crawl์์ PDF์ HTML ํ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ (Kim et al., 2022)๋ฅผ ๋ฐ๋ผ ์์ฐ ํ๊ฒฝ ๋ฐฐ๊ฒฝ์ผ๋ก ์์ด์ ์ค๊ตญ์ด ์ธ์ด๋ก ํฉ์ฑ OCR ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ๋์ผํ ์์ ๋ฐ์ดํฐ๋ฅผ ๊ธธ์ด 2048์ sequence๋ก ํจํนํ์ฌ interleaved image-text ๋ฐ์ดํฐ๋ฅผ ๊ฐ๋จํ ๊ตฌ์ฑํฉ๋๋ค.
visual encoder์ ์ ๋ ฅ ํด์๋๋ฅผ 224 ร 224์์ 448 ร 448๋ก ์ฆ๊ฐ์์ผ ์ด๋ฏธ์ง ๋ค์ด์ํ๋ง์ผ๋ก ์ธํ ์ ๋ณด ์์ค์ ์ค์ ๋๋ค. ๋ํ ๋ ๋์ ํด์๋์ vision transformer์ ๋ํด window attention๊ณผ global attention์ ๋ถ๋ก E.3์์ ablationํฉ๋๋ค. large language model์ ์ ๊ธ์ ํด์ ํ๊ณ ์ ์ฒด ๋ชจ๋ธ์ ํ๋ จํ์ต๋๋ค. ํ๋ จ ๋ชฉ์ ์ pre-training ๋จ๊ณ์ ๋์ผํฉ๋๋ค.
3.3 Supervised Fine-tuning
์ด ๋จ๊ณ์์๋ instruction fine-tuning์ ํตํด Qwen-VL ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ fine-tuneํ์ฌ instruction following ๋ฐ ๋ํ ๋ฅ๋ ฅ์ ํฅ์์์ผ ์ํธ์์ฉ ๊ฐ๋ฅํ Qwen-VL-Chat ๋ชจ๋ธ์ ๋ง๋ค์์ต๋๋ค. multi-modal instruction tuning ๋ฐ์ดํฐ๋ ์ฃผ๋ก LLM self-instruction์ ํตํด ์์ฑ๋ caption ๋ฐ์ดํฐ๋ ๋ํ ๋ฐ์ดํฐ์์ ๋์ค๋ฉฐ, ์ด๋ ์ข ์ข single-image ๋ํ์ ์ถ๋ก ๋ง์ ๋ค๋ฃจ๊ณ ์ด๋ฏธ์ง ๋ด์ฉ ์ดํด์ ์ ํ๋ฉ๋๋ค. localization๊ณผ multi-image ์ดํด ๋ฅ๋ ฅ์ Qwen-VL ๋ชจ๋ธ์ ํตํฉํ๊ธฐ ์ํด manual annotation, ๋ชจ๋ธ ์์ฑ, strategy concatenation์ ํตํด ์ถ๊ฐ ๋ํ ๋ฐ์ดํฐ set์ ๊ตฌ์ฑํ์ต๋๋ค. ๋ชจ๋ธ์ด ์ด๋ฌํ ๋ฅ๋ ฅ์ ๋ ๋์ ๋ฒ์์ ์ธ์ด์ ์ง๋ฌธ ์ ํ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ๋ํ ํ๋ จ ์ค์ multi-modal๊ณผ ์์ ํ ์คํธ ๋ํ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ์ฌ ๋ํ ๋ฅ๋ ฅ์์ ๋ชจ๋ธ์ ๋ณดํธ์ฑ์ ๋ณด์ฅํฉ๋๋ค. instruction tuning ๋ฐ์ดํฐ๋ 350k๊ฐ์ ๋๋ค. ์ด ๋จ๊ณ์์๋ visual encoder๋ฅผ ๋๊ฒฐํ๊ณ language model๊ณผ adapter module์ ์ต์ ํํฉ๋๋ค. ์ด ๋จ๊ณ์ ๋ฐ์ดํฐ ํ์์ ๋ถ๋ก B.2์์ ๋ณด์ฌ์ค๋๋ค.
-
ํ๊ฐ
๋ณธ ์น์ ์์๋ ๋ค์ํ multi-modal ์์ ์ ๋ํ ์ ๋ฐ์ ์ธ ํ๊ฐ๋ฅผ ์ํํ์ฌ ๋ชจ๋ธ์ ์๊ฐ์ ์ดํด ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํฉ๋๋ค. ์ดํ์์ Qwen-VL์ multi-task ํ๋ จ ํ์ ๋ชจ๋ธ์ ์๋ฏธํ๊ณ , Qwen-VL-Chat์ supervised fine-tuning (SFT) ๋จ๊ณ ํ์ ๋ชจ๋ธ์ ์๋ฏธํฉ๋๋ค.
ํ 9๋ ์ฌ์ฉ๋ ํ๊ฐ benchmark์ ํด๋น metric์ ๋ํ ์์ธํ ์์ฝ์ ์ ๊ณตํฉ๋๋ค.
4.1 Image Caption ๋ฐ ์ผ๋ฐ์ ์ธ Visual Question Answering
Image caption๊ณผ ์ผ๋ฐ์ ์ธ visual question answering (VQA)์ vision-language ๋ชจ๋ธ์ ์ํ ๋ ๊ฐ์ง ๊ธฐ์กด ์์ ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, image caption์ ๋ชจ๋ธ์ด ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช ์ ์์ฑํ๋๋ก ์๊ตฌํ๊ณ , ์ผ๋ฐ์ ์ธ VQA๋ ์ฃผ์ด์ง image-question pair์ ๋ํ ๋ต๋ณ์ ์์ฑํ๋๋ก ์๊ตฌํฉ๋๋ค.
image caption ์์ ์ ๊ฒฝ์ฐ, Nocaps (Agrawal et al., 2019)์ Flickr30K (Young et al., 2014)๋ฅผ benchmark๋ก ์ ํํ๊ณ CIDEr score (Vedantam et al., 2015)๋ฅผ metric์ผ๋ก ๋ณด๊ณ ํฉ๋๋ค. โDescribe the image in English:โ๋ผ๋ prompt๋ก caption ์์ฑ์ greedy search๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ผ๋ฐ์ ์ธ VQA์ ๊ฒฝ์ฐ, VQAv2 (Goyal et al., 2017), OKVQA (Marino et al., 2019), GQA (Hudson and Manning, 2019), ScienceQA (Image Set) (Lu et al., 2022b), VizWiz VQA (Gurari et al., 2018)๋ฅผ ํฌํจํ ๋ค์ฏ ๊ฐ์ benchmark๋ฅผ ์ฌ์ฉํฉ๋๋ค. VQAv2, OKVQA, GQA, VizWiz VQA์ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ์ถ๋ ฅ ๊ณต๊ฐ์ ์ ์ฝ ์์ด greedy decoding strategy์ โ{question} Answer:โ๋ผ๋ prompt๋ก ๊ฐ๋ฐฉํ ๋ต๋ณ ์์ฑ์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ ScienceQA์ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๊ฐ๋ฅํ ์ ํ์ง๋ก ์ ํํ๊ณ (๊ฐ๋ฐฉํ์ด ์๋), ๊ฐ์ฅ ๋์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง ์ ํ์ง๋ฅผ ๋ชจ๋ธ์ ์์ธก์ผ๋ก ์ ํํ๋ฉฐ, Top-1 ์ ํ๋๋ฅผ ๋ณด๊ณ ํฉ๋๋ค.
image caption๊ณผ ์ผ๋ฐ์ ์ธ VQA ์์ ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํ 4์ ๋ณด๊ณ ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์์ ๋ณด๋ฏ์ด, Qwen-VL๊ณผ Qwen-VL-Chat ๋ชจ๋ ๋ ์์ ๋ชจ๋์์ ์ด์ generalist ๋ชจ๋ธ๋ค์ ๋นํด ๋ช ๋ฐฑํ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, zero-shot image caption ์์ ์์ Qwen-VL์ Flickr30K karpathy-test split์์ state-of-the-art ์ฑ๋ฅ(์ฆ, 85.8 CIDEr score)์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํจ์ฌ ๋ง์ parameter๋ฅผ ๊ฐ์ง ์ด์ generalist ๋ชจ๋ธ๋ค(์: 80B parameter๋ฅผ ๊ฐ์ง Flamingo-80B)์ ๋ฅ๊ฐํ๊ธฐ๊น์ง ํ์ต๋๋ค.
์ผ๋ฐ์ ์ธ VQA benchmark์์๋ ๋ชจ๋ธ๋ค์ด ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ๋๋ ทํ ์ฅ์ ์ ๋ณด์ฌ์ค๋๋ค. VQAv2, OKVQA, GQA benchmark์์ Qwen-VL์ ๊ฐ๊ฐ 79.5, 58.6, 59.3์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ ์ต๊ทผ ์ ์๋ LVLM๋ค์ ํฐ ํญ์ผ๋ก ๋ฅ๊ฐํฉ๋๋ค. ์ฃผ๋ชฉํ ์ ์ Qwen-VL์ด ScienceQA์ VizWiz ๋ฐ์ดํฐ์ ์์๋ ๊ฐํ zero-shot ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋๋ค.
4.2 ํ ์คํธ ์งํฅ Visual Question Answering
ํ ์คํธ ์งํฅ ์๊ฐ์ ์ดํด๋ ์ค์ ์๋๋ฆฌ์ค์์ ๊ด๋ฒ์ํ ์์ฉ ์ ๋ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค. TextVQA (Sidorov et al., 2020), DocVQA (Mathew et al., 2021), ChartQA (Masry et al., 2022), AI2Diagram (Kembhavi et al., 2016), OCR-VQA (Mishra et al., 2019)๋ฅผ ํฌํจํ ์ฌ๋ฌ benchmark์์ ํ ์คํธ ์งํฅ visual question answering์ ๋ํ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฒฐ๊ณผ๋ ํ 5์ ๋์ ์์ต๋๋ค. ์ด์ generalist ๋ชจ๋ธ๋ค๊ณผ ์ต๊ทผ LVLM๋ค์ ๋นํด, ๋ชจ๋ธ๋ค์ด ๋๋ถ๋ถ์ benchmark์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ข ์ข ํฐ ํญ์ผ๋ก ์์๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
4.3 Refer Expression Comprehension
RefCOCO (Kazemzadeh et al., 2014), RefCOCOg (Mao et al., 2016), RefCOCO+ (Mao et al., 2016), GRIT (Gupta et al., 2022)์ ๊ฐ์ refer expression comprehension benchmark๋ฅผ ํ๊ฐํ์ฌ ๋ชจ๋ธ์ ์ธ๋ฐํ ์ด๋ฏธ์ง ์ดํด์ localization ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, refer expression comprehension ์์ ์ ๋ชจ๋ธ์ด ์ค๋ช ์ ์๋ดํ์ ๋์ ๊ฐ์ฒด๋ฅผ localizeํ๋๋ก ์๊ตฌํฉ๋๋ค. ๊ฒฐ๊ณผ๋ ํ 6์ ๋์ ์์ต๋๋ค. ์ด์ generalist ๋ชจ๋ธ๋ค์ด๋ ์ต๊ทผ LVLM๋ค์ ๋นํด, ๋ชจ๋ธ๋ค์ด ๋ชจ๋ benchmark์์ ์ต๊ณ ์์ค์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค.
4.4 Vision-Language ์์ ์์์ Few-shot Learning
๋ชจ๋ธ์ ๋ง์กฑ์ค๋ฌ์ด in-context learning(a.k.a., few-shot learning) ๋ฅ๋ ฅ๋ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆผ 4์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, Qwen-VL์ ๋น์ทํ ์์ parameter๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ค(Flamingo-9B(Alayrac et al., 2022), OpenFlamingo-9B, IDEFICS-9B)๊ณผ ๋น๊ตํ์ ๋ OKVQA (Marino et al., 2019), Vizwiz (Gurari et al., 2018), TextVQA (Sidorov et al., 2020), Flickr30k (Young et al., 2014)์์ in-context few-shot learning์ ํตํด ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. Qwen-VL์ ์ฑ๋ฅ์ ํจ์ฌ ํฐ ๋ชจ๋ธ๋ค(Flamingo-80B์ IDEFICS-80B)๊ณผ๋ ๋น๊ตํ ๋งํฉ๋๋ค. ๋ ๋์ ๊ฒฐ๊ณผ๊ฐ ๋ฌ์ฑ๋ ์ ์์์๋ ๋ถ๊ตฌํ๊ณ RICES (Yang et al., 2022b)์ ๊ฐ์ ์ ๊ตํ few-shot exemplar ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์๊ณ naive random sample์ ์ฑํํ์ฌ few-shot exemplar๋ฅผ ๊ตฌ์ฑํ๋ค๋ ์ ์ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
4.5 ์ค์ ์ฌ์ฉ์ ํ๋์์์ Instruction Following
์ด์ ์ ๊ธฐ์กด vision-language ํ๊ฐ ์ธ์๋, ์ค์ ์ฌ์ฉ์ ํ๋ ํ์์ Qwen-VL-Chat ๋ชจ๋ธ์ capacity๋ฅผ ํ๊ฐํ๊ธฐ ์ํด TouchStone (Bai et al., 2023), SEED-Bench (Li et al., 2023b), MME (Fu et al., 2023)์ ๋ํ ํ๊ฐ๋ฅผ ์ถ๊ฐ๋ก ์ํํ์ต๋๋ค. TouchStone์ ๊ฐ๋ฐฉํ vision-language instruction-following benchmark์ ๋๋ค. TouchStone benchmark์์ ์์ด์ ์ค๊ตญ์ด ๋ชจ๋์์ ๋ค๋ฅธ instruction-tuned LVLM๋ค๊ณผ Qwen-VL-Chat์ instruction-following ๋ฅ๋ ฅ์ ๋น๊ตํฉ๋๋ค. SEED-Bench๋ Multimodal LLM์ ํ๊ฐํ๊ธฐ ์ํ ์ ํํ ์ธ๊ฐ annotation์ด ์๋ 19K๊ฐ์ ๊ฐ๊ด์ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ณต๊ฐ์ ๋ฐ ์๊ฐ์ ์ดํด๋ฅผ ๋ชจ๋ ํฌํจํ๋ 12๊ฐ์ ํ๊ฐ ์ฐจ์์ ๋ค๋ฃน๋๋ค. MME๋ ์ด 14๊ฐ์ subtask์์ perception๊ณผ cognition ๋ฅ๋ ฅ์ ๋ชจ๋ ์ธก์ ํฉ๋๋ค.
์ธ benchmark์ ๋ํ ๊ฒฐ๊ณผ๋ ํ 7์ ๋์ ์์ต๋๋ค. Qwen-VL-Chat์ ์ธ ๋ฐ์ดํฐ์ ๋ชจ๋์์ ๋ค๋ฅธ LVLM๋ค์ ๋นํด ๋ช ๋ฐฑํ ์ฅ์ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ด ๋ค์ํ ์ฌ์ฉ์ instruction์ ์ดํดํ๊ณ ๋ต๋ณํ๋ ๋ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค. SEED-Bench์์๋ ๋จ์ํ ๋ค ๊ฐ์ frame์ ์ํ๋งํ์ฌ ๋ชจ๋ธ์ ์๊ฐ์ ๋ฅ๋ ฅ์ด ๋น๋์ค ์์ ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ด๋ ์ ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค. TouchStone์์ ์ ์๋ ์ ๋ฐ์ ์ธ ์ ์ ๋ฉด์์, ๋ชจ๋ธ์ ๋ค๋ฅธ LVLM๋ค์ ๋นํด ํนํ ์ค๊ตญ์ด ๋ฅ๋ ฅ์์ ๋ช ํํ ์ฅ์ ์ ๋ณด์ฌ์ค๋๋ค. ๋ฅ๋ ฅ์ ๊ด๋ฒ์ํ ๋ฒ์ฃผ ๋ฉด์์, ๋ชจ๋ธ์ ์ดํด์ ์ธ์์์ ๋ ๋๋๋ฌ์ง ์ฅ์ ์ ๋ณด์ด๋ฉฐ, ํนํ ํ ์คํธ ์ธ์๊ณผ ์ฐจํธ ๋ถ์๊ณผ ๊ฐ์ ์์ญ์์ ๊ทธ๋ ์ต๋๋ค. ๋ ์์ธํ ์ ๋ณด๋ TouchStone ๋ฐ์ดํฐ์ ์ ์ฐธ์กฐํ์๊ธฐ ๋ฐ๋๋๋ค.
-
๊ด๋ จ ์ฐ๊ตฌ
์ต๊ทผ ๋ช ๋ ๊ฐ ์ฐ๊ตฌ์๋ค์ vision-language learning์ ์๋นํ ๊ด์ฌ์ ๋ณด์ฌ์์ผ๋ฉฐ, ํนํ multi-task generalist ๋ชจ๋ธ ๊ฐ๋ฐ์์ ๊ทธ๋ ์ต๋๋ค. CoCa (Yu et al., 2022)๋ image-text retrieval๊ณผ vision-language ์์ฑ ์์ ์ ๋์์ ๋ค๋ฃจ๊ธฐ ์ํด encoder-decoder ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค. OFA (Wang et al., 2022a)๋ ์ฌ์ฉ์ ์ง์ ์์ instruction์ ์ฌ์ฉํ์ฌ ํน์ vision-language ์์ ์ sequence-to-sequence ์์ ์ผ๋ก ๋ณํํฉ๋๋ค. Unified I/O (Lu et al., 2022a)๋ segmentation๊ณผ depth estimation๊ณผ ๊ฐ์ ๋ ๋ง์ ์์ ์ ํตํฉ๋ ํ๋ ์์ํฌ๋ก ๋์ ํฉ๋๋ค.
๋ค๋ฅธ ์ฐ๊ตฌ ๋ฒ์ฃผ๋ vision-language representation ๋ชจ๋ธ ๊ตฌ์ถ์ ์ง์คํฉ๋๋ค. CLIP (Radford et al., 2021)์ contrastive learning๊ณผ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ semantic space์์ ์ด๋ฏธ์ง์ ์ธ์ด๋ฅผ ์ ๋ ฌํ์ฌ ๋ค์ํ downstream ์์ ์์ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ ธ์ต๋๋ค. BEIT-3 (Wang et al., 2022b)๋ mixture-of-experts (MOE) ๊ตฌ์กฐ์ ํตํฉ๋ masked token prediction objective๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ visual-language ์์ ์์ state-of-the-art ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํฉ๋๋ค. vision-language learning ์ธ์๋, ImageBind (Girdhar et al., 2023)์ ONE-PEACE (Wang et al., 2023)๋ ์์ฑ๊ณผ ๊ฐ์ ๋ ๋ง์ modality๋ฅผ ํตํฉ๋ semantic space๋ก ์ ๋ ฌํ์ฌ ๋ ์ผ๋ฐ์ ์ธ representation ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค.
์๋นํ ์ง์ ์ ๋ฌ์ฑํ์์๋ ๋ถ๊ตฌํ๊ณ , ์ด์ vision-language ๋ชจ๋ธ๋ค์ ์ฌ์ ํ instruction following์์์ ๋ฎ์ ๊ฒฌ๊ณ ์ฑ, ๋ฏธ์ง์ ์์ ์์ ์ ํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ, in-context ๋ฅ๋ ฅ์ ๋ถ์กฑ๊ณผ ๊ฐ์ ์ฌ๋ฌ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. Large Language Model (LLM)์ ๊ธ์ํ ๋ฐ์ ๊ณผ ํจ๊ป, ์ฐ๊ตฌ์๋ค์ LLM์ ๊ธฐ๋ฐ์ผ๋ก ๋ ๊ฐ๋ ฅํ large vision-language model (LVLM)์ ๊ตฌ์ถํ๊ธฐ ์์ํ์ต๋๋ค. BLIP-2 (Li et al., 2023c)๋ ๋๊ฒฐ๋ vision foundation ๋ชจ๋ธ๊ณผ LLM์ ์ ๋ ฌํ๊ธฐ ์ํด Q-Former๋ฅผ ์ ์ํฉ๋๋ค. ํํธ, LLAVA (Liu et al., 2023)์ MiniGPT4 (Zhu et al., 2023)๋ LVLM์์ instruction following ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด visual instruction tuning์ ๋์ ํฉ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, mPLUG-DocOwl (Ye et al., 2023a)์ ๋์งํธ ๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ๋์ ํ์ฌ LVLM์ ๋ฌธ์ ์ดํด ๋ฅ๋ ฅ์ ํตํฉํฉ๋๋ค. Kosmos2 (Peng et al., 2023), Shikra (Chen et al., 2023a), BuboGPT (Zhao et al., 2023)๋ visual grounding ๋ฅ๋ ฅ์ผ๋ก LVLM์ ๋์ฑ ํฅ์์์ผ ์ง์ญ ์ค๋ช ๊ณผ localization์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ image captioning, visual question answering, OCR, document understanding, visual grounding ๋ฅ๋ ฅ์ Qwen-VL์ ํตํฉํฉ๋๋ค. ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์ด๋ฌํ ๋ค์ํ ์คํ์ผ์ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
-
๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ
multimodal ์ฐ๊ตฌ๋ฅผ ์ด์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ๋๊ท๋ชจ ๋ค๊ตญ์ด vision-language ๋ชจ๋ธ ์ธํธ์ธ Qwen-VL ์๋ฆฌ์ฆ๋ฅผ ์ถ์ํ์ต๋๋ค. Qwen-VL์ ๋ค์ํ benchmark์์ ๋น์ทํ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ฉฐ, ๋ค๊ตญ์ด ๋ํ, multi-image interleaved ๋ํ, ์ค๊ตญ์ด grounding, ์ธ๋ฐํ ์ธ์์ ์ง์ํฉ๋๋ค. ์์ผ๋ก ์ฌ๋ฌ ํต์ฌ ์ฐจ์์์ Qwen-VL์ ๋ฅ๋ ฅ์ ๋์ฑ ํฅ์์ํค๋ ๋ฐ ์ ๋ ํ๊ณ ์์ต๋๋ค:
โข ์์ฑ ๋ฐ ๋น๋์ค์ ๊ฐ์ ๋ ๋ง์ modality์ Qwen-VL์ ํตํฉํฉ๋๋ค.
โข ๋ชจ๋ธ ํฌ๊ธฐ, ํ๋ จ ๋ฐ์ดํฐ ๋ฐ ๋ ๋์ ํด์๋๋ฅผ ํ์ฅํ์ฌ Qwen-VL์ ์ฆ๊ฐํ๊ณ , multimodal ๋ฐ์ดํฐ ๋ด์์ ๋ ๋ณต์กํ๊ณ ๋ณต์กํ ๊ด๊ณ๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค.
โข ํนํ ๊ณ ํ์ง ์ด๋ฏธ์ง์ ์ ์ฐฝํ ์์ฑ ์์ฑ์์ multi-modal ์์ฑ์ ๋ํ Qwen-VL์ ๊ธฐ๋์ ํ์ฅํฉ๋๋ค.