[Paper Review] Qwen-Image Technical Report
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-Qwen-Image-Technical-Report
1
WU, Chenfei, et al. Qwen-image technical report. arXiv preprint arXiv:2508.02324, 2025.
๋ณธ ์ฐ๊ตฌ์์๋ ๋ณต์กํ ํ ์คํธ ๋ ๋๋ง๊ณผ ์ ๋ฐํ ์ด๋ฏธ์ง ํธ์ง์์ ์๋นํ ์ง๋ณด๋ฅผ ์ด๋ฃฌ Qwen ์๋ฆฌ์ฆ์ ์ด๋ฏธ์ง ์์ฑ foundation model์ธ Qwen-Image๋ฅผ ์ ์ํฉ๋๋ค.
-
์๋ก
text-to-image ์์ฑ(T2I)๊ณผ ์ด๋ฏธ์ง ํธ์ง(TI2I)์ ๋ชจ๋ ํฌํจํ๋ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ํ๋ ์ธ๊ณต์ง๋ฅ์ ๊ธฐ๋ณธ ๊ตฌ์ฑ ์์๋ก ๋ฑ์ฅํ์ต๋๋ค. ๊ธฐ๊ณ๊ฐ ํ ์คํธ ํ๋กฌํํธ์์ ์๊ฐ์ ์ผ๋ก ๋งค๋ ฅ์ ์ด๊ณ ์๋ฏธ์ ์ผ๋ก ์ผ๊ด๋ ์ฝํ ์ธ ๋ฅผ ํฉ์ฑํ๊ฑฐ๋ ์์ ํ ์ ์๊ฒ ํฉ๋๋ค. ์ง๋ ๋ช ๋ ๋์ ์ด ๋ถ์ผ์์ ๋๋ผ์ด ์ง์ ์ด ์์์ต๋๋ค. ํนํ fine-grained semantic detail์ ์บก์ฒํ๋ฉด์ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ diffusion-based architecture์ ์ถํ๊ณผ ํจ๊ป ๋ง์ ๋๋ค.
์ด๋ฌํ ์ง์ ์๋ ๋ถ๊ตฌํ๊ณ ๋ ๊ฐ์ง ์ค์ํ ๋ฌธ์ ๊ฐ ์ง์๋ฉ๋๋ค:
์ฒซ์งธ, text-to-image ์์ฑ์์ ๋ณต์กํ๊ณ ๋ค๋ฉด์ ์ธ ํ๋กฌํํธ์ ๋ชจ๋ธ ์ถ๋ ฅ์ ์ ๋ ฌ์ ์ฌ์ ํ ์ค์ํ ์ฅ๋ฒฝ์ ๋๋ค. ์ฐ๋ฆฌ์ ํ๊ฐ์ ๋ฐ๋ฅด๋ฉด GPT Image 1์ด๋ Seedream 3.0๊ณผ ๊ฐ์ state-of-the-art ์์ฉ ๋ชจ๋ธ๋ค๋ multi-line ํ ์คํธ ๋ ๋๋ง, non-alphabetic language ๋ ๋๋ง(์: ์ค๊ตญ์ด), ์ง์ญํ๋ ํ ์คํธ ์ฝ์ , ๋๋ ํ ์คํธ์ ์๊ฐ์ ์์์ ๋งค๋๋ฌ์ด ํตํฉ์ ์๊ตฌํ๋ ํ์คํฌ์ ์ง๋ฉดํ์ ๋ ์ด๋ ค์์ ๊ฒช์ต๋๋ค.
๋์งธ, ์ด๋ฏธ์ง ํธ์ง์์ ํธ์ง๋ ์ถ๋ ฅ๊ณผ ์๋ณธ ์ด๋ฏธ์ง ๊ฐ์ ์ ํํ ์ ๋ ฌ์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ด์ค ๋์ ์ ์ ๊ธฐํฉ๋๋ค: (i) visual consistency - ๋์ ์์ญ๋ง ์์ ๋์ด์ผ ํ๊ณ ๋ค๋ฅธ ๋ชจ๋ ์๊ฐ์ ์ธ๋ถ์ฌํญ์ ๋ณด์กด๋์ด์ผ ํจ(์: ์ผ๊ตด ์ธ๋ถ์ฌํญ์ ๋ณ๊ฒฝํ์ง ์๊ณ ๋จธ๋ฆฌ ์๊น ๋ณ๊ฒฝ) (ii) semantic coherence - ๊ตฌ์กฐ์ ๋ณํ ์ค์๋ ์ ์ญ semantic์ ๋ณด์กดํด์ผ ํจ(์: ์ ์ฒด์ฑ๊ณผ ์ฅ๋ฉด ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์ ์ฌ๋์ ์์ธ ์์ )
๋ณธ ์ฐ๊ตฌ์์๋ ํฌ๊ด์ ์ธ data engineering, progressive learning ์ ๋ต, ๊ฐํ๋ multi-task training paradigm, ๊ทธ๋ฆฌ๊ณ ํ์ฅ ๊ฐ๋ฅํ infrastructure ์ต์ ํ๋ฅผ ํตํด ์ด๋ฌํ ๋์ ์ ๊ทน๋ณตํ๋๋ก ์ค๊ณ๋ Qwen ์๋ฆฌ์ฆ์ ์๋ก์ด ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ธ Qwen-Image๋ฅผ ์๊ฐํฉ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ์ฌํญ
Qwen-Image์ ์ฃผ์ ๊ธฐ์ฌ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋ฉ๋๋ค:
- ๋ฐ์ด๋ ํ ์คํธ ๋ ๋๋ง: Qwen-Image๋ multiline layout, paragraph-level semantic, fine-grained detail์ ํฌํจํ ๋ณต์กํ ํ ์คํธ ๋ ๋๋ง์ ํ์ํฉ๋๋ค. alphabetic language(์: ์์ด)์ logographic language(์: ์ค๊ตญ์ด) ๋ชจ๋๋ฅผ ๋์ ์ถฉ์ค๋๋ก ์ง์ํฉ๋๋ค.
- ์ผ๊ด๋ ์ด๋ฏธ์ง ํธ์ง: ๊ฐํ๋ multi-task training paradigm์ ํตํด Qwen-Image๋ ํธ์ง ์์ ์ค semantic meaning๊ณผ visual realism์ ๋ชจ๋ ๋ณด์กดํ๋ ๋ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
- ๊ฐ๋ ฅํ cross-benchmark ์ฑ๋ฅ: ์ฌ๋ฌ benchmark์์ ํ๊ฐํ ๊ฒฐ๊ณผ, Qwen-Image๋ ๋ค์ํ ์์ฑ ๋ฐ ํธ์ง ํ์คํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ์ง์์ ์ผ๋ก ๋ฅ๊ฐํ์ฌ ์ด๋ฏธ์ง ์์ฑ์ ์ํ ๊ฐ๋ ฅํ foundation model์ ํ๋ฆฝํฉ๋๋ค.
-
๋ชจ๋ธ
์ด ์น์ ์์๋ ํ๋ จ ๋ฐ์ดํฐ์ ํ๋ จ ์ธ๋ถ์ฌํญ์ ๋ํ ํฌ๊ด์ ์ธ ๊ฐ์์ ํจ๊ป Qwen-Image ๋ชจ๋ธ์ ์ํคํ ์ฒ ์ค๊ณ๋ฅผ ์ ์ํฉ๋๋ค.
2.1 ๋ชจ๋ธ ์ํคํ ์ฒ
Figure 6์์ ๋ณด๋ฏ์ด, Qwen-Image ์ํคํ ์ฒ๋ ๊ณ ์ถฉ์ค๋ text-to-image ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ์กฐํ๋กญ๊ฒ ์๋ํ๋ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Multimodal Large Language Model (MLLM): condition encoder ์ญํ ์ ํ๋ฉฐ ํ ์คํธ ์ ๋ ฅ์์ feature๋ฅผ ์ถ์ถํฉ๋๋ค.
- Variational AutoEncoder (VAE): ์ด๋ฏธ์ง tokenizer ์ญํ ์ ํ๋ฉฐ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ compact latent representation์ผ๋ก ์์ถํ๊ณ inference ์ค์ ์ด๋ฅผ ๋ค์ ๋์ฝ๋ฉํฉ๋๋ค.
- Multimodal Diffusion Transformer (MMDiT): backbone diffusion model๋ก ๊ธฐ๋ฅํ๋ฉฐ ํ ์คํธ ๊ฐ์ด๋ ํ์์ noise์ image latent ๊ฐ์ ๋ณต์กํ joint distribution์ ๋ชจ๋ธ๋งํฉ๋๋ค.
2.2 Multimodal Large Language Model
Qwen-Image๋ ํ ์คํธ ์ ๋ ฅ์ ์ํ feature extraction module๋ก Qwen2.5-VL ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ์ธ ๊ฐ์ง ์ฃผ์ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Qwen2.5-VL์ language space์ visual space๊ฐ ์ด๋ฏธ ์ ๋ ฌ๋์ด ์์ด Qwen3์ ๊ฐ์ language-based model๋ณด๋ค text-to-image ํ์คํฌ์ ๋ ์ ํฉํฉ๋๋ค.
- Qwen2.5-VL์ language model์ ๋นํด ์๋นํ ์ฑ๋ฅ ์ ํ ์์ด ๊ฐ๋ ฅํ language modeling ๋ฅ๋ ฅ์ ์ ์งํฉ๋๋ค.
- Qwen2.5-VL์ multimodal ์ ๋ ฅ์ ์ง์ํ์ฌ Qwen-Image๊ฐ ์ด๋ฏธ์ง ํธ์ง๊ณผ ๊ฐ์ ๋ ๊ด๋ฒ์ํ ๊ธฐ๋ฅ์ ์ ๊ณตํ ์ ์๊ฒ ํฉ๋๋ค.
2.3 Variational AutoEncoder
๊ฐ๋ ฅํ VAE representation์ ๊ฐ๋ ฅํ ์ด๋ฏธ์ง foundation model์ ๊ตฌ์ถํ๋ ๋ฐ ์ค์ํฉ๋๋ค. ํ์ฌ ์ด๋ฏธ์ง foundation model๋ค์ ์ผ๋ฐ์ ์ผ๋ก ๋๊ท๋ชจ ์ด๋ฏธ์ง dataset์์ 2D convolution์ผ๋ก ์ด๋ฏธ์ง VAE๋ฅผ ํ๋ จํ์ฌ ๊ณ ํ์ง ์ด๋ฏธ์ง representation์ ์ป์ต๋๋ค.
์ฐ๋ฆฌ์ ์์ ์ ์ด๋ฏธ์ง์ ๋น๋์ค ๋ชจ๋์ ํธํ๋๋ ๋ ์ผ๋ฐ์ ์ธ visual representation์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ธฐ์กด์ joint image-video VAE๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฏธ์ง reconstruction ๋ฅ๋ ฅ์ด ์ ํ๋๋ ์ฑ๋ฅ trade-off๋ฅผ ๊ฒช์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด single-encoder, dual-decoder ์ํคํ ์ฒ๋ฅผ ํ์ฉํฉ๋๋ค.
reconstruction fidelity, ํนํ ์์ ํ ์คํธ์ fine-grained detail์ ํฅ์์ํค๊ธฐ ์ํด ํ ์คํธ๊ฐ ํ๋ถํ ์ด๋ฏธ์ง์ in-house corpus์์ decoder๋ฅผ ํ๋ จํฉ๋๋ค. dataset์ alphabetic(์: ์์ด)์ logographic(์: ์ค๊ตญ์ด) ์ธ์ด๋ฅผ ๋ชจ๋ ๋ค๋ฃจ๋ ์ค์ ๋ฌธ์(PDF, PowerPoint ์ฌ๋ผ์ด๋, ํฌ์คํฐ)์ ํฉ์ฑ paragraph๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
2.4 Multimodal Diffusion Transformer
Qwen-Image๋ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ jointly ๋ชจ๋ธ๋งํ๊ธฐ ์ํด Multimodal Diffusion Transformer(MMDiT)๋ฅผ ์ฑํํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ FLUX ์๋ฆฌ์ฆ์ Seedream ์๋ฆฌ์ฆ ๊ฐ์ ๋ค์ํ ์์ ์์ ํจ๊ณผ์ ์์ด ์ ์ฆ๋์์ต๋๋ค.
๊ฐ block ๋ด์์ ์๋ก์ด positional encoding ๋ฐฉ๋ฒ์ธ Multimodal Scalable RoPE(MSRoPE)๋ฅผ ๋์ ํฉ๋๋ค. Figure 8์์ ๋ณด๋ฏ์ด, ๋ค์ํ text-image joint positional encoding ์ ๋ต์ ๋น๊ตํฉ๋๋ค.
MSRoPE์ ํน์ง:
- ํ ์คํธ ์ ๋ ฅ์ ์์ชฝ ์ฐจ์์ ๋์ผํ position ID๊ฐ ์ ์ฉ๋ 2D tensor๋ก ์ฒ๋ฆฌ
- ํ ์คํธ๊ฐ ์ด๋ฏธ์ง์ ๋๊ฐ์ ์ ๋ฐ๋ผ ์ฐ๊ฒฐ๋ ๊ฒ์ผ๋ก ๊ฐ๋ ํ
- ์ด๋ฏธ์ง ์ธก๋ฉด์์ resolution scaling ์ฅ์ ์ ํ์ฉํ๋ฉด์ ํ ์คํธ ์ธก๋ฉด์์ 1D-RoPE์ ๊ธฐ๋ฅ์ ์ผ๋ก ๋๋ฑํจ์ ์ ์ง
-
๋ฐ์ดํฐ
3.1 ๋ฐ์ดํฐ ์์ง
์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ํ๋ จ์ ์ง์ํ๊ธฐ ์ํด ์์ญ์ต ๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์ฒด๊ณ์ ์ผ๋ก ์์งํ๊ณ ์ฃผ์์ ์์ฑํ์ต๋๋ค. raw dataset์ ๊ท๋ชจ์๋ง ์ง์คํ๋ ๊ฒ๋ณด๋ค ๋ฐ์ดํฐ ํ์ง๊ณผ ๊ท ํ ์กํ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ฐ์ ์ํ์ฌ ์ค์ ์๋๋ฆฌ์ค๋ฅผ ๋ฐ์ ํ๊ฒ ๋ฐ์ํ๋ ์ ๊ท ํ ์กํ๊ณ ๋ํ์ ์ธ dataset์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ต๋๋ค.
Figure 9์์ ๋ณด๋ฏ์ด, dataset์ ๋ค ๊ฐ์ง ์ฃผ์ ๋๋ฉ์ธ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Nature (์ฝ 55%): Objects, Landscape, Cityscape, Plants, Animals, Indoor, Food ์นดํ ๊ณ ๋ฆฌ ๋ฑ ๋ค์ํ ํ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฌํจํฉ๋๋ค.
- Design (์ฝ 27%): Poster, User Interface, Presentation Slide์ ๊ฐ์ ๊ตฌ์กฐํ๋ ์๊ฐ์ ์ฝํ ์ธ ์ ํํ, ์กฐ๊ฐ, ๊ณต์ํ, ๋์งํธ ์ํธ ๋ฑ ๋ค์ํ ํํ์ ์์ ์ ํฌํจํฉ๋๋ค.
- People (์ฝ 13%): Portrait, Sports, Human Activities ๋ฑ์ ํ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฌํจํฉ๋๋ค.
- Synthetic Data (์ฝ 5%): ํต์ ๋ ํ ์คํธ ๋ ๋๋ง ๊ธฐ์ ์ ํตํด ํฉ์ฑ๋ ๋ฐ์ดํฐ์ ๋๋ค.
3.2 ๋ฐ์ดํฐ ํํฐ๋ง
์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ๋ฐ๋ณต์ ๊ฐ๋ฐ ๊ณผ์ ์์ ๊ณ ํ์ง ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํ๋ ์ด์ ํ๊ธฐ ์ํด Figure 10์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด 7๋จ๊ณ์ ์์ฐจ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ multi-stage ํํฐ๋ง ํ์ดํ๋ผ์ธ์ ์ ์ํ์ต๋๋ค.
Stage 1: Initial Pre-training Data Curation
- 256p ํด์๋ ์ด๋ฏธ์ง๋ก ํ๋ จ
- Broken Files Filter, File Size Filter, Resolution Filter, Deduplication Filter, NSFW Filter ์ ์ฉ
Stage 2: Image Quality Enhancement
- Rotation Filter, Clarity Filter, Luma Filter, Saturation Filter, Entropy Filter, Texture Filter ์ ์ฉ
Stage 3: Image-Text Alignment Improvement
- Raw Caption Split, Recaption Split, Fused Caption Split์ผ๋ก ๋ถํ
- Chinese CLIP Filter, SigLIP Filter, Token Length Filter, Invalid Caption Filter ์ ์ฉ
Stage 4: Text Rendering Enhancement
- English Split, Chinese Split, Other Language Split, Non-Text Split์ผ๋ก ๋ถ๋ฅ
- Intensive Text Filter, Small Character Filter ์ ์ฉ
Stage 5: High-Resolution Refinement
- 640p ํด์๋๋ก ์ ํ
- Image Quality Filter, Resolution Filter, Aesthetic Filter, Abnormal Element Filter ์ ์ฉ
Stage 6: Category Balance and Portrait Augmentation
- General, Portrait, Text Rendering์ ์ธ ๊ฐ์ง ์ฃผ์ ์นดํ ๊ณ ๋ฆฌ๋ก ์ฌ๋ถ๋ฅ
- keyword-based retrieval๊ณผ image retrieval ๊ธฐ์ ์ฌ์ฉ
Stage 7: Balanced Multi-Scale Training
- 640p์ 1328p ํด์๋์์ joint ํ๋ จ
- hierarchical taxonomy system ๊ธฐ๋ฐ ์ด๋ฏธ์ง ๋ถ๋ฅ
3.3 ๋ฐ์ดํฐ ์ฃผ์ ์์ฑ
๋ฐ์ดํฐ ์ฃผ์ ํ์ดํ๋ผ์ธ์์ ํฌ๊ด์ ์ธ ์ด๋ฏธ์ง ์ค๋ช ๋ฟ๋ง ์๋๋ผ ํ์ ์ด๋ฏธ์ง ์์ฑ๊ณผ ํ์ง ํน์ฑ์ ์บก์ฒํ๋ ๊ตฌ์กฐํ๋ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ฅ๋ ฅ์๋ ์ด๋ฏธ์ง captioner(์: Qwen2.5-VL)๋ฅผ ํ์ฉํฉ๋๋ค.
captioning๊ณผ ๋ฉํ๋ฐ์ดํฐ ์ถ์ถ์ ๋ ๋ฆฝ์ ์ธ ํ์คํฌ๋ก ์ฒ๋ฆฌํ๋ ๋์ , captioner๊ฐ ๋์์ ์๊ฐ์ ์ฝํ ์ธ ๋ฅผ ์ค๋ช ํ๊ณ JSON๊ณผ ๊ฐ์ ๊ตฌ์กฐํ๋ ํ์์ผ๋ก ์ธ๋ถ ์ ๋ณด๋ฅผ ์์ฑํ๋ ์ฃผ์ ํ๋ ์์ํฌ๋ฅผ ์ค๊ณํ์ต๋๋ค.
3.4 ๋ฐ์ดํฐ ํฉ์ฑ
์ค์ ์ด๋ฏธ์ง์์ ํ ์คํธ ์ฝํ ์ธ ์ long-tail distribution, ํนํ ์ค๊ตญ์ด์ ๊ฐ์ non-Latin ์ธ์ด์์ ์๋ง์ ๋ฌธ์๊ฐ ๊ทน๋๋ก ๋ฎ์ ๋น๋๋ฅผ ๋ํ๋ด๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด multi-stage text-aware ์ด๋ฏธ์ง ํฉ์ฑ ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
์ธ ๊ฐ์ง ๋ณด์์ ์ ๋ต:
- Pure Rendering in Simple Backgrounds: ๊ฐ์ฅ ์ง์ ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋ฌธ์ ์ธ์ ๋ฐ ์์ฑ์ ํ๋ จํฉ๋๋ค.
- Compositional Rendering in Contextual Scenes: ํฉ์ฑ ํ ์คํธ๋ฅผ ํ์ค์ ์ธ ์๊ฐ์ ๋งฅ๋ฝ์ ์ฝ์ ํ์ฌ ์ผ์ ํ๊ฒฝ์์์ ๋ชจ์ต์ ๋ชจ๋ฐฉํฉ๋๋ค.
-
Complex Rendering in Structured Templates: ๋ณต์กํ๊ณ ๊ตฌ์กฐํ๋ ํ๋กฌํํธ๋ฅผ ๋ฐ๋ฅด๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ์ ์ ์๋ ํ ํ๋ฆฟ์ ํ๋ก๊ทธ๋๋ฐ์ ํธ์ง์ ๊ธฐ๋ฐํ ํฉ์ฑ ์ ๋ต์ ์ ์ํฉ๋๋ค.
-
ํ๋ จ
4.1 Pre-training
Qwen-Image๋ฅผ pre-trainํ๊ธฐ ์ํด flow matching ํ๋ จ ๋ชฉํ๋ฅผ ์ฑํํ์ฌ ordinary differential equation(ODE)์ ํตํ ์์ ์ ์ธ ํ์ต dynamics๋ฅผ ์ด์งํ๋ฉด์ maximum likelihood ๋ชฉํ์์ ๋๋ฑ์ฑ์ ๋ณด์กดํฉ๋๋ค.
ํ๋ จ ๊ณผ์ :
- ์ ๋ ฅ ์ด๋ฏธ์ง์ latent z=E(x)z = E(x)z=E(x) (VAE encoder๋ฅผ ํตํด)
- random noise vector x1โผN(0,I)x_1 \sim N(0,I)x1โโผN(0,I)์์ ์ํ๋ง
- ์ฌ์ฉ์ ์ ๋ ฅ SSS์ ๋ํด guidance latent h=ฯ(S)h = \phi(S)h=ฯ(S) (MLLM์์)
- diffusion timestep ttt๋ฅผ logit-normal distribution์์ ์ํ๋ง
์์ค ํจ์:
L=E(x0,h)โผD,x1,tโฅvฮธ(xt,t,h)โvtโฅ2L = E_{(x_0,h)\sim D,x_1,t} |v_\theta(x_t, t, h) - v_t|^2L=E(x0โ,h)โผD,x1โ,tโโฅvฮธโ(xtโ,t,h)โvtโโฅ2
4.1.1 Producer-Consumer Framework
๋๊ท๋ชจ GPU cluster๋ก ํ์ฅํ ๋ ๋์ throughput๊ณผ ํ๋ จ ์์ ์ฑ์ ๋ชจ๋ ๋ณด์ฅํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ชจ๋ธ ํ๋ จ์ ๋ถ๋ฆฌํ๋ Ray์์ ์๊ฐ์ ๋ฐ์ Producer-Consumer ํ๋ ์์ํฌ๋ฅผ ์ฑํํฉ๋๋ค.
Producer ์ธก๋ฉด:
- raw ์ด๋ฏธ์ง-caption ์์ ์ฌ์ ์ ์๋ ๊ธฐ์ค์ ๋ฐ๋ผ ํํฐ๋ง
- MLLM ๋ชจ๋ธ๊ณผ VAE๋ฅผ ์ฌ์ฉํ์ฌ latent representation์ผ๋ก ์ธ์ฝ๋ฉ
- ์ฒ๋ฆฌ๋ ์ด๋ฏธ์ง๋ฅผ ํด์๋๋ณ๋ก ๋น ๋ฅธ ์ก์ธ์ค cache bucket์ ๊ทธ๋ฃนํ
Consumer ์ธก๋ฉด:
- GPU ์ง์ฝ์ cluster์ ๋ฐฐํฌ
- ๋ชจ๋ธ ํ๋ จ์๋ง ์ ๋
- MMDiT parameter๋ฅผ 4-way tensor-parallel layout์ผ๋ก ๋ถ์ฐ
4.1.2 ๋ถ์ฐ ํ๋ จ ์ต์ ํ
Qwen-Image ๋ชจ๋ธ์ ํฐ parameter ํฌ๊ธฐ๋ฅผ ๊ณ ๋ คํ์ฌ FSDP๋ง์ผ๋ก๋ ๊ฐ GPU์ ๋ชจ๋ธ์ ๋ง์ถ๊ธฐ์ ๋ถ์ถฉ๋ถํฉ๋๋ค. ๋ฐ๋ผ์ ํ๋ จ์ ์ํด Megatron-LM์ ํ์ฉํ๊ณ ๋ค์ ์ต์ ํ๋ฅผ ์ ์ฉํฉ๋๋ค:
Hybrid Parallelism Strategy: data parallelism๊ณผ tensor parallelism์ ๊ฒฐํฉํ hybrid parallelism ์ ๋ต์ ์ฑํํ์ต๋๋ค.
Distributed Optimizer and Activation Checkpointing: GPU ๋ฉ๋ชจ๋ฆฌ ์๋ ฅ์ ์ํํ๊ธฐ ์ํด distributed optimizer์ activation checkpointing์ ์คํํ์ต๋๋ค.
4.1.3 ํ๋ จ ์ ๋ต
๋ฐ์ดํฐ ํ์ง, ์ด๋ฏธ์ง ํด์๋, ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ์ง์ ์ผ๋ก ํฅ์์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ multi-stage pre-training ์ ๋ต์ ์ฑํํฉ๋๋ค:
- ํด์๋ ํฅ์: 256ร256 pixel โ 640ร640 pixel โ 1328ร1328 pixel
- ํ ์คํธ ๋ ๋๋ง ํตํฉ: Non-text โ Text
- ๋ฐ์ดํฐ ํ์ง ๊ฐ์ : Massive Data โ Refined Data
- ๋ฐ์ดํฐ ๋ถํฌ ๊ท ํ: Unbalanced โ Balanced
- ํฉ์ฑ ๋ฐ์ดํฐ ์ฆ๊ฐ: Real-World Data โ Synthetic Data
4.2 Post-training
Qwen-Image๋ฅผ ์ํ post-training ํ๋ ์์ํฌ๋ supervised fine-tuning(SFT)๊ณผ reinforcement learning(RL)์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
4.2.1 Supervised Fine-Tuning (SFT)
SFT ๋จ๊ณ์์๋ semantic ์นดํ ๊ณ ๋ฆฌ์ ๊ณ์ธต์ ์ผ๋ก ๊ตฌ์ฑ๋ dataset์ ๊ตฌ์ถํ๊ณ ์ธ์ฌํ ์ธ๊ฐ ์ฃผ์์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํน์ ๋จ์ ์ ํด๊ฒฐํฉ๋๋ค.
4.2.2 Reinforcement Learning (RL)
๋ ๊ฐ์ง ์๋ก ๋ค๋ฅธ RL ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค:
(A) Direct Preference Optimization (DPO)
- flow-matching(one step) ์จ๋ผ์ธ preference modeling์ ๋ฐ์ด๋จ
- ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์
(B) Group Relative Policy Optimization (GRPO)
- ํ๋ จ ์ค on-policy sampling ์ํ
- reward model๋ก ๊ฐ trajectory ํ๊ฐ
4.3 Multi-task ํ๋ จ
text-to-image(T2I) ์์ฑ ์ธ์๋, text์ image ์ ๋ ฅ์ ๋ชจ๋ ํฌํจํ๋ multimodal ์ด๋ฏธ์ง ์์ฑ ํ์คํฌ๋ฅผ ํ๊ตฌํ๊ธฐ ์ํด base model์ ํ์ฅํฉ๋๋ค.
ํฌํจ๋ ํ์คํฌ:
- instruction-based ์ด๋ฏธ์ง ํธ์ง
- novel view synthesis
- depth estimation๊ณผ ๊ฐ์ computer vision ํ์คํฌ
-
์คํ
5.1 ์ธ๊ฐ ํ๊ฐ
Qwen-Image์ ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง ์์ฑ ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ณ state-of-the-art closed-source API์ ๊ฐ๊ด์ ์ผ๋ก ๋น๊ตํ๊ธฐ ์ํด Elo rating system์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ ์คํ ๋ฒค์น๋งํน ํ๋ซํผ์ธ AI Arena๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค.
AI Arena ํน์ง:
- ๊ณต์ ํ๊ณ ๋์ ์ธ ์คํ ๊ฒฝ์ ํ๋ซํผ
- ๊ฐ ๋ผ์ด๋์์ ๊ฐ์ ํ๋กฌํํธ๋ก ์์ฑ๋ ๋ ์ด๋ฏธ์ง๋ฅผ ์ต๋ช ์ผ๋ก ์ฌ์ฉ์์๊ฒ ์ ์
- 5,000๊ฐ์ ๋ค์ํ ํ๋กฌํํธ ํ๋ ์ด์
- 200๋ช ์ด์์ ๋ค์ํ ์ ๋ฌธ ๋ฐฐ๊ฒฝ์ ๊ฐ์ง ํ๊ฐ์ ์ฐธ์ฌ
๊ฒฝ์์:
- Imagen 4 Ultra Preview 0606
- Seedream 3.0
- GPT Image 1 [High]
- FLUX.1 Kontext [Pro]
- Ideogram 3.0
๊ฒฐ๊ณผ: Qwen-Image๋ ์ ์ผํ ์คํ์์ค ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ก์ AI Arena์์ 3์๋ฅผ ์ฐจ์งํ์ต๋๋ค.
5.2 ์ ๋์ ๊ฒฐ๊ณผ
5.2.1 VAE Reconstruction ์ฑ๋ฅ
์ฌ๋ฌ state-of-the-art ์ด๋ฏธ์ง tokenizer๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ์ฌ reconstruction ํ์ง์ ํ๊ฐํ๊ธฐ ์ํด Peak Signal-to-Noise Ratio(PSNR)์ Structural Similarity Index Measure(SSIM)๋ฅผ ๋ณด๊ณ ํฉ๋๋ค.
Table 2 ๊ฒฐ๊ณผ: Qwen-Image-VAE๋ ํ๊ฐ๋ ๋ชจ๋ ๋ฉํธ๋ฆญ์์ state-of-the-art reconstruction ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
5.2.2 Text-to-Image ์์ฑ ์ฑ๋ฅ
๋ ๊ฐ์ง ๊ด์ ์์ Qwen-Image์ T2I ํ์คํฌ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค: ์ผ๋ฐ์ ์ธ ์์ฑ ๋ฅ๋ ฅ๊ณผ ํ ์คํธ ๋ ๋๋ง ๋ฅ๋ ฅ.
์ฃผ์ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ:
- DPG: Qwen-Image๊ฐ ๊ฐ์ฅ ๋์ ์ ์ฒด ์ ์ ๋ฌ์ฑ (88.32)
- GenEval: RL ๊ฐ์ ํ 0.91 ์ ์๋ก 0.9 ์๊ณ๊ฐ์ ์ด๊ณผํ๋ ์ ์ผํ foundation model
- OneIG-Bench: ์ค๊ตญ์ด์ ์์ด ํธ๋ ๋ชจ๋์์ ๊ฐ์ฅ ๋์ ์ ์ฒด ์ ์
- ChineseWord: ๋ชจ๋ ์ธ ๋จ๊ณ์์ ๊ฐ์ฅ ๋์ ๋ ๋๋ง ์ ํ๋
- LongText-Bench: ์ค๊ตญ์ด ๊ธด ํ ์คํธ์์ ๊ฐ์ฅ ๋์ ์ ํ๋, ์์ด ๊ธด ํ ์คํธ์์ ๋ ๋ฒ์งธ๋ก ๋์ ์ ํ๋
5.2.3 ์ด๋ฏธ์ง ํธ์ง ์ฑ๋ฅ
text์ image๋ฅผ conditioning ์ ๋ ฅ์ผ๋ก ๋งค๋๋ฝ๊ฒ ํตํฉํ๋ Qwen-Image์ multi-task ๋ฒ์ ์ ์ด๋ฏธ์ง ํธ์ง(TI2I) ํ์คํฌ๋ฅผ ์ํด ์ถ๊ฐ๋ก ํ๋ จํ์ต๋๋ค.
์ฃผ์ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ:
- GEdit: ์์ด์ ์ค๊ตญ์ด leaderboard ๋ชจ๋์์ 1์
- ImgEdit: ์ ์ฒด์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์์
- Novel view synthesis: GSO dataset์์ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ
- Depth Estimation: ์ฌ๋ฌ key metric์์ state-of-the-art ์ฑ๋ฅ
5.3 ์ ์ฑ์ ๊ฒฐ๊ณผ
5.3.1 VAE Reconstruction์์์ ์ ์ฑ์ ๊ฒฐ๊ณผ
Figure 17์ state-of-the-art ์ด๋ฏธ์ง VAE๋ค๋ก ํ ์คํธ๊ฐ ํ๋ถํ ์ด๋ฏธ์ง๋ฅผ reconstructionํ ์ ์ฑ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฐ๋ฆฌ ๊ฒฐ๊ณผ์์ โdouble-aspectโ๋ผ๋ ๊ตฌ๋ฌธ์ด ๋ช ํํ๊ฒ ์ฝ์ ์ ์๊ฒ ๋จ์์๋ ๋ฐ๋ฉด, ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ reconstruction์์๋ ์ธ์ํ ์ ์์ต๋๋ค.
5.3.2 ์ด๋ฏธ์ง ์์ฑ์์์ ์ ์ฑ์ ๊ฒฐ๊ณผ
Qwen-Image์ text-to-image ์์ฑ ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด ๋ค ๊ฐ์ง ์ธก๋ฉด์์ ์ ์ฑ์ ํ๊ฐ๋ฅผ ์ํํฉ๋๋ค:
- ์์ด ํ ์คํธ ๋ ๋๋ง: ๋ ํ์ค์ ์ธ ์๊ฐ์ ์คํ์ผ๊ณผ ๋ ๋์ ๋ ๋๋ง ํ์ง
- ์ค๊ตญ์ด ํ ์คํธ ๋ ๋๋ง: ์์๋๋ ์ค๊ตญ์ด couplet์ ์ ํํ๊ฒ ์์ฑ
- Multi-Object ์์ฑ: ๋ชจ๋ ํ์ํ ๋๋ฌผ์ ์ ํํ๊ฒ ์์ฑํ๊ณ ์ง์ ๋ ์์น๋ฅผ ์ถฉ์คํ ๋ณด์กด
- ๊ณต๊ฐ ๊ด๊ณ ์์ฑ: ๋ณต์กํ ํ๋กฌํํธ๋ฅผ ์ดํดํ๊ณ ์ ํํ๊ฒ ๋ฐ๋ฅด๋ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ
5.3.3 ์ด๋ฏธ์ง ํธ์ง์์์ ์ ์ฑ์ ๊ฒฐ๊ณผ
Qwen-Image์ ์ด๋ฏธ์ง ํธ์ง(TI2I) ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด ๋ค์ฏ ๊ฐ์ง ์ฃผ์ ์ธก๋ฉด์ ์ด์ ์ ๋ง์ถ ์ ์ฑ์ ํ๊ฐ๋ฅผ ์ํํฉ๋๋ค:
- ํ ์คํธ ๋ฐ ์ฌ๋ฃ ํธ์ง: ๋ฐ์ด๋ ์ฌ๋ฃ ๋ ๋๋ง ๋ฐ instruction-following ๋ฅ๋ ฅ
- ๊ฐ์ฒด ์ถ๊ฐ/์ ๊ฑฐ/๊ต์ฒด: ํธ์ง๋์ง ์์ ์์ญ ๋ณด์กด์์ ์ผ๋ฐ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ
- ์์ธ ์กฐ์: pose ํธ์ง ์ค ์ธ๋ถ์ฌํญ๊ณผ ์ผ๊ด์ฑ ๋ณด์กด์์ ๋ฐ์ด๋ ์ฑ๋ฅ
- ์ฐ์ ํธ์ง: ์ ์ฒด ํธ์ง ์ฒด์ธ์ ํตํด ๊ตฌ์กฐ์ ํน์ง ๋ณด์กด
-
Novel View Synthesis: ๋ณต์กํ ํธ์ง ํ์คํฌ์์ ๋ฐ์ด๋ ๊ณต๊ฐ ๋ฐ semantic coherence
-
๊ฒฐ๋ก
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ณต์กํ ํ ์คํธ ๋ ๋๋ง๊ณผ ์ ๋ฐํ ์ด๋ฏธ์ง ํธ์ง์์ ์ฃผ์ํ ์ง์ ์ ๋ฌ์ฑํ Qwen ์๋ฆฌ์ฆ์ ์ด๋ฏธ์ง ์์ฑ foundation model์ธ Qwen-Image๋ฅผ ์๊ฐํ์ต๋๋ค. ํฌ๊ด์ ์ธ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๊ณ progressive curriculum learning ์ ๋ต์ ์ฑํํจ์ผ๋ก์จ Qwen-Image๋ ์์ฑ๋ ์ด๋ฏธ์ง ๋ด์์ ๋ณต์กํ ํ ์คํธ๋ฅผ ๋ ๋๋งํ๋ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
๊ฐ์ ๋ multi-task training paradigm๊ณผ dual-encoding ๋ฉ์ปค๋์ฆ์ ํตํด ์ด๋ฏธ์ง ํธ์ง์ ์ผ๊ด์ฑ๊ณผ ํ์ง์ ํ์ ํ ํฅ์์์ผ semantic coherence์ visual fidelity๋ฅผ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค. ๊ณต๊ฐ benchmark์์์ ๊ด๋ฒ์ํ ์คํ์ ๋ค์ํ ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง ํ์คํฌ์์ Qwen-Image์ state-of-the-art ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ๋ณด์ฌ์ค๋๋ค.
๋ ๊น์ ์๋ฏธ์ ์ค์์ฑ:
- ์ด๋ฏธ์ง โ์์ฑโ ๋ชจ๋ธ๋ก์์ Qwen-Image: ๋จ์ํ photorealism์ด๋ ๋ฏธ์ ํ์ง์ ์ต์ ํํ๋ ๊ฒ์ด ์๋๋ผ ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ์ ํํ ์ ๋ ฌ, ํนํ ํ ์คํธ ๋ ๋๋ง์ ์ด๋ ค์ด ํ์คํฌ๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
- ์ด๋ฏธ์ง โ์์ฑโ ๋ชจ๋ธ๋ก์์ Qwen-Image: generative framework๊ฐ ๊ณ ์ ์ ์ธ ์ดํด ํ์คํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- โ์ด๋ฏธ์งโ ์์ฑ ๋ชจ๋ธ๋ก์์ Qwen-Image: 2D ์ด๋ฏธ์ง ํฉ์ฑ์ ๋์ด์ ๊ฐ๋ ฅํ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
- โ์๊ฐ์ ์์ฑโ ๋ชจ๋ธ๋ก์์ Qwen-Image: ํตํฉ๋ ์ดํด์ ์์ฑ์ ๋น์ ์ ๋ฐ์ ์ํต๋๋ค.
Qwen-Image๋ ๋จ์ํ state-of-the-art ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ ์ด์์ ๋๋ค. multimodal foundation model์ ๊ฐ๋ ํํ๊ณ ๊ตฌ์ถํ๋ ๋ฐฉ์์ ํจ๋ฌ๋ค์ ์ ํ์ ๋ํ๋ ๋๋ค. ๊ธฐ์ ์ benchmark๋ฅผ ๋์ด์ ๊ธฐ์ฌ๋ฅผ ํตํด generative model์ด perception, ์ธํฐํ์ด์ค ์ค๊ณ, ์ธ์ง ๋ชจ๋ธ๋ง์์ ๋งก๋ ์ญํ ์ ์ฌ๊ณ ํ๋๋ก ์ปค๋ฎค๋ํฐ์ ๋์ ์ฅ์ ๋ด๋ฐ๋๋ค.