[Paper Review] Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-Qwen-Audio-Advancing-Universal-Audio-Understanding-via-Unified-Large-Scale-Audio-Language-Models
1
CHU, Yunfei, et al. Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models. arXiv preprint arXiv:2311.07919, 2023.
Abstract
์ต๊ทผ instruction-following audio-language ๋ชจ๋ธ๋ค์ด ์ธ๊ฐ๊ณผ์ ์ค๋์ค ์ํธ์์ฉ์์ ๊ด๋ฒ์ํ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ค์ํ ์ค๋์ค ์ ํ๊ณผ ์์ ์ ์ฒ๋ฆฌํ ์ ์๋ ์ฌ์ ํ๋ จ๋ ์ค๋์ค ๋ชจ๋ธ์ ๋ถ์ฌ๊ฐ ์ด ๋ถ์ผ์ ๋ฐ์ ์ ์ ํดํ๊ณ ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ธฐ์กด์ ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ค์ ์ ํ๋ ๋ฒ์์ ์ํธ์์ฉ ๊ธฐ๋ฅ๋ง์ ์ง์ํ ์ ์์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ Qwen-Audio ๋ชจ๋ธ์ ๊ฐ๋ฐํ์ฌ ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ์ธ๊ฐ ์์ฑ, ์์ฐ์, ์์ , ๋ ธ๋ ๋ฑ ๋ค์ํ ์ค๋์ค ์ ํ์ ํฌํจํ์ฌ 30๊ฐ ์ด์์ ์์ ์ ๋ค๋ฃจ๋ audio-language ์ฌ์ ํ๋ จ์ ํ์ฅํจ์ผ๋ก์จ ๋ฒ์ฉ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ์ ์ด์งํฉ๋๋ค.
๊ทธ๋ฌ๋ ๋ชจ๋ ์์ ๊ณผ ๋ฐ์ดํฐ์ ์ ์ง์ ๊ณต๋ ํ๋ จํ๋ฉด ๊ฐ์ญ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์ด๋ ์์ ์ด์ , ์ธ์ด, ์ฃผ์ ์ธ๋ถํ ๋ฐ ํ ์คํธ ๊ตฌ์กฐ์ ์ฐจ์ด๋ก ์ธํด ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๊ณผ ์ฐ๊ด๋ ํ ์คํธ ๋ ์ด๋ธ์ ์๋นํ ๋ณํ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ด๋ฌํ one-to-many ๊ฐ์ญ์ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ณ์ธต์ ํ๊ทธ ์ํ์ค๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ decoder๋ฅผ ํตํด ์ง์ ๊ณต์ ๋ฅผ ์ฅ๋ คํ๊ณ ๊ณต์ ํ๊ทธ์ ํน์ ํ๊ทธ๋ฅผ ๊ฐ๊ฐ ํตํด ๊ฐ์ญ์ ๋ฐฉ์งํ๋ multi-task ํ๋ จ framework๋ฅผ ์ ์คํ๊ฒ ์ค๊ณํ์ต๋๋ค.
์ฃผ๋ชฉํ ์ ์ Qwen-Audio๊ฐ ์์ ๋ณ fine-tuning ์์ด๋ ๋ค์ํ ๋ฒค์น๋งํฌ ์์ ์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋๋ค. Qwen-Audio์ ๊ธฐ๋ฅ์ ๊ธฐ๋ฐ์ผ๋ก, ์ฐ๋ฆฌ๋ ๋ค์ํ ์ค๋์ค์ ํ ์คํธ ์ ๋ ฅ์ ํ์ฉํ๊ณ multi-turn dialogue๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ ๋ค์ํ ์ค๋์ค ์ค์ฌ ์๋๋ฆฌ์ค๋ฅผ ์ง์ํ๋ Qwen-Audio-Chat์ ์ถ๊ฐ๋ก ๊ฐ๋ฐํ์ต๋๋ค.
-
Introduction
Large Language Models (LLMs)๋ ๊ฐ๋ ฅํ ์ง์ ๋ณด์กด, ๋ณต์กํ ์ถ๋ก ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ผ๋ก ์ธํด ์ผ๋ฐ ์ธ๊ณต์ง๋ฅ(AGI) ๋ถ์ผ์ ๋ฐ์ ์ ํฌ๊ฒ ์ด์งํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ธ์ด ๋ชจ๋ธ์ ์ธ๊ฐ์ฒ๋ผ ์ด๋ฏธ์ง๋ ์ค๋์ค์ ๊ฐ์ ๋นํ ์คํธ modality๋ฅผ ์ธ์ํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค.
์์ฑ์ ์ค์ํ modality๋ก์, ์ธ๊ฐ ์์ฑ์ ๊ฐ์ , ํค, ์๋, ์์ฐ์์ ๊ธฐ์ฐจ ๊ธฐ์ , ์๊ณ ์ข ์๋ฆฌ, ์ฒ๋ฅ, ๊ทธ๋ฆฌ๊ณ ์์ ์ ๋ฉ๋ก๋ ๋ฑ ํ ์คํธ๋ฅผ ๋์ด์๋ ๋ค์ํ๊ณ ๋ณต์กํ ์ ํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. LLMs๊ฐ ์ค๋์ค ์ํธ์์ฉ์ ์ํด ํ๋ถํ ์ค๋์ค ์ ํธ๋ฅผ ์ธ์ํ๊ณ ์ดํดํ ์ ์๋๋ก ํ๋ ๊ฒ์ ๊ด๋ฒ์ํ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค.
๊ธฐ์กด์ instruction following ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก large (multimodal) LLMs์ ๋ฅ๋ ฅ์ ์์๋ฐ๊ณ ๊ฐ๋ฒผ์ด supervised fine-tuning์ ์ฑํํ์ฌ ์ฌ์ฉ์ ์๋์ ๋ง์ถฐ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ์ฑํํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ค์ ๋ค์ํ ์ค๋์ค ์ ํ๊ณผ ์์ ์ ์ฒ๋ฆฌํ ์ ์๋ ์ฌ์ ํ๋ จ๋ audio-language ๋ชจ๋ธ์ ๋ถ์กฑ์ผ๋ก ์ธํด ์ค๋์ค ์ํธ์์ฉ ๋ฅ๋ ฅ ๋ฉด์์ ์ ์ฝ์ ๋ฐ์์ต๋๋ค.
๊ธฐ์กด์ ๋ํ์ ์ธ audio-language multi-task language ๋ชจ๋ธ๋ค์ธ SpeechNet, SpeechT5, VIOLA, Whisper, Pengi ๋ฑ์ ์ธ๊ฐ ์์ฑ์ด๋ ์์ฐ์๊ณผ ๊ฐ์ ํน์ ์ค๋์ค ์ ํ ์ฒ๋ฆฌ์ ์ ํ๋์ด ์์ต๋๋ค.
audio-text multimodal ์ปค๋ฎค๋ํฐ์ ์ฑ์ฅ๊ณผ ๋ฐ์ ์ ์ด์งํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋๊ท๋ชจ audio-language ๋ชจ๋ธ์ธ Qwen-Audio๋ฅผ ์๊ฐํฉ๋๋ค. Qwen-Audio๋ ์ค๋์ค์ ํ ์คํธ ์ ๋ ฅ์ ์กฐ๊ฑด์ผ๋ก ํ๋ multi-task language ๋ชจ๋ธ๋ก, ๋จ์ผ audio encoder์ ์ฐ๊ฒฐ์ ํตํด ์ค๋์ค ์ ํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ธ์ํ๋๋ก Qwen-7B language ๋ชจ๋ธ์ ํ์ฅํฉ๋๋ค.
์ฃผ๋ก ์ธ๊ฐ ์์ฑ๊ณผ ๊ฐ์ ๋จ์ผ ์ค๋์ค ์ ํ์ ์ด์ ์ ๋ง์ถ๊ฑฐ๋ ์์ฑ ์ธ์ ๋ฐ ์บก์ ๊ณผ ๊ฐ์ ํน์ ์์ ์ ์ง์คํ๊ฑฐ๋ ๋จ์ผ ์ธ์ด๋ก ๋ชจ๋ธ์ ์ ํํ๋ ์ด์ ์ฐ๊ตฌ๋ค๊ณผ ๋ฌ๋ฆฌ, ์ฐ๋ฆฌ๋ ๋ฒ์ฉ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ ๋ฐ์ ์ ์ํด 8๊ฐ ์ธ์ด์ ๋ค์ํ ์ ํ์ ์ค๋์ค๋ฅผ ํฌํจํ์ฌ 30๊ฐ ์ด์์ ์์ ์ ๋ค๋ฃจ๋ ์์ญ ๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ์ ํ์ฅํ์ต๋๋ค.
multi-task ํ์ต์ ์ค์ํ ๊ณผ์ ๋ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๊ณผ ์ฐ๊ด๋ ํ ์คํธ ๋ ์ด๋ธ์ ์๋นํ ๋ณํ์์ ๋ฐ์ํฉ๋๋ค. ์ด๋ฌํ ๋ณํ๋ ์์ ์ด์ , ์ธ์ด, ์ฃผ์ ์ธ๋ถํ ๋ฐ ํ ์คํธ ๊ตฌ์กฐ(๊ตฌ์กฐํ ๋๋ ๋น๊ตฌ์กฐํ)์ ์ฐจ์ด์์ ๋น๋กฏ๋ฉ๋๋ค. ์ด๋ฌํ one-to-many ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ณ์ธต์ ํ๊ทธ์ ์ํ์ค๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ decoder๋ฅผ ํตํด ์ง์ ๊ณต์ ๋ฅผ ์ฅ๋ คํ๊ณ ๊ณต์ ํ๊ทธ์ ํน์ ํ๊ทธ๋ฅผ ๊ฐ๊ฐ ํตํด ๊ฐ์ญ์ ์ํํ๋ multi-task ํ๋ จ framework๋ฅผ ์ ์คํ๊ฒ ์ค๊ณํ์ต๋๋ค.
๋ํ, ์ฐ๋ฆฌ๋ ์ด์ multi-task ํ์ต ์ฐ๊ตฌ์์ ์ผ๋ฐ์ ์ผ๋ก ๋ฌด์๋๋ word-level time-stamp ์์ธก(SRWT) ์์ ๊ณผ ํจ๊ป ์์ฑ ์ธ์์ ํ๋ จ์ ํตํฉํฉ๋๋ค. ์ด ์์ ์ด ์์ฑ ์ ํธ๋ฅผ ๋์ด์ ์๋ฆฌ์ ์์ ๋ฑ์ grounding ๋ฐ grounding ๊ธฐ๋ฐ QA ์์ ์ ๊ฐ์ ํ ๋ฟ๋ง ์๋๋ผ ASR ์ฑ๋ฅ๋ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
Figure 1์์ ๋ณด๋ฏ์ด, ๊ด๋ฒ์ํ ํ๊ฐ๋ฅผ ํตํด Qwen-Audio๊ฐ ์์ ๋ณ fine-tuning ์์ด๋ ๋ค์ํ ์์ ๋ฒ์์์ ์ด์ multi-task ํ๋ จ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. Qwen-Audio์ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ๋ Aishell1, cochlscene, ClothoAQA, VocalSound์ ํ ์คํธ ์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ ๋๋ค.
Qwen-Audio์ ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ, ์ฐ๋ฆฌ๋ supervised instruction fine-tuning์ ํตํด Qwen-Audio-Chat์ ์๊ฐํฉ๋๋ค. ์ด๋ multi-turn dialogue์์ ์ค๋์ค์ ํ ์คํธ modality ๋ชจ๋๋ก๋ถํฐ ์ ์ฐํ ์ ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ธ๊ฐ ์ง์์ฌํญ์ ๋ฐ๋ฅธ ํจ๊ณผ์ ์ธ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋:
โข ๋ค์ํ ์์ , ์ธ์ด ๋ฐ ์ค๋์ค ์ ํ์ ์ง์ํ๋ ๋ฒ์ฉ ์ค๋์ค ์ดํด ๋ชจ๋ธ ์ญํ ์ ํ๋ ๊ธฐ๋ณธ multi-task audio-language ๋ชจ๋ธ์ธ Qwen-Audio๋ฅผ ์๊ฐํฉ๋๋ค. Qwen-Audio๋ฅผ ๊ธฐ๋ฐ์ผ๋ก instruction fine-tuning์ ํตํด Qwen-Audio-Chat์ ๊ฐ๋ฐํ์ฌ multi-turn dialogue๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ณ ๋ค์ํ ์ค๋์ค ์งํฅ ์๋๋ฆฌ์ค๋ฅผ ์ง์ํฉ๋๋ค. Qwen-Audio์ Qwen-Audio-Chat ๋ชจ๋ธ ๋ชจ๋ ์คํ์์ค๋ก ์ ๊ณต๋์ด audio-text multimodal ์ปค๋ฎค๋ํฐ์ ์ฑ์ฅ๊ณผ ๋ฐ์ ์ ์ด์งํฉ๋๋ค.
โข audio-language ์ฌ์ ํ๋ จ์ ํ์ฅํ๊ธฐ ์ํด, ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๊ณผ ์ฐ๊ด๋ ํ ์คํธ ๋ ์ด๋ธ์ ๋ณํ ๋ฌธ์ ๋ฅผ multi-task ํ๋ จ framework๋ฅผ ์ ์ํ์ฌ ํด๊ฒฐํ๊ณ , ์ง์ ๊ณต์ ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ one-to-many ๊ฐ์ญ์ ๋ฐฉ์งํฉ๋๋ค. ์ฐ๋ฆฌ ๋ชจ๋ธ์ 30๊ฐ ์ด์์ ์์ ์ ํตํฉํ๋ฉฐ ๊ด๋ฒ์ํ ์คํ์ ํตํด ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
โข audio-language ์ฌ์ ํ๋ จ์ ์ด์งํ๊ธฐ ์ํด, ์ค๋์ค multimodal ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์ ์ข ์ข ๊ฐ๊ณผ๋๋ SRWT ์์ ์ ํตํฉํ๋ ๊ฒ์ด ์์ฑ ์ ํธ๋ฅผ ๋์ด์ grounding ๋ฐ grounding ๊ธฐ๋ฐ ์ง๋ฌธ ๋ต๋ณ ์์ ๊ณผ ASR ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
โข ์คํ ๊ฒฐ๊ณผ๋ Qwen-Audio๊ฐ ์์ ๋ณ fine-tuning ์์ด๋ ๋ค์ํ ๋ฒค์น๋งํฌ ์์ ์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ํนํ, Qwen-Audio๋ Aishell1, cochlscene, ClothoAQA, VocalSound์ ํ ์คํธ ์ ์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
-
Related Work
Multi-task Audio-Text Learning
multi-task ํ๋ จ์ ๋ชฉํ๋ ํตํฉ๋ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ฐ์ดํฐ ํ์์ ํตํด ์๋ก ๋ค๋ฅธ ์์ ๊ฐ์ ์ง์์ ์ ๋ฌํ๋ ๊ฒ์ ๋๋ค. ์ค๋์ค ์ฒ๋ฆฌ ์์ญ์์๋ ์ธ๊ฐ ์์ฑ, ์์ฐ์, ์์ , ๋ ธ๋์ ๊ฐ์ ๋ค์ํ ์ค๋์ค ์ ํธ๊ฐ ์กด์ฌํ๊ณ ์ด๋ค์ ๋ผ๋ฒจ๋ง ํ์์ด ํฌ๊ฒ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ ์ค๋์ค ์ฒ๋ฆฌ ์์ ์ ํตํฉํ๋ ๊ฒ์ด ์ด๋ ต์ต๋๋ค.
SpeechNet๊ณผ SpeechT5๋ ์ธ๊ฐ ์์ฑ ์์ ์ speech/text ์ ๋ ฅ ๋ฐ speech/text ์ถ๋ ฅ ํ์์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ์ฌ์ ํ๋ จ์ ์ํ ๊ณต์ encoder-decoder framework๋ฅผ ํ์ฉํฉ๋๋ค. ๋ง์ ์ฐ๊ตฌ๋ค์ด speech representation์ ์ง์ ๊ณต๊ธํ๊ฑฐ๋ ์ฐ์์ ์ธ ์์ฑ ์ ํธ๋ฅผ discrete codes๋ก ์ธ์ฝ๋ฉํ์ฌ ๋ฐ์ดํฐ ํ์๊ณผ ์์ ์ ํตํฉํ๊ณ , ์๋ก ๋ค๋ฅธ ์ธ๊ฐ ์์ฑ ์์ ์ ์กฐ๊ฑด๋ถ ์์ฑ ์์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
VoiceBox๋ ์ธ๊ฐ ์์ฑ ํฉ์ฑ ๋ฐ ์์ฑ ํธ์ง ์์ ์ ์ํด non-autoregressive continuous normalizing flow ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. Whisper๋ ๋ฐ์ดํฐ์ ์ฃผ์์ ์ธ๋ถํ(๋ฌธ์ฅ ์์ค ํ์์คํฌํ ์ ๋ฌด)์ ์์ ์ ํ(์ธ๊ฐ ์์ฑ ์ธ์ ๋ฐ ๋ฒ์ญ)์ ๊ณ ๋ คํ multi-task ํ๋ จ์ ์ํ ํ ํ๋ฆฟ์ ์ ์ํฉ๋๋ค.
์ด์ ์ฐ๊ตฌ๋ค์ ๋๋ถ๋ถ ์์ฑ ์ธ์ ๋ฐ ๋ฒ์ญ๊ณผ ๊ฐ์ ์ธ๊ฐ ์์ฑ ์ฒ๋ฆฌ ์์ ์๋ง ์ด์ ์ ๋ง์ถ๊ณ ์์ฐ์์ด๋ ์์ ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์ค๋์ค ์ ํ์ ๋ฌด์ํฉ๋๋ค. Pengi๋ ์์ฐ์ ์ดํด ์์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์ด๋ฌํ ์์ ์ ํ ์คํธ ์์ฑ ์์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์ Qwen-Audio๋ ์ธ๊ฐ ์์ฑ, ์์ฐ์, ์์ , ๋ ธ๋์ ๊ฐ์ ๋ค์ํ ์ค๋์ค ์ ํ์ ํตํฉํ๊ณ , ์ด์ง์ ์ธ ๋ฐ์ดํฐ์์ ์์ฑ๋๊ณ ์๋ก ๋ค๋ฅธ ๋ผ๋ฒจ๋ง ์ธ๋ถํ๋ฅผ ํน์ง์ผ๋ก ํ๋ ๋ฐ์ดํฐ์ ์์์ ๊ณต๋ ํ๋ จ์ ์ด์งํฉ๋๋ค. ์ด๋ ํตํฉ๋ ํ์ต framework์ ๋์ ์ ํตํด ๋ฌ์ฑ๋ฉ๋๋ค.
Interact with LLMs through Multiple Modality
์ต๊ทผ ChatGPT์ ๊ฐ์ large language ๋ชจ๋ธ๋ค์ด ์ธ๊ฐ ์ง์์ฌํญ์ ๋ฐ๋ฅธ ์ง์ ๋ณด์กด, ์ถ๋ก , ์ฝ๋ฉ์์ ์ธ์์ ์ธ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์์ ํ ์คํธ ์์ ์ ๋์ด LLMs์ ์ ์ฉ ๋ฒ์๋ฅผ ํ์ฅํ๊ธฐ ์ํด, ๋ง์ LLM ๊ธฐ๋ฐ multimodal ๋ชจ๋ธ๋ค์ด ๊ฐ๋ฐ๋์์ต๋๋ค.
์๊ฐ์ modality์ ๊ฒฝ์ฐ, GPT4, Flamingo, Kosmos, BLIP, Shikra, Emu, Qwen-VL ๋ฑ์ด LLMs์ ๋ํ ์ด๋ฏธ์ง ์ดํด ๋๋ ์์ฑ ๋ฅ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ค์ํ ํตํฉ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค.
์ค๋์ค modality์ ๊ฒฝ์ฐ, AudioGPT์ HuggingGPT์ ๊ฐ์ด ์ ํ๋ จ๋ ์ค๋์ค foundation ๋ชจ๋ธ๋ค์ ๋๊ตฌ๋ก ํ์ฉํ๋ฉด์ LLMs๋ฅผ ๋ค์ํ ์ธํฐํ์ด์ค๋ก ํ์ฉํ๋ ค๋ ์๋๋ค์ด ์์์ต๋๋ค. ์ด๋ฌํ ๋ ธ๋ ฅ๋ค์ ์ธ๋ถ ๋๊ตฌ๋ฅผ ์ ์ดํ๊ธฐ ์ํ ๋ช ๋ น์ ์์ฑํ๊ฑฐ๋ ์ธ๊ฐ ์์ฑ์ ํ ์คํธ๋ก ๋ณํํ ํ LLMs์ ์ ๋ ฅํ๋๋ก LLMs์ ์ง์ํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค.
๊ทธ๋ฌ๋ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์๋ค์ ์ธ๊ฐ ์์ฑ์ ์ด์จ(prosody)๊ณผ ๊ฐ์ ๊ณผ ๊ฐ์ ์ค์ํ ์ ๋ณด์ ํฌํจ์ด ๋ถ์กฑํ๋ฉฐ, ํน์ ๊ฒฝ์ฐ์๋ ์์ฐ์๊ณผ ๊ฐ์ ๋นํ ์คํธ ์ค๋์ค๋ฅผ ๋ณํํ๋ ๋ฐ ์คํจํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก LLMs์์ ์์ฑ modality๋ก์ ์ง์ ์ ๋ฌ์ ์ฅ์ ๋ฌผ์ด ๋ฐ์ํ๊ณ , LLMs๋ ์ค๋์ค ์ ํธ๋ฅผ ์ธ์ํ๊ณ ์ดํดํ๋ ๋ฐ ํ์ํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค.
์ต๊ทผ์ ๋ ธ๋ ฅ๋ค์ ์ง์ ์ ์ธ ์์ฑ ์ํธ์์ฉ์ ์ํ end-to-end audio-text LLMs ํ๋ จ์ ํ๊ตฌํฉ๋๋ค. SpeechGPT๋ ๋จผ์ ์ธ๊ฐ ์์ฑ์ discrete HuBERT tokens๋ก ๋ณํํ๊ณ , paired speech ๋ฐ์ดํฐ, speech instruction ๋ฐ์ดํฐ, chain-of-modality instruction ๋ฐ์ดํฐ์ ๋ํด 3๋จ๊ณ ํ๋ จ ํ์ดํ๋ผ์ธ์ ์ค๊ณํฉ๋๋ค.
BLSP๋ LLM์ด ์ธ๊ฐ ์์ฑ๊ณผ ํด๋น ์ ์ฌ๋ฅผ ์ ๊ณต๋ฐ์์ ๋ ๋์ผํ ํ ์คํธ ์ฐ์์ ์์ฑํ๋๋ก ์๊ตฌํ์ฌ representation์ ์ ๋ ฌํฉ๋๋ค. LLaSM์ Microsoft TTS API๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ ์ง๋ฌธ์ ์์ฑํจ์ผ๋ก์จ ๋๊ท๋ชจ ์์ฑ instruction ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ณ , ์ธ๊ฐ ์์ฑ๊ณผ ํ ์คํธ ๊ฐ์ end-to-end ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํ ํ๋ จ์ ์ํํฉ๋๋ค.
LTU๋ 5M ์ค๋์ค QA ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ณ , ์๋ฆฌ ์ธ์๊ณผ ์ถ๋ก ๊ฐ์ ์ ๋ ฌ์ ํฅ์์ํค๊ธฐ ์ํด ์ค๋์ค ๋ชจ๋๊ณผ LLaMA์ LoRA adapters์ ๋ํด supervised finetuning (SFT)๋ฅผ ์ํํฉ๋๋ค.
SALMMON์ ํ ์คํธ encoder์ speech encoder๋ฅผ ๋ชจ๋ ํ์ฉํ์ฌ ๋ค์ํ ์ข ๋ฅ์ ์ค๋์ค์ ํ ์คํธ ์ ๋ ฅ์์ representation์ ์ถ์ถํ๊ณ , Q-former ์คํ์ผ attention์ ํตํด ์ ํ๋ จ๋ LLM์ ์ ๋ ฅ์ ์ฐ๊ฒฐํ์ฌ ์๋ต์ ์์ฑํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์ Qwen-Audio๋ ํ ์คํธ ๋ํ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ์ค๋์ค ์ ๋ ฅ์ ์ธ์ํ๊ณ ์ดํดํ ์ ์๋ ํตํฉ๋ audio-text multi-task multilingual LLMs ํ๋ จ์ ๋ชฉํ๋ก ํฉ๋๋ค. Qwen-Audio๋ ๋ชจ๋ ์ค๋์ค์ ๋ํด ๋จ์ผ encoder๋ฅผ ์ฌ์ฉํ๊ณ , ์์ฐ์ ํ์ง, ์ธ๊ฐ ์์ฑ ์ธ์ ๋ฐ grounding, ์ค๋์ค ์บก์ ์์ ๊ณผ ๊ฐ์ ๋ค์ํ ์์ ์ ์ง์ํ๊ธฐ ์ํด ๋๊ท๋ชจ end-to-end ํ๋ จ์ ํตํด ์ค๋์ค์ ํ ์คํธ modality ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค.
-
Methodology
์ด ์น์ ์ ๋ฒ์ฉ ์ค๋์ค ์ดํด์ ์ธ๊ฐ ์ง์์ฌํญ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ ์ฐํ ์ํธ์์ฉ์ ์ํด ์ค๊ณ๋ Qwen-Audio์ Qwen-Audio-Chat์ ์ธ๋ถ์ฌํญ์ ์ ๊ณตํฉ๋๋ค. Qwen-Audio์ Qwen-Audio-Chat์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๋จผ์ Section 3.1์์ ์ ์๋ฉ๋๋ค.
์ฐ๋ฆฌ ๋ชจ๋ธ์ ํ๋ จ ๊ณผ์ ์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: multitask pretraining๊ณผ supervised fine-tuning์ ๋๋ค. Section 3.2์์๋ multitask ํ์ต์ ํตํ Qwen-Audio์ ํ๋ จ์ ์ค๋ช ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ Section 3.3์์๋ ์ ์ฐํ ์ธ๊ฐ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ supervised fine-tuning์ ํตํ Qwen-Audio-Chat์ ์ค๋ช ํฉ๋๋ค.
3.1 Model Architecture
Qwen-Audio ๋ชจ๋ธ์ ์ํคํ ์ฒ๋ Figure 3์ ๋ฌ์ฌ๋์ด ์์ต๋๋ค. Qwen-Audio๋ audio encoder์ large language model์ ํฌํจํฉ๋๋ค. paired ๋ฐ์ดํฐ (a, x)๊ฐ ์ฃผ์ด์ก์ ๋, ์ฌ๊ธฐ์ a์ x๋ ๊ฐ๊ฐ ์ค๋์ค ์ํ์ค์ ํ ์คํธ ์ํ์ค๋ฅผ ๋ํ๋ด๋ฉฐ, ํ๋ จ ๋ชฉํ๋ ๋ค์ ํ ์คํธ ํ ํฐ ํ๋ฅ ์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค:
Pฮธ(xtโฃx<t,Encoderฯ(a))P_ฮธ(x_t | x_{<t}, \text{Encoder}_ฯ(a))Pฮธโ(xtโโฃx<tโ,Encoderฯโ(a)) |
์ด๋ ์ค๋์ค representation๊ณผ ์ด์ ํ ์คํธ ์ํ์ค x<tx_{<t}x<tโ๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ฉฐ, ์ฌ๊ธฐ์ ฮธ์ ฯ๋ ๊ฐ๊ฐ LLM๊ณผ audio encoder์ ํ๋ จ ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๋ฅผ ๋ํ๋ ๋๋ค.
Audio Encoder: Qwen-Audio๋ ๋ค์ํ ์ ํ์ ์ค๋์ค๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋จ์ผ audio encoder๋ฅผ ์ฌ์ฉํฉ๋๋ค. audio encoder์ ์ด๊ธฐํ๋ Whisper-large-v2 ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ด๋ stem์ผ๋ก ๋ ๊ฐ์ convolution down-sampling ๋ ์ด์ด๋ฅผ ํฌํจํ๋ 32์ธต Transformer ๋ชจ๋ธ์ ๋๋ค. audio encoder๋ 640M ๊ฐ์ ๋งค๊ฐ๋ณ์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Whisper๊ฐ ์์ฑ ์ธ์๊ณผ ๋ฒ์ญ์ ์ํด supervised ํ๋ จ๋์์ง๋ง, ๊ทธ ์ธ์ฝ๋ฉ๋ representation์ ์ฌ์ ํ ๋ฐฐ๊ฒฝ ์์๊ณผ ๊ฐ์ ํ๋ถํ ์ ๋ณด๋ฅผ ํฌํจํ๋ฉฐ, ์ฌ์ง์ด ์๋ณธ ์์ฑ์ ๋ณต๊ตฌํ๋ ๋ฐ๋ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด, Whisper๋ ์ด๋ฅผ 16kHz ์ฃผํ์๋ก ๋ฆฌ์ํ๋งํ๊ณ 25ms์ window size์ 10ms์ hop size๋ฅผ ์ฌ์ฉํ์ฌ raw waveform์ 80-channel mel-spectrogram์ผ๋ก ๋ณํํฉ๋๋ค. ๋ํ, ์ค๋์ค representation์ ๊ธธ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด stride๊ฐ 2์ธ pooling ๋ ์ด์ด๊ฐ ํตํฉ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก encoder ์ถ๋ ฅ์ ๊ฐ ํ๋ ์์ ์๋ณธ ์ค๋์ค ์ ํธ์ ์ฝ 40ms ์ธ๊ทธ๋จผํธ์ ํด๋นํฉ๋๋ค. ํ๋ จ ์์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก SpecAugment๊ฐ ์ ์ฉ๋ฉ๋๋ค.
Large Language Model: Qwen-Audio๋ foundational ๊ตฌ์ฑ ์์๋ก large language model์ ํตํฉํฉ๋๋ค. ๋ชจ๋ธ์ Qwen-7B์์ ํ์๋ ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐํ๋ฉ๋๋ค. Qwen-7B๋ 4096์ hidden size๋ฅผ ๊ฐ์ง 32์ธต Transformer decoder ๋ชจ๋ธ๋ก, ์ด 7.7B ๋งค๊ฐ๋ณ์๋ฅผ ํฌํจํฉ๋๋ค.
3.2 Multitask Pretraining
์ค๋์ค ์ฒ๋ฆฌ ์์ญ์์ Table 1์์ ๋ณด๋ฏ์ด ํน์ ์์ ์ ๋ค๋ฃจ๊ธฐ ์ํด ๋ค์ํ ์ค๋์ค ๋ฐ์ดํฐ์ ๋ค์ด ๊ฐ๋ฐ๋์์ต๋๋ค. Qwen-Audio๋ ๊ด๋ฒ์ํ ์ค๋์ค ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ๊ณต๋ ํ๋ จ์ ์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ชฉํ๋ ๋ชจ๋ ์ค๋์ค ์์ ์ ์ง์ํ ์ ์๋ ํตํฉ๋ ๋ชจ๋ธ์ ํ๋ จํ์ฌ, ๋ค์ํ ์์ ์ ์ฒ๋ฆฌํ ๋ ๋ฒ๊ฑฐ๋ก์ด ๋ชจ๋ธ ์ ํ์ ํ์์ฑ์ ์์ ๋ ๊ฒ์ ๋๋ค.
๋ ์ค์ํ๊ฒ๋, ๊ณต๋ ํ๋ จ ์ค์ ์์ ๋ค์ด ์๋ก ๋์์ด ๋ ์ ์์ต๋๋ค: 1) ์ ์ฌํ ์์ ๋ค์ ์ค๋์ค ์ ํธ์ ๋ด์ฅ๋ ๊ธฐ๋ณธ ์ ๋ณด์ ๋ํ ๊ณตํต์ ์ธ ์ด์ ์ ๊ณต์ ํ๋ฏ๋ก ์ง์ ๊ณต์ ์ ํ๋ ฅ ํ์ต์ผ๋ก๋ถํฐ ์ด์ต์ ์ป์ ์ ์์ต๋๋ค; 2) ๋ฎ์ ์์ค์ ์ธ์ ๋ฅ๋ ฅ์ ์์กดํ๋ ์์ ๋ค์ด ๋์ ์์ค์ ์ดํด๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์๊ตฌํ๋ ์์ ๋ค์ ๋์ธ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ค์ ์์ ์ด์ , ์ธ์ด, ์ฃผ์ ์ธ๋ถํ ๋ฐ ํ ์คํธ ๊ตฌ์กฐ์ ์ฐจ์ด๋ก ์ธํด ํ ์คํธ ๋ ์ด๋ธ์์ ์๋นํ ๋ณํ๋ฅผ ๋ณด์ ๋๋ค. ๋คํธ์ํฌ๋ฅผ ๋ค์ํ ์์ ์ ๋ํด ํ๋ จํ๊ธฐ ์ํด ์ด๋ฌํ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋จ์ํ ํผํฉํ๋ ๊ฒ์ ์ํธ ํฅ์์ผ๋ก ์ด์ด์ง ์ ์์ผ๋ฉฐ, ๋์ ๊ฐ์ญ์ ๋์ ํฉ๋๋ค.
๊ธฐ์กด์ ๋๋ถ๋ถ์ multi-task ํ๋ จ ์ ๊ทผ ๋ฐฉ์๋ค์ ์ ์ฌํ ์์ ๋ค์ ๊ทธ๋ฃนํํ๊ฑฐ๋(์: ์ค๋์ค ์บก์ , ์ ์ฌ) ๊ฐ์ญ์ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ฐ ๋ฐ์ดํฐ์ ์ dataset ID๋ฅผ ํ ๋นํ์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์๋ค์ด ์ผ์ ํ ํจ๊ณผ๋ฅผ ๋ฌ์ฑํ์ง๋ง, ์ฌ์ ํ ์๋นํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์ต๋๋ค.
Whisper๋ voice activity detection, language identification, sentence-level timestamp ํ๊ทธ์ ๊ฐ์ ์ธ์ด decoder์ ๋ํ ์ ๋ ฅ ํน์ ํ ํฐ์ ์ํ์ค๋ก ์์ ๊ณผ ์กฐ๊ฑด ์ ๋ณด๋ฅผ ์ง์ ํ์ฌ multitask ํ๋ จ ํ์์ ์ ์ํฉ๋๋ค. ๊ทธ๋ฌ๋ Whisper๋ ์์ฑ ๋ฒ์ญ๊ณผ ์ธ์ ์์ ์๋ง ์ด์ ์ ๋ง์ถฅ๋๋ค.
Multi-task Training Format Framework: Whisper์์ ์๊ฐ์ ๋ฐ์, ๋ค์ํ ์ข ๋ฅ์ ์ค๋์ค๋ฅผ ํตํฉํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ multitask ํ๋ จ ํ์ framework๋ฅผ ์ ์ํฉ๋๋ค:
โข Transcription Tag: ์์ธก์ ์์์ transcription ํ๊ทธ๋ฅผ ์ฌ์ฉํ์ฌ ํ์๋ฉ๋๋ค. <|startoftranscripts|>
๋ ์์ฑ ์ธ์ ๋ฐ ์์ฑ ๋ฒ์ญ ์์
๊ณผ ๊ฐ์ด ์์ฑ ๋จ์ด๋ฅผ ์ ํํ๊ฒ ์ ์ฌํ๊ณ ์์ฑ ๋
น์์ ์ธ์ด์ ๋ด์ฉ์ ์บก์ฒํ๋ ์์
์ ๋ํ๋ด๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ค๋ฅธ ์์
์ ๊ฒฝ์ฐ <|startofanalysis|>
ํ๊ทธ๊ฐ ํ์ฉ๋ฉ๋๋ค.
โข Audio Language Tag: ๊ทธ๋ฐ ๋ค์ ์ค๋์ค์์ ์ฌ์ฉ๋๋ ์ธ์ด๋ฅผ ๋ํ๋ด๋ ์ธ์ด ํ๊ทธ๋ฅผ ํตํฉํฉ๋๋ค. ์ด ํ๊ทธ๋ ์ด 8๊ฐ ์ธ์ด๋ก ๊ตฌ์ฑ๋ ํ๋ จ ์ธํธ์ ์๋ ๊ฐ ์ธ์ด์ ํ ๋น๋ ๊ณ ์ ํ ํฐ์ ์ฌ์ฉํฉ๋๋ค. ์์ฐ์๊ณผ ์์
๊ณผ ๊ฐ์ด ์์ฑ์ด ํฌํจ๋์ง ์์ ์ค๋์ค ์ธ๊ทธ๋จผํธ์ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ <|unknown|>
ํ ํฐ์ ์์ธกํ๋๋ก ํ๋ จ๋ฉ๋๋ค.
โข Task Tag: ํ์ ํ ํฐ๋ค์ด ์์
์ ์ง์ ํฉ๋๋ค. ์์ง๋ ์ค๋์ค ์์
์ ๋ค์ฏ ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋ถ๋ฅํฉ๋๋ค: <|transcribe|>
, <|translate|>
, <|caption|>
, <|analysis|>
, <|question-answer|>
์์
๋ค. question-answer (QA) ์์
์ ๊ฒฝ์ฐ, ํ๊ทธ ํ์ ํด๋น ์ง๋ฌธ์ ์ถ๊ฐํฉ๋๋ค.
โข Text Language Tag: ํ๊ทธ ํ ํฐ์ด ์ถ๋ ฅ ํ ์คํธ ์ํ์ค์ ์ธ์ด๋ฅผ ์ง์ ํฉ๋๋ค.
โข Timestamps Tag: <|timestamps|>
๋๋ <|notimestamps|>
ํ ํฐ์ ์กด์ฌ๋ ๋ชจ๋ธ์ด ํ์์คํฌํ๋ฅผ ์์ธกํด์ผ ํ๋์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. Whisper์์ ์ฌ์ฉ๋๋ ๋ฌธ์ฅ ์์ค ํ์์คํฌํ์ ๋ค๋ฅด๊ฒ, <|timestamps|>
ํ๊ทธ์ ํฌํจ์ ๋ชจ๋ธ์ด SRWT(Speech Recognition with Word-level Timestamps)๋ก ์ถ์ฝ๋๋ ์ธ๋ฐํ word-level ํ์์คํฌํ ์์ธก์ ์ํํ๋๋ก ์๊ตฌํฉ๋๋ค. ์ด๋ฌํ ํ์์คํฌํ์ ์์ธก์ ์ ์ฌ ๋จ์ด๋ค๊ณผ ๊ต์ฐจ๋ฉ๋๋ค: ์์ ์๊ฐ ํ ํฐ์ ๊ฐ ์ ์ฌ ํ ํฐ ์ ์ ์์ธก๋๊ณ , ์ข
๋ฃ ์๊ฐ ํ ํฐ์ ํ์ ์์ธก๋ฉ๋๋ค. ์ฐ๋ฆฌ์ ์คํ์ ๋ฐ๋ฅด๋ฉด, SRWT๋ ์ค๋์ค ์ ํธ๋ฅผ ํ์์คํฌํ์ ์ ๋ ฌํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค. ์ด๋ฌํ ํฅ์๋ ์ ๋ ฌ์ ๋ชจ๋ธ์ ์์ฑ ์ ํธ์ ๋ํ ํฌ๊ด์ ์ธ ์ดํด์ ๊ธฐ์ฌํ๋ฉฐ, ์์ฑ ์ธ์ ๋ฐ ์ค๋์ค QA ์์
๊ณผ ๊ฐ์ ๋ง์ ์์
์์ ์ฃผ๋ชฉํ ๋งํ ๋ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค.
โข Output Instruction: ๋ง์ง๋ง์ผ๋ก, ๋ค์ํ ํ์ ์์ ์ ๋ํ ์์ ๊ณผ ์ํ๋ ํ์์ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ง์ ํ๊ธฐ ์ํ ์ถ๋ ฅ ์ง์์ฌํญ์ ์ ๊ณตํ๊ณ , ๊ทธ๋ฐ ๋ค์ ํ ์คํธ ์ถ๋ ฅ์ด ์์๋ฉ๋๋ค.
์ฐ๋ฆฌ framework์ ์ง๋ ์๋ฆฌ๋ ๊ณต์ ํ๊ทธ๋ฅผ ํตํด ์ ์ฌํ ์์ ๋ค ๊ฐ์ ์ง์ ๊ณต์ ๋ฅผ ์ต๋ํํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ ๋๋ค. ๋์์, ์ฐ๋ฆฌ๋ ์๋ก ๋ค๋ฅธ ์์ ๊ณผ ์ถ๋ ฅ ํ์์ด ๊ตฌ๋ณ๋ ์ ์๋๋ก ํ์ฌ ๋ชจ๋ธ์ one-to-many ๋งคํ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.
3.3 Supervised Fine-tuning
multitask ๋ชจ๋ธ์ ๊ด๋ฒ์ํ ์ฌ์ ํ๋ จ์ ์ค๋์ค์ ๋ํ ๊ด๋ฒ์ํ ์ดํด๋ก ๋ชจ๋ธ์ ๊ฐ์ถ๊ฒ ํ์ต๋๋ค. ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ฐ๋ฆฌ๋ instruction ๊ธฐ๋ฐ fine-tuning ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ ์๋์ ๋ง์ถฐ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฅ์์์ผ Qwen-Audio-Chat์ด๋ผ๋ ๋ํํ ์ฑํ ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค.
์ด๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ ์์ ์ ๋ํ ์์ฐ์ ์๋์ผ๋ก ์์ฑํฉ๋๋ค. ์ด๋ฌํ ์์ฐ์ ์์ ํ ์คํธ ๋ ์ด๋ธ, ์ง๋ฌธ ๋ฐ ๋ต๋ณ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ ๊ณต๋ ์์ ํ ์คํธ ๋ ์ด๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ถ๊ฐ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ์์ฑํ๊ธฐ ์ํด GPT-3.5๋ฅผ ํ์ฉํฉ๋๋ค.
๋ํ, ์๋ ์ฃผ์, ๋ชจ๋ธ ์์ฑ ๋ฐ ์ ๋ต ์ฐ๊ฒฐ์ ์ฌ์ฉํ์ฌ audio-dialogue ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ์ ์ ์์ฑํฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์ถ๋ก , ์คํ ๋ฆฌ ์์ฑ ๋ฐ multi-image comprehension ๋ฅ๋ ฅ์ ๋ชจ๋ธ์ ํตํฉํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
multi-audio dialogue์ ์ฌ๋ฌ ์ค๋์ค ์
๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด, โAudio id:โ๋ก ๋ค์ํ ์ค๋์ค๋ฅผ ๋ผ๋ฒจ๋งํ๋ ๊ท์ฝ์ ๋์
ํฉ๋๋ค. ์ฌ๊ธฐ์ id๋ ์ค๋์ค ์
๋ ฅ dialogue์ ์์์ ํด๋นํฉ๋๋ค. dialogue ํ์ ์ธก๋ฉด์์, ์ฐ๋ฆฌ๋ ChatML ํ์์ ์ฌ์ฉํ์ฌ instruction tuning ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํฉ๋๋ค. ์ด ํ์์์ ๊ฐ ์ํธ์์ฉ์ ๋ฌธ์ฅ์ dialogue ์ข
๋ฃ๋ฅผ ์ด์งํ๊ธฐ ์ํด ๋ ๊ฐ์ ํน์ ํ ํฐ(<im_start>
์ <im_end>
)์ผ๋ก ํ์๋ฉ๋๋ค.
multi-turn dialogue ๋ด์์ ์ค๋์ค์ ์์ ํ ์คํธ modality ๋ชจ๋๋ก๋ถํฐ ๋ค์ํ ์ ๋ ฅ์ ์ด์งํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ด ํ๋ จ ๊ณผ์ ์์ ์์์ ์ธ๊ธํ audio-centric instruction ๋ฐ์ดํฐ์ ์์ ํ ์คํธ instruction ๋ฐ์ดํฐ์ ์กฐํฉ์ ์ฌ์ฉํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ํตํด ๋ชจ๋ธ์ด ๋ค์ํ ํํ์ ์ ๋ ฅ์ ์ํํ๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. instruction tuning ๋ฐ์ดํฐ์ ์ด๋์ 20k์ ๋๋ค.
-
Experiments
4.1 Setup
multi-task ์ฌ์ ํ๋ จ์ ๊ฒฝ์ฐ, LLM์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ audio encoder๋ง ์ต์ ํํฉ๋๋ค. ์ด ํ๋ จ๋ ๋ชจ๋ธ์ Qwen-Audio๋ผ๊ณ ํฉ๋๋ค. ํ์ supervised fine-tuning ๋จ๊ณ์์๋ audio encoder์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ LLM๋ง ์ต์ ํํฉ๋๋ค. ๊ฒฐ๊ณผ ๋ชจ๋ธ์ Qwen-Audio-Chat์ผ๋ก ํ์๋ฉ๋๋ค. ๋ ๋จ๊ณ ๋ชจ๋์ ์์ธํ ํ๋ จ ๊ตฌ์ฑ์ Table 6์ ๋์ด๋์ด ์์ต๋๋ค.
4.2 Evaluation
Qwen-Audio์ ๋ฒ์ฉ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด, Table 2์์ ๋ณด๋ฏ์ด Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Automatic Audio Captioning (AAC), Acoustic Scene Classification (ASC), Speech Emotion Recognition (SER), Audio Question and Answering (AQA), Vocal Sound Classification (VSC), Music Note Analysis (MNA)๋ฅผ ํฌํจํ ๋ค์ํ ์์ ์ ํฌ๊ดํ๋ ์ข ํฉ์ ์ธ ํ๊ฐ๋ฅผ ์ํํฉ๋๋ค.
์ด ํ๊ฐ๋ 12๊ฐ์ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ ์ํ๋ฉ๋๋ค. ํ๊ฐ ๋ฐ์ดํฐ์ ๋ค์ ๋ฐ์ดํฐ ๋์ถ์ ๋ฐฉ์งํ๊ธฐ ์ํด ํ๋ จ ๋ฐ์ดํฐ์์ ์๊ฒฉํ๊ฒ ์ ์ธ๋ฉ๋๋ค.
4.3 Main Results
์ด ์น์ ์์๋ ์์ ๋ณ fine-tuning ์์ด ๋ค์ํ ์์ ์ ๊ฑธ์น ์ฑ๋ฅ์ ํ๊ฐํ๋ Qwen-Audio ๋ชจ๋ธ์ ์ข ํฉ์ ์ธ ํ๊ฐ๋ฅผ ์ ์ํฉ๋๋ค.
Table 3์ ๋ฌ์ฌ๋ English Automatic Speech Recognition (ASR) ๊ฒฐ๊ณผ๋ฅผ ๋จผ์ ๊ฒํ ํ๋ฉด, Qwen-Audio๊ฐ ์ด์ multi-task ํ์ต ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก librispeech test-clean๊ณผ test-other ๋ฐ์ดํฐ์ ์์ ๊ฐ๊ฐ 2.0%์ 4.2%์ WER๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ์ค๊ตญ์ด ๋ง๋ค๋ฆฐ ASR ๊ฒฐ๊ณผ๋ ์ด์ ์ ๊ทผ ๋ฐฉ์๋ค๊ณผ ๋น๊ตํ์ฌ Qwen-Audio์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ฐ๋ฆฌ๊ฐ ์๋ ํ, Qwen-Audio๋ Aishell1 dev์ test ์ ์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
๋ํ, CoVoST2 ๋ฐ์ดํฐ์ ์์ Qwen-Audio์ ์์ฑ ๋ฒ์ญ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. ๊ฒฐ๊ณผ๋ Qwen-Audio๊ฐ 7๊ฐ ๋ฒ์ญ ๋ฐฉํฅ ๋ชจ๋์์ ๊ธฐ์ค์ ์ ์๋นํ ์ฐจ์ด๋ก ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
๋ง์ง๋ง์ผ๋ก, Table 3์ ์์ฝ๋ AAC, SWRT, ASC, SER, AQA, VSC, MNA๋ฅผ ํฌํจํ ๋ค์ํ ์ค๋์ค ๋ถ์ ์์ ์์ Qwen-Audio์ ์ฑ๋ฅ์ ๋ถ์ํฉ๋๋ค. ์ด๋ฌํ ์์ ๋ค์์ Qwen-Audio๋ ์๋นํ ์ฐจ์ด๋ก ๊ธฐ์ค์ ๋ค์ ์ง์์ ์ผ๋ก ๋ฅ๊ฐํฉ๋๋ค. ํนํ, CochlScene, ClothoAQA, VocalSound์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ฌ ๋ชจ๋ธ์ ๊ฐ๋ ฅํ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
4.4 Results of Interactive Chat
Figure 2์ ๋ฌ์ฌ๋ ์์ ์ฌ๋ก๋ฅผ ํตํด Qwen-Audio-Chat์ ๋ํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ์จ๋ผ์ธ ์ฑํ ์ํธ์์ฉ์ ์ํด ํ๋ จ๋ ๋ชจ๋ธ์ ๋ํ ๊ณต๊ฐ ์ก์ธ์ค๋ฅผ ์ ๊ณตํ ์์ ์ ๋๋ค.
4.5 The Analysis of Word-level Timestamps Prediction
์ฐ๋ฆฌ๋ Qwen-Audio๊ฐ ์์ฑ ์ ์ฌ๋ฅผ ์ธ์ํ ๋ฟ๋ง ์๋๋ผ ๊ฐ ๋จ์ด์ ํ์์คํฌํ๋ฅผ ์์ธกํ๋๋ก ํ๋ จํจ์ผ๋ก์จ word-level ํ์์คํฌํ๋ฅผ ์ฌ์ฉํ ์์ฑ ์ธ์(SRWT) ์์ ์ ์ ์ํฉ๋๋ค. SRWT์ ๋ชฉ์ ์ ๋ ๊ฐ์ง์ ๋๋ค: ์ฒซ์งธ, ์ค๋์ค ์ ํธ๋ฅผ ์ธ๋ฐํ ํ์์คํฌํ์ ์ ๋ ฌํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๊ฒ; ๋์งธ, Qwen-Audio-Chat์์ ์์ฑ ๋ฐ ์ค๋์ค์ grounding๊ณผ grounding ๊ธฐ๋ฐ QA ์์ ์ ์ง์ํ๋ ๊ฒ์ ๋๋ค.
์ด ์น์ ์์๋ ๋ค๋ฅธ ์์ ๋ค์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์ multitask pretraining์์ SRWT ์์ ์ ํ๋ จ์ ์ ์ธํฉ๋๋ค. ์ฃผ๋ชฉํ ์ ์ SRWT ์ ๊ฑฐ๊ฐ SRWT ์์ ์ด automatic speech recognition (ASR) ์์ ๊ณผ ๋์ผํ ์ค๋์ค ๋ฐ์ดํฐ์ ์ ๊ณต์ ํ๋ฏ๋ก ํ๋ จ์ ์ํ ์ค๋์ค ๋ฐ์ดํฐ์ ์ปค๋ฒ๋ฆฌ์ง์ ์ํฅ์ ์ฃผ์ง ์๋๋ค๋ ๊ฒ์ ๋๋ค.
Table 4์ Table 5์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ์์ต๋๋ค: SRWT๋ก ํ๋ จ๋ ๋ชจ๋ธ๋ค์ด ์๋ ์์ฑ ์ธ์๊ณผ ์์ฐ์ QA ๋ฐ Music QA๋ฅผ ํฌํจํ ์ค๋์ค ์ง๋ฌธ ๋ต๋ณ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ผ๋ฐ์ ์ธ ์ค๋์ค ์ ํธ grounding ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ์ดํ ์๋ฆฌ์ ์์ ์ ํธ QA ์์ ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ธ๋ฐํ word-level ํ์์คํฌํ๋ฅผ ํตํฉํ๋ ํจ๊ณผ๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
-
Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ฒ์ฉ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋๊ท๋ชจ audio-language ๋ชจ๋ธ ์ธํธ์ธ Qwen-Audio ์๋ฆฌ์ฆ๋ฅผ ์ ์ํฉ๋๋ค. ๊ณต๋ ํ๋ จ์ ์ํด ๋ค์ํ ์ข ๋ฅ์ ์ค๋์ค๋ฅผ ํตํฉํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ ์ฌํ ์์ ๋ค ๊ฐ์ ์ง์ ๊ณต์ ๋ฅผ ์ด์งํ๊ณ ์๋ก ๋ค๋ฅธ ํ ์คํธ ํ์์ผ๋ก ์ธํ one-to-many ๋งคํ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๋ ํตํฉ๋ multi-task ํ์ต framework๋ฅผ ์ ์ํฉ๋๋ค.
์์ ๋ณ fine-tuning ์์ด๋, ๊ฒฐ๊ณผ์ ์ธ Qwen-Audio ๋ชจ๋ธ๋ค์ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์ด์ ์ฐ๊ตฌ๋ค์ ๋ฅ๊ฐํ์ฌ ๋ฒ์ฉ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. supervised instruction finetuning์ ํตํด, Qwen-Audio-Chat์ ์ธ๊ฐ ์๋์ ๋ง์ถ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ค๋์ค์ ํ ์คํธ ์ ๋ ฅ ๋ชจ๋๋ก๋ถํฐ ๋ค๊ตญ์ด ๋ฐ multi-turn dialogue๋ฅผ ์ง์ํฉ๋๋ค.
-
Acknowledgements
Jinze Bai, Shuai Bai, Peng Wang, Sinan Tan, Shijie Wang์์ ํต์ฐฐ๋ ฅ ์๋ ํ ๋ก ์ ๊ฐ์ฌ๋ฅผ ํํฉ๋๋ค. ์ด ํ๋ก์ ํธ์ ์ง์์ ๋ํด Juan Zhu, Junyang Lin, Siqi Zheng, Jiaming Wang, Zhihao Du์๊ฒ ๊ฐ์ฌ๋๋ฆฝ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ audio-language ๋ชจ๋ธ๋ง ๋ถ์ผ์์ significantํ ์ง์ ์ ๋ํ๋ด๋ฉฐ, ํนํ multi-task ํ์ต๊ณผ word-level timestamp ์์ธก์ ํตํ ๋ฒ์ฉ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ์ ๋ฐ์ ์ ๊ธฐ์ฌํฉ๋๋ค.