[Paper Review] LLM-Det : Learning Strong Open-Vocabulary Object Detectors under the
Supervision of Large Language Models
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-Learning-Strong-Open-Vocabulary-Object-Detectors-under-theSupervision-of-Large-Language-Models
๋ณธ ๋ฆฌ๋ทฐ๋ ์๋ฌธ์ ์ต๋ํ ์ง์ญํ ๋ด์ฉ์ ๋๋ค. ์ฌ๊ธฐ์ โ์ฐ๋ฆฌ๋โ์ ์ ์๋ฅผ ์ง์นญํฉ๋๋ค. ์ฐธ๊ณ ๋ถํ๋๋ฆฝ๋๋ค.
Abstract
์ต๊ทผ open-vocabulary detector๋ค์ ํ๋ถํ region-level ์ฃผ์ ๋ฐ์ดํฐ๋ก ์ ๋งํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ ์์ต๋๋ค.
(์ฐธ๊ณ ) Region-level ์ฃผ์ ๋ฐ์ดํฐ๋?
- Region-level ์ฃผ์ ๋ฐ์ดํฐ๋ ์ด๋ฏธ์ง์์ ํน์ ์์ญ(bounding box)๊ณผ ๊ทธ ์์ญ์ ํด๋นํ๋ ํ ์คํธ ์ค๋ช ์ ์ฐ๊ฒฐํ ๋ฐ์ดํฐ๋ฅผ ๋งํฉ๋๋ค. ์๋ฅผ ๋ค์ด:
- ์ด๋ฏธ์ง์์ ์ฌ๋์ด ์๋ ์์ญ โ โpersonโ
- ์ด๋ฏธ์ง์์ ์๋์ฐจ๊ฐ ์๋ ์์ญ โ โcarโ
- ์ด๋ฏธ์ง์์ ๋๋ฌด๊ฐ ์๋ ์์ญ โ โtreeโ
๋ณธ ์ฐ๊ตฌ์์๋ large language model๊ณผ ํจ๊ป ๊ฐ ์ด๋ฏธ์ง์ ๋ํ image-level ์์ธ caption์ ์์ฑํ์ฌ co-trainingํ๋ open-vocabulary detector๊ฐ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
(์ฐธ๊ณ ) Region-level vs Image-level
- Region-level๋ง ์ฌ์ฉํ ๊ฒฝ์ฐ:
- โ์ฌ๋โ, โ์ฃผ๋ฐฉโ, โ์ ์โ
- Image-level caption ์ถ๊ฐํ ๊ฒฝ์ฐ:
- โ์ด๋ฏธ์ง์๋ ๋ ์ฌ๋์ด ์ฃผ๋ฐฉ์ ์์ต๋๋ค. ์ผ์ชฝ ์ฌ๋์ ๋นจ๊ฐ์, ํ๋์, ํฐ์ ๋ฌด๋ฌ์ ์ฒดํฌ ์ ์ธ ๋ฅผ ์ ๊ณ ์์ผ๋ฉฐโฆ ์ค๋ฅธ์ชฝ ์ฌ๋์ ์งํ ํ๋์ ํฐ์ ์ธ ๋ฅผ ์ ๊ณ ์ฑํฌ๋์์ ์ค๊ฑฐ์ง๋ฅผ ํ๊ณ ์์ต๋๋คโฆโ
์ด ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ๋จผ์ GroundingCap-1M ๋ฐ์ดํฐ์ ์ ์์งํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๊ฐ ์ด๋ฏธ์ง๋ ๊ด๋ จ grounding label๊ณผ image-level ์์ธ caption์ด ํจ๊ป ์ ๊ณต๋ฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ํตํด ํ์ค grounding loss์ caption generation loss๋ฅผ ํฌํจํ ํ๋ จ ๋ชฉํ๋ก open-vocabulary detector๋ฅผ fine-tuningํฉ๋๋ค.
Large language model์ ํ์ฉํ์ฌ ๊ฐ ๊ด์ฌ ์์ญ์ ๋ํ region-level ์งง์ caption๊ณผ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํ image-level ๊ธด caption์ ๋ชจ๋ ์์ฑํฉ๋๋ค. Large language model์ ์ง๋ํ์ ๊ฒฐ๊ณผ๋ก ๋์จ detector์ธ LLMDet์ ๊ธฐ์ค์ ์ ๋ช ํํ ์ฐจ์ด๋ก ๋ฅ๊ฐํ๋ฉฐ, ๋ฐ์ด๋ open-vocabulary ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ ๊ฐ์ ๋ LLMDet์ด ๋ ๊ฐ๋ ฅํ large multi-modal model์ ๊ตฌ์ถํ์ฌ ์ํธ ์ด์ต์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
-
Introduction
Open-vocabulary object detection์ ์ฌ์ฉ์ ์ ๋ ฅ์ ํ ์คํธ ๋ ์ด๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์์์ ํด๋์ค๋ฅผ ํ์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ฉฐ, ์ด๋ ์ ํต์ ์ธ closed-set object detection๋ณด๋ค ๋ ์ผ๋ฐ์ ์ธ ํ์ง ์์ ์ ๋๋ค.
- GLIP์ region-word contrastive pre-training์ ํตํด object detection๊ณผ phrase grounding์ ์ฒ์์ผ๋ก ํตํฉํ์ต๋๋ค. ์ด๋ฌํ ๊ณต์ํ๋ ๊ด๋ฒ์ํ ๊ฐ๋ ์ ๋ค๋ฃจ๋ ๋ฐฉ๋ํ grounding ๋ฐ image-text ๋ฐ์ดํฐ๋ก๋ถํฐ ์ด์ต์ ์ป์ด ํ์ต๋ ํํ์ ์๋ฏธ๋ก ์ ์ผ๋ก ํ๋ถํ๊ฒ ๋ง๋ญ๋๋ค.
ํ์ ์ฐ๊ตฌ๋ค์ ํจ๊ณผ์ ์ธ vision-language fusion๊ณผ ์ธ์ฌํ๊ฒ ์ค๊ณ๋ word embedding ๋ฐ negative sample์ ํตํ ์ธ๋ฐํ region-word alignment์ ์ด์ ์ ๋ง์ท์ต๋๋ค. Pretraining ๋ฐ์ดํฐ์ ์ฐ์ฐ์ ํ์ฅํจ์ผ๋ก์จ ๊ธฐ์กด open-vocabulary object detector๋ค์ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๋๋ผ์ด zero-shot ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ต๋๋ค.
์ต๊ทผ ์ฐ๊ตฌ๋ค์ grounding ์์ ์ ๋ค๋ฅธ ์ธ์ด ์์ ๊ณผ ํตํฉํ๋ ๊ฒ์ด language knowledge๋ก ์๊ฐ์ ํํ์ ํ๋ถํ๊ฒ ํ์ฌ ๋ ๊ฐ๋ ฅํ open-vocabulary detector๋ฅผ ๋ง๋ ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
- GLIPv2๋ grounding loss์ masked language modeling loss ํ์์ ๋ชจ๋ธ์ pre-trainํฉ๋๋ค. ์ด์ด์ CapDet๊ณผ DetCLIPv3๋ dense captioning๊ณผ grounding์ ํตํฉํ๋ ๊ฒ๋ open-vocabulary ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
GLIPv2 - https://arxiv.org/pdf/2206.05836
CapDet - https://arxiv.org/pdf/2303.02489
DetCLIPv3 - https://arxiv.org/pdf/2404.09216
ํ์ง๋ง ์ด๋ค์ ๊ฐ object์ ๋ํด ์งง์ caption์ ์ฌ์ฉํฉ๋๋ค(์: ๊ฑฐ์น ์ค๋ช ๊ณผ ๊ณ์ธต์ ํด๋์ค ๋ ์ด๋ธ). ์ด๋ ๊ฑฐ์น ๊ณ ๊ฐ๋ณ์ ์ด๋ฉฐ ๊ฐ์ฒด ๊ฐ์ ์ฐ๊ด์ฑ์ด ๋ถ์กฑํฉ๋๋ค.
- ๋ฐ๋ฉด, ํ๋ถํ ์ธ๋ถ์ฌํญ๊ณผ ์ด๋ฏธ์ง์ ๋ํ ํฌ๊ด์ ์ดํด๋ฅผ ํฌํจํ๋ ๊ธด image-level caption์ ์งง์ region-level ์ค๋ช ๋ณด๋ค ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
Related Work
2.1. Open-Vocabulary Object Detection
Open-vocabulary object detection(OVD)์์ detector๋ ์ ํ๋ ํ๋ จ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋์ง๋ง ์์์ ํ ์คํธ ์์ ์ฌ์ฉ์ ์ ๋ ฅ ํด๋์ค๋ฅผ ํ์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์์์ ํด๋์ค๋ฅผ ํ์งํ๊ธฐ ์ํด open-vocabulary object detection์ ํด๋์ค ์ด๋ฆ์ผ๋ก ๋ณด์ง ๋ชปํ ํด๋์ค๋ฅผ ํ์งํ ์ ์๋๋ก vision-language ์์ ์ผ๋ก ๊ณต์ํ๋ฉ๋๋ค.
- CLIP์ ์ธ์์ ์ธ zero-shot ๋ฅ๋ ฅ์ ๋๊ธฐ๋ฅผ ๋ฐ์, detector๋ฅผ CLIP๊ณผ ์ ๋ ฌํ๊ฑฐ๋ CLIP์ ๋ชจ๋ธ์ ์ผ๋ถ๋ก ํตํฉํ๋ ๊ฒ์ด OVD๋ฅผ ๋ค๋ฃจ๋ ์ง์ ์ ์ธ ๋ฐฉํฅ์ ๋๋ค. ํ์ง๋ง CLIP์ image-level ๋ชฉํ๋ก pre-train๋์๊ธฐ ๋๋ฌธ์ CLIP์ ํน์ง์ด OVD์ ์๋ฒฝํ๊ฒ ์ ํฉํ์ง๋ ์์ต๋๋ค.
๋์์ ์ผ๋ก, ๋ค์ํ ๋ฆฌ์์ค๋ก๋ถํฐ์ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ก object-aware visual-language ๊ณต๊ฐ์ ๊ตฌ์ถํ๋ ๊ฒ์ด ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ masked language modeling์ด๋ dense captioning๊ณผ ๊ฐ์ ๋ค๋ฅธ ์ธ์ด ์์ ๊ณผ์ multi-task learning์ด ๋ ๋์ vision-language alignment๋ฅผ ๋ฌ์ฑํ ์ ์์ด detector์ open-vocabulary ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค.
2.2. Large Vision-Language Model
์ต๊ทผ large vision-language model๋ค์ large language model์ ๋ฐ์ด๋ ์๊ฐ์ ์ธ์ ๋ฐ ์ดํด ๋ฅ๋ ฅ์ ๋ถ์ฌํฉ๋๋ค.
์ผ๋ฐ์ ์ธ large vision-language model์ ์ธ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: (1) vision token์ ์ถ์ถํ๋ vision foundation model
, (2) vision feature๋ฅผ language ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ projector
, ๊ทธ๋ฆฌ๊ณ (3) ์๊ฐ์ ๋ฐ ํ
์คํธ ์
๋ ฅ์ ๋ชจ๋ ์ดํดํ๋ large language model
์
๋๋ค.
-
GroundingCap-1M ๋ฐ์ดํฐ์
Data Formulation
LLMDet ํ๋ จ์ ์ง์ํ๊ธฐ ์ํด ๊ฐ ํ๋ จ ์ํ์ quadruple (I, Tg, B, Tc)๋ก ๊ณต์ํํฉ๋๋ค.
- ์ฌ๊ธฐ์ I๋ ์ด๋ฏธ์ง, Tg๋ ์งง์ grounding ํ ์คํธ, B๋ grounding ํ ์คํธ์ ๊ตฌ๋ฌธ์ ๋งคํ๋ ์ฃผ์์ด ์๋ bounding box๋ค, Tc๋ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํ ์์ธํ caption์ ๋๋ค.
์ ์ฒด ์ด๋ฏธ์ง์ ๋ํ ์์ธํ caption์ ์์งํ ๋ ๋ ๊ฐ์ง ํต์ฌ ์์น์ ๋ฐ๋ฆ ๋๋ค:
- Caption์ ๊ฐ๋ฅํ ํ ๋ง์ ์ธ๋ถ์ฌํญ์ ํฌํจํด์ผ ํฉ๋๋ค.
Caption์ด object ์ ํ, ์ง๊ฐ, ์์, object์ ๋ถ๋ถ, object ๋์, ์ ํํ object ์์น, ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ค๋ช ํ์ฌ ์ ๋ณด๊ฐ ํ๋ถํ๋๋ก ๊ธฐ๋ํฉ๋๋ค.
- Caption์ ์ด๋ฏธ์ง์ ๋ํ ์ฌ์ค์ ์ธ๋ถ์ฌํญ๋ง ํฌํจํด์ผ ํฉ๋๋ค.
๋๋ฌด ๋ง์ ์์์ ์ด๊ฑฐ๋ ์ถ๋ก ์ ์ธ caption์ ์ ๋ณด ๋ฐ๋๋ฅผ ๊ฐ์์ํค๊ฑฐ๋ ๋ชจ๋ธ ํ์ต์ ๋ฐฉํดํ ์ ์์ต๋๋ค.
Dataset Construction
๊ตฌ์ถ ๋น์ฉ์ ์ ์ฝํ๊ธฐ ์ํด bounding box๋ ์์ธํ caption์ด ์๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์์ ์์ํฉ๋๋ค. ์ด์ ์ฐ๊ตฌ๋ค์ ๋ฐ๋ผ object detection ๋ฐ์ดํฐ์ , grounding ๋ฐ์ดํฐ์ , image-text ๋ฐ์ดํฐ์ ์์ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค.
GroundingCap-1M
์ ์ฌ๋ฌ ๊ธฐ์กด ๋ฐ์ดํฐ์
์ ์กฐํฉํ๊ณ ์๋ก์ด ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ๋ง๋ ํตํฉ ๋ฐ์ดํฐ์
์
๋๋ค.
- Object detection ๋ฐ์ดํฐ์ โ caption ์ถ๊ฐ
- Grounding ๋ฐ์ดํฐ์ โ ์์ธํ caption ์ถ๊ฐ
- Image-text ๋ฐ์ดํฐ์ โ bounding box ์ถ๊ฐ
Object detection ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ:
- COCO์ V3Det ๋ฐ์ดํฐ์ ์ ์ ํ
- COCO์ ์์ธํ caption์ ShareGPT4V(168k)์ ASv2(42k)์์ ์์ง
- V3Det์ caption์ Qwen2-VL-72b๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ
Grounding ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ:
- GQA์ Flickr30k๋ฅผ ํฌํจํ๋ GoldG๋ฅผ ์ ํ
- ๊ณ์ฐ์ ์ ์ฝํ๊ณ negative๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ ์ํด ๋์ผํ ์ด๋ฏธ์ง์ ์ผ๋ถ grounding ํ ์คํธ๋ฅผ ๋ณํฉ
- ์์ธํ caption๋ Qwen2-VL-72b๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ
Image-text ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ:
- LLaVA-OneVision๊ณผ ShareGPT4V์ caption์ด ์๋ LCS-558k ์ฌ์ฉ
- ์ด ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง์ ๋ํ pseudo box๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋จผ์ ์ ํต์ ์ธ ์ธ์ด parser๋ฅผ ์ฌ์ฉํ์ฌ caption์์ ๋ช ์ฌ๊ตฌ๋ฅผ ์ถ์ถํ ๋ค์ MM Grounding DINO๋ฅผ ํ์ฉํ์ฌ ๊ฐ ๊ตฌ๋ฌธ์ ๋ํ bounding box๋ฅผ ์์ฑ
์ต์ข ๋ฐ์ดํฐ์ ์ธ GroundingCap-1M์ 112๋ง ๊ฐ์ ์ํ์ ํฌํจํฉ๋๋ค.
Quality Verification
๋ฐ์ดํฐ ์์ง ๊ณผ์ ์์ prompt๋ฅผ ์ ์คํ๊ฒ ์ ํํ๊ณ ์ ๊ทผ ๊ฐ๋ฅํ ์ต๊ณ ๋ชจ๋ธ(Qwen2VL-72b
)์ ์ฌ์ฉํ์ต๋๋ค. ํ์ง๋ง ๋ฐ์ดํฐ์
์ ์ด๋ ์ ๋ ๋
ธ์ด์ฆ๊ฐ ์๋ ๊ฒ์ ๋ถ๊ฐํผํ๋ฏ๋ก ๋ช ๊ฐ์ง ํ์ฒ๋ฆฌ๋ฅผ ๋์
ํ์ฌ ๋ฐ์ดํฐ์
์ ์ ๋ฆฌํฉ๋๋ค:
์ ์ฉ ํ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
- Caption ๋ชจ๋ธ์ด ์์์ ๋ด์ฉ์ ์ค๋ช ํ์ง ์๋๋ก promptํ์ง๋ง, ๋ชจ๋ธ์ด ์ฌ์ ํ โindicatingโ, โsuggestingโ, โpossiblyโ์ ๊ฐ์ ๋ช ๋ฐฑํ ๋จ์ด๋ก ์ถ๋ ฅํ๋ ๊ฒฝํฅ์ด ์์ด ์ถ์ธก์ ๋จ์ด๊ฐ ํฌํจ๋ ํ์ ๋ฌธ์ฅ์ ์ญ์
- ์๋ฏธ ์๋ caption์ ํํฐ๋งํ๋ ๊ท์น ์ค๊ณ
- Caption์ด ์ธ๋ถ์ฌํญ์ผ๋ก ํ๋ถํ๋๋ก ๋ณด์ฅํ๊ธฐ ์ํด ์ฒ์ ์์ฑ๋ caption์ด 100 token ๋ฏธ๋ง์ธ ์ด๋ฏธ์ง์ ๋ํด Qwen2VL-72b๋ฅผ ์ฌ์ฉํ์ฌ caption์ ์ฌ์์ฑ
ํ์ฒ๋ฆฌ ํ ๊ฐ caption์ ํ๊ท ์ฝ 115๋จ์ด๋ฅผ ํฌํจํฉ๋๋ค.
-
Large Language Model์ ์ง๋ํ์ LLMDet ํ๋ จ
์ ์ฒด ์์คํ ๊ตฌ์กฐ
LLMDet์ 3๊ฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฌ์ ํ๋ จ๋ ๋ชจ๋์ ๊ฒฐํฉํ ์์คํ ์ ๋๋ค:
๐ Detector (MM Grounding DINO)
- ์ญํ : ์ด๋ฏธ์ง โ ์๊ฐ์ ํน์ง ์ถ์ถ + ๊ฐ์ฒด ํ์ง
- ์ํ: ์ด๋ฏธ ์์ ํ ํ๋ จ๋ ์ํ
๐ Projector
- ์ญํ : ์๊ฐ์ ํน์ง โ ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ํํ๋ก ๋ณํ
- ์ํ: ์ฒ์์๋ ๋ฌด์์ ์ด๊ธฐํ (ํ์ต ํ์)
๐ค LLM (Large Language Model)
- ์ญํ : ๋ณํ๋ ์๊ฐ์ ํน์ง โ ์์ฐ์ด caption ์์ฑ
- ์ํ: ์ด๋ฏธ ์์ ํ ํ๋ จ๋ ์ํ
๋จ๊ณ๋ณ ํ๋ จ ์ ๋ต
๐ Step 1: Alignment Training (์ ๋ ฌ ํ์ต)
๋ชฉํ: Detector์ LLM ์ฌ์ด์ โ๋ฒ์ญ๊ธฐโ ์ญํ ์ ํ๋ Projector ํ์ต
1
์ด๋ฏธ์ง โ Detector (๐๊ณ ์ ) โ Projector (๐ํ์ต) โ LLM (๐๊ณ ์ ) โ Caption
-
ํ์ต ๋ด์ฉ:
- ์ ๋ ฅ: Detector์ ์ ์ฒด feature map
- ์ถ๋ ฅ: ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ ์์ธํ caption
- Loss: Language modeling loss๋ง ์ฌ์ฉ
-
์ Projector๋ง ํ์ตํ๋๊ฐ?
- Detector์ LLM์ ๊ธฐ์กด ์ง์์ ๋ณด์กด
- ๊ณ์ฐ ํจ์จ์ฑ (์์ ๋ชจ๋๋ง ํ์ต)
- ํ์ต ์์ ์ฑ ํ๋ณด
๐ Step 2: End-to-End Training (ํตํฉ ํ์ต)
๋ชฉํ: ์ ์ฒด ์์คํ ์ ํ๋์ ํตํฉ๋ ๊ฐ์ฒด ํ์ง๊ธฐ๋ก ๋ฐ์
1
์ด๋ฏธ์ง โ Detector (๐ํ์ต) โ Projector (๐ํ์ต) โ LLM (๐LoRA) โ Caption
๋์์ 3๊ฐ์ง ์์ ์ํ:
-
๊ธฐ์กด Grounding ์์ (Detector ์ฃผ๋)
- โyoung manโ์ด๋ผ๋ ํ ์คํธ โ ํด๋น ์์ญ ๋งค์นญ
- Loss: Lalign+LboxL_{align} + L_{box}Lalignโ+Lboxโ
-
Image-level Caption Generation (์ ์ฒด ํ๋ ฅ)
- ์ ์ฒด ์ด๋ฏธ์ง โ โ์ด๋ฏธ์ง์๋ ๋ ์ฌ๋์ด ์ฃผ๋ฐฉ์์โฆโ
- Loss: LlmimageL_{lm}^{image}Llmimageโ
-
Region-level Caption Generation (์ธ๋ฐํ ๋งค์นญ)
- ํน์ ์์ญ โ โyoung manโ, โdishesโ ๋ฑ
- Loss: LlmregionL_{lm}^{region}Llmregionโ
์ ์ด๋ฐ ๋ณต์กํ ๊ตฌ์กฐ๊ฐ ํ์ํ๊ฐ?
๐ฏ Image-level vs Region-level์ ์ํธ ๋ณด์
-
Image-level๋ง์ผ๋ก๋ ๋ถ์กฑํ ์ด์ :
- LLM์ด โdishesโ๋ผ๊ณ ๋งํ์ ๋, ์ด๋ฏธ์ง์ ์ด๋ ๋ถ๋ถ์ธ์ง ๋ชจํธํจ
- ์ ์ฒด์ ์ธ ๋งฅ๋ฝ์ ์ ์ดํดํ์ง๋ง ์ ํํ ์์น ๋งคํ์ด ์ด๋ ค์
-
Region-level์ ํ์์ฑ:
- Object query โ Cross-attention โ Feature map์์ ์ ๋ณด ์์ง
- โ์ด ํน์ ์์ญ์ ์ ํํ โyoung manโ์ด๋คโ๋ผ๋ ๋ช ํํ ๋งคํ ์ ๊ณต
๐ Cross-Attention์ ์ญํ
- ๋ฌธ์ : Object query ํ๋๋ง์ผ๋ก๋ ์ ๋ณด๊ฐ ๋ถ์กฑ
- ํด๊ฒฐ: Cross-attention์ ํตํด ์ ์ฒด feature map์์ ๊ด๋ จ ์ ๋ณด ์์ง
1
Object Query (์ ํ๋ ์ ๋ณด) + Cross-Attention โ Feature Map (ํ๋ถํ ์ ๋ณด) โ ์ ํํ Region Caption
์ต์ข Loss ํจ์
TotalLoss=Lalign+Lbox+Llmimage+LlmregionTotal Loss = L_{align} + L_{box} + L_{lm}^{image} + L_{lm}^{region}TotalLoss=Lalignโ+Lboxโ+Llmimageโ+Llmregionโ
- Lalign+LboxL_{align} + L_{box}Lalignโ+Lboxโ: ๊ธฐ์กด ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ ์ ์ง
- LlmimageL_{lm}^{image}Llmimageโ: ์ ์ฒด์ ์ธ ๋งฅ๋ฝ ์ดํด ๋ฅ๋ ฅ ํฅ์
- LlmregionL_{lm}^{region}Llmregionโ: ์ ํํ ์์ญ-๋จ์ด ๋งคํ ๋ฅ๋ ฅ ํฅ์
-
Experiment
5.1. Implementation Details
MM Grounding DINO(MM-GDINO)๋ฅผ ๊ธฐ์ค ๋ชจ๋ธ๋ก ์ ํํ์ต๋๋ค. ์ด๋ ์์ ํ ์คํ์์ค์ด๋ฉฐ SOTA ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ ๋๋ค. Pre-trained checkpoint๋ฅผ ๋ค์ ๋ก๋ํ๊ณ GroundingCap-1M ๋ฐ์ดํฐ์ ์ผ๋ก grounding loss์ caption generation loss์ ์ง๋ํ์ ๋ชจ๋ธ์ fine-tuningํฉ๋๋ค.
Large language model์ LLaVA-OneVision-0.5b-ov์์ ์ด๊ธฐํ๋ฉ๋๋ค. ๋ฉ๋ชจ๋ฆฌ์ ํ๋ จ ํจ์จ์ฑ์ ์ ์ฝํ๊ธฐ ์ํด image-level generation์ ์ต๋ token ๊ธธ์ด๋ฅผ 1600์ผ๋ก, region-level generation์ ๊ฒ์ 40์ผ๋ก ์ค์ ํฉ๋๋ค. ์ด๋ฏธ์ง๋น caption generation์ ์ํ ์ต๋ ์์ญ ์๋ 16์ผ๋ก ์ ํ๋ฉ๋๋ค.
5.2. Zero-Shot Detection Transfer Ability
LVIS์์์ Zero-shot ์ฑ๋ฅ:
- LVIS๋ 1203๊ฐ ํด๋์ค๋ฅผ ๊ฐ์ง detection ๋ฐ์ดํฐ์ ์ ๋๋ค.
- ์๋ก์ด ํ๋ จ ๋ชฉํ์ ์๋ก์ด ๋ฐ์ดํฐ์ ์ผ๋ก LLMDet์ ๋ค์ํ backbone์์ LVIS minival์์ ๊ธฐ์ค์ MM-GDINO๋ฅผ 3.3%/3.8%/14.3% AP์ 3.1%/3.3%/17.0% APr๋ก ๋ฅ๊ฐํฉ๋๋ค.
ODinW์์์ Zero-shot ์ฑ๋ฅ:
- ODinW๋ ๋ค์ํ ๋๋ฉ์ธ๊ณผ ์ดํ์ ๊ฑธ์น 35๊ฐ ๋ฐ์ดํฐ์ ์ ๋ชจ์์ผ๋ก, open-vocabulary detection์ ์ํ ๋์ ์ ์ด๊ณ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ์ ๋๋ค.
- LLMDet์ ODinW35์์ ๊ฐ์ฅ ๋์ AP๋ฅผ ์ป์ด ๊ด๋ฒ์ํ ๋ฐ์ดํฐ์ ์ผ๋ก์ ๋ฐ์ด๋ ์ ์ด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
COCO-O์์์ Zero-shot ์ฑ๋ฅ:
- COCO-O๋ COCO์ ๋์ผํ 80๊ฐ ํด๋์ค๋ฅผ ๊ณต์ ํ์ง๋ง sketch, weather, cartoon, painting, tattoo, handmake์ ๊ฐ์ ๋ค๋ฅธ ๋๋ฉ์ธ์ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๋๋ค.
- LLMDet์ ์ฌ์ ํ MM-GDINO๋ฅผ 2.1% AP๋ก ๋ฅ๊ฐํ์ฌ ๋๋ฉ์ธ ๋ณํ์ ๋ ๊ฐ๊ฑดํจ์ ๋ณด์ฌ์ค๋๋ค.
Referring expression comprehension ๋ฐ์ดํฐ์ ์์์ Zero-shot ์ฑ๋ฅ:
- Referring expression comprehension(REC)์ ๊ตฌ๋ฌธ์ผ๋ก ์ธ๊ธ๋ ๊ฐ์ฒด๋ฅผ ์ง์ญํํ๋ ์์ ์ผ๋ก, ํฌ๊ด์ ์ธ ์ธ์ด ์ดํด์ ์ธ๋ฐํ vision-language alignment๊ฐ ํ์ํฉ๋๋ค.
- ์์ธํ caption์ ์ฌ์ฉํ์ฌ LLM๊ณผ co-trainingํจ์ผ๋ก์จ LLMDet์ ํ๋ถํ ์๊ฐ์ ์ธ๋ถ์ฌํญ์ ํ๋ถํ vision-language alignment๋ก ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
5.3. Ablation Study
์ฃผ์ ๊ตฌ์ฑ ์์์ ํจ๊ณผ:
- Grounding annotation๋ง์ผ๋ก fine-tuningํ๋ฉด ์ฑ๋ฅ์ด 41.4% AP์์ 43.8% AP๋ก ํฅ์๋ฉ๋๋ค.
- Region-level generation๋ง์ผ๋ก๋ ์ฑ๋ฅ์ด ํฅ์๋์ง ์๋๋ฐ, ์ด๋ LLMDet์ region-level caption์ด ์์ญ์ ํด๋์ค ์ด๋ฆ์ด๋ grounding phrase์ผ ๋ฟ์ด์ด์ ์ถ๊ฐ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Image-level generation๋ง ์ฌ์ฉํด๋ ์ฑ๋ฅ์ด ์ฝ๊ฐ ํฅ์๋ฉ๋๋ค.
- Image-level๊ณผ region-level generation์ ๋ชจ๋ ๊ฒฐํฉํ๋ฉด LLM์ ์ง๋ ์ ํธ์ ์ด์ต์ ์์ ํ ๋ฐํํ ์ ์์ผ๋ฉฐ, ์์ธํ caption์์ ํ์ต๋ ํ๋ถํ vision-language ํํ์ด rare class ์ธ์์ ๋์์ด ๋์ด 3.9% APr๋ฅผ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๋ค๋ฅธ Large Language Model์ ํจ๊ณผ:
- ๊ธฐ๋ณธ์ ์ผ๋ก Qwen2-0.5b-instruct์์ fine-tuning๋ LLaVA-OneVision-0.5b-ov์ LLM์ ์ฌ์ฉํฉ๋๋ค.
- LLaVA-OneVision-0.5b-ov์ LLM์ ํ๋ถํ multi-modal ๋ฐ์ดํฐ๋ก pre-train๋์์ง๋ง ๋ค๋ฅธ vision encoder๋ฅผ ์ฌ์ฉํ๋๋ผ๋ pretraining์ด ์ฌ์ ํ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ํนํ rare class์์ (+2.2% APr) ํฅ์๋ฉ๋๋ค.
์์ฑ๋ Caption ํ์ง์ ํจ๊ณผ:
- GroundingCap-1M์ caption์ด ๊ฐ์ฅ ๋์ ์์ธ์ฑ ์ ์์ ์ ๋นํ ํ๊ฐ์ ๊ฐ์ง๊ณ ์์ด ๋ฐ์ดํฐ์ ์ ๋ฐ์ด๋ ํ์ง์ ๊ฒ์ฆํฉ๋๋ค.
- ์ธ๊ฐ์ด ์ฃผ์ํ caption์ ํ๊ฐ์ด ์ ์ง๋ง(0.90 vs 1.34), LLaVA caption์์๋ ์ฌ์ ํ ํ๊ฐ์ด ์์ต๋๋ค.
-
Conclusion
๋ณธ ์ฐ๊ตฌ์์๋ ๊ธฐ์กด open-vocabulary detector์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ํ๋ จ ๋ชฉํ๋ฅผ ํ๊ตฌํ์ต๋๋ค. Large language model์ ํ์ฉํ์ฌ image-level ์์ธ caption๊ณผ region-level ๊ฑฐ์น grounding phrase๋ฅผ ๋ชจ๋ ์์ฑํจ์ผ๋ก์จ detector๋ ์์ธํ caption์ผ๋ก๋ถํฐ ๋ ๋ง์ ์ ๋ณด์ ์ด๋ฏธ์ง์ ๋ํ ํฌ๊ด์ ์ดํด๋ฅผ ๋ฐ๊ณ ํ๋ถํ vision-language ํํ์ ๊ตฌ์ถํฉ๋๋ค.
๊ฒฐ๊ณผ๋ก ๋์จ detector์ธ LLMDet์ ๊ด๋ฒ์ํ ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ๋ํ ๊ฐ์ ๋ LLMDet์ด ๊ฐ๋ ฅํ large multi-modal model์ ๊ตฌ์ถํ์ฌ ์ํธ ์ด์ต์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ๋ณธ ์ฐ๊ตฌ๊ฐ ์ต๊ณ ์ฑ๋ฅ์ large language model๋ก vision model์ ํฅ์์ํค๋ ํต์ฐฐ์ ์ ๊ณตํ๊ธฐ๋ฅผ ํฌ๋งํฉ๋๋ค.