[Paper Review] MM-Groundung-DINO : An Open and Comprehensive Pipeline for Unified Object Grounding and Detection
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-MM-Groundung-DINO-An-Open-and-Comprehensive-Pipeline-for-Unified-Object-Grounding-and-Detection
๋ณธ ๋ฆฌ๋ทฐ๋ ์๋ฌธ์ ์ต๋ํ ์ง์ญํ ๋ด์ฉ์ ๋๋ค. ์ฌ๊ธฐ์ โ์ฐ๋ฆฌ๋โ์ ์ ์๋ฅผ ์ง์นญํฉ๋๋ค. ์ฐธ๊ณ ๋ถํ๋๋ฆฝ๋๋ค.
์ด๋ก
Grounding-DINO๋ Open-Vocabulary Detection (OVD)
, Phrase Grounding (PG)
, Referring Expression Comprehension (REC)
์ ํฌํจํ ๋ค์ํ ๋น์ ์์
์ ๋ค๋ฃจ๋ ์ต์ฒจ๋จ open-set detection ๋ชจ๋ธ์
๋๋ค.
- ์ด ๋ชจ๋ธ์ ํจ๊ณผ์ฑ์ผ๋ก ์ธํด ๋ค์ํ ํ์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ฃผ๋ฅ ์ํคํ ์ฒ๋ก ๋๋ฆฌ ์ฑํ๋๊ณ ์์ต๋๋ค.
- ํ์ง๋ง ๊ทธ ์ค์์ฑ์๋ ๋ถ๊ตฌํ๊ณ ์๋ณธ Grounding-DINO ๋ชจ๋ธ์ ํ๋ จ ์ฝ๋์ ๋น๊ณต๊ฐ๋ก ์ธํด ํฌ๊ด์ ์ธ ๊ณต๊ฐ ๊ธฐ์ ์ธ๋ถ์ฌํญ์ด ๋ถ์กฑํฉ๋๋ค.
Image from Grounding Dino Paper
์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด, ์ ํฌ๋ MMDetection toolbox๋ก ๊ตฌ์ถ๋ ์คํ์์ค์ ํฌ๊ด์ ์ด๊ณ ์ฌ์ฉ์ ์นํ์ ์ธ ํ์ดํ๋ผ์ธ์ธ MM-Grounding-DINO๋ฅผ ์ ์ํฉ๋๋ค.
(์ฐธ๊ณ ) MMDetection์ ์คํ์์ค ๊ฐ์ฒด ํ์ง(Object Detection) ํด๋ฐ์ค๋ก, ์ฃผ๋ก PyTorch ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ฐ๋ ์ปดํจํฐ ๋น์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋๋ค. ์ด๋ ๋ค์ํ ๊ฐ์ฒด ํ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ฝ๊ฒ ํ์ต, ํ๊ฐ, ๋ฐฐํฌํ ์ ์๋๋ก ๋์์ฃผ๋ ํ๋ ์์ํฌ์ ๋๋ค.
์ด ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ์ ์ํด ํ๋ถํ ๋น์ ๋ฐ์ดํฐ์ ์, fine-tuning์ ์ํด ๋ค์ํ detection ๋ฐ grounding ๋ฐ์ดํฐ์ ์ ์ฑํํฉ๋๋ค. ์ ํฌ๋ ๋ณด๊ณ ๋ ๊ฐ ๊ฒฐ๊ณผ์ ๋ํ ํฌ๊ด์ ์ธ ๋ถ์๊ณผ ์ฌํ์ ์ํ ์ธ๋ถ ์ค์ ์ ์ ๊ณตํฉ๋๋ค.
- ์ธ๊ธ๋ ๋ฒค์น๋งํฌ์์์ ๊ด๋ฒ์ํ ์คํ์ ์ ํฌ์ MM-Grounding-DINO-Tiny๊ฐ Grounding-DINO-Tiny baseline์ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค. ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ๋ชจ๋ ๋ชจ๋ธ์ ๊ณต๊ฐํฉ๋๋ค.
https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino
-
์๋ก
๊ฐ์ฒด detection ์์ ์ ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ธ์ ์ ๋ ฅํ์ฌ ์ ์์ ์ป์ ๋ค์, ์ด๋ฅผ multi-modal alignment๋ฅผ ํตํด ํ ์คํธ์ ๋งค์นญํ๋ ๊ฒ์ ํฌํจํ๋ฉฐ, ์ด๋ ๋๋ถ๋ถ์ ์ต์ฒจ๋จ multi-modal ์ดํด ์ํคํ ์ฒ์ ํต์ฌ ๊ตฌ์ฑ ์์์ ๋๋ค.
ํ์ฌ ๊ฐ์ฒด detection์ ์
๋ ฅ ํ
์คํธ์ ์ ํ์ ๋ฐ๋ผ ์ธ ๊ฐ์ง ํ์ ์์
์ผ๋ก ์ธ๋ถํํ ์ ์์ต๋๋ค: Open-Vocabulary Detection (OVD)
, Phrase Grounding (PG)
, Referring Expression Comprehension (REC)
.
- Zero-shot ์ค์ ์ ๋ฐ๋ผ, Open-Vocabulary Detection (OVD) ๋ชจ๋ธ์ ๊ธฐ๋ณธ ์นดํ ๊ณ ๋ฆฌ์์ ํ๋ จ๋์ง๋ง ๋๊ท๋ชจ ์ธ์ด ์ดํ ๋ด์์ ๊ธฐ๋ณธ ๋ฐ ์๋ก์ด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ชจ๋ ์์ธกํด์ผ ํฉ๋๋ค.
- Phrase grounding (PG) ์์ ์ ์นดํ ๊ณ ๋ฆฌ๋ฟ๋ง ์๋๋ผ ๋ชจ๋ ํ๋ณด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์ค๋ช ํ๋ ๊ตฌ๋ฌธ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํด๋น ๋ฐ์ค๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
- Referring Expression Comprehension (REC) ์์ ์ ์ฃผ์ ๋ชฉํ๋ ์ฃผ์ด์ง ํ ์คํธ ์ค๋ช ์ผ๋ก ์ง์ ๋ ๋์์ ์ ํํ ์๋ณํ๊ณ ์ดํ bounding box๋ฅผ ์ฌ์ฉํ์ฌ ๊ทธ ์์น๋ฅผ ํ์ํ๋ ๊ฒ์ ๋๋ค.
์ต๊ทผ ๋ช ๋ ๊ฐ ์์ ์์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ง์ ๋น์ grounding ๋ฐ detection ๋ชจ๋ธ์ด ํ๊ตฌ๋์์ต๋๋ค.
- ์ด๋ฌํ grounding ๋ชจ๋ธ ์ค์์ Grounding-DINO๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ผ๋ก ์ฃผ๋ฅ ์ํคํ ์ฒ๊ฐ ๋์์ต๋๋ค.
- Closed-set detector DINO๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, Grounding-DINO-Large๋ COCO ํ๋ จ ๋ฐ์ดํฐ ์์ด COCO์์ ์ต์ฒจ๋จ zero-shot ์ฑ๋ฅ(mAP 52.5)์ ๋ฌ์ฑํฉ๋๋ค.
Grounding-DINO
๋ feature enhancer, query selection module, decoder๋ฅผ ํฌํจํ์ฌ ๋ค์ํ ๋จ๊ณ์์ ๋น์ ๊ณผ ์ธ์ด modality์ ํตํฉ์ ์คํํฉ๋๋ค.
- ์ด๋ฌํ ์ฌ์ธต ์ตํฉ ์ ๊ทผ๋ฒ์ open-set ๋งฅ๋ฝ์์ ๊ฐ์ฒด detection์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, DETR ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ ํ๋์ฝ๋ฉ๋ ๋ชจ๋ ์์ด end-to-end ๋คํธ์ํฌ๋ก ๋ง๋ญ๋๋ค.
-
์ ๊ทผ ๋ฐฉ๋ฒ
์ด ์น์ ์์๋ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ ์์ธํ ์๊ฐํฉ๋๋ค. ๋ฌ๋ฆฌ ๋ช ์๋์ง ์๋ ํ, MM-G๋ MM-Grounding-DINO๋ฅผ, G-DINO๋ Grounding-DINO๋ฅผ ๋ํ๋ ๋๋ค.
2.1 ๋ชจ๋ธ
์ธ๊ธํ ๋ฐ์ ๊ฐ์ด, ์ ํฌ ๋ชจ๋ธ์ Grounding-DINO๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ ๊ฑฐ์ ๋ณ๊ฒฝ๋์ง ์์์ต๋๋ค. ์ ํฌ ํ๋ ์์ํฌ๋ Figure 3์ ๋์ ์์ต๋๋ค. [Batchsize, 3, H, W] ํํ์ ์ด๋ฏธ์ง์ ํ ์คํธ ์ค๋ช ์ด ์ฃผ์ด์ง๋ฉด, ์ ํฌ ๋ชจ๋ธ์ ์ค๋ช ์ ํด๋น ์์ฑ๋ bounding box์ ์ ๋ ฌํ ์ ์์ต๋๋ค.
๋ชจ๋ธ์ ๊ตฌ์ฑ ์์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํ ์คํธ ํน์ฑ ์ถ์ถ์ ์ํ ํ ์คํธ backbone
- ์ด๋ฏธ์ง ํน์ฑ ์ถ์ถ์ ์ํ ์ด๋ฏธ์ง backbone
- ์ด๋ฏธ์ง์ ํ ์คํธ ํน์ฑ์ ๊น์ด ์ตํฉํ๋ feature enhancer
- query ์ด๊ธฐํ๋ฅผ ์ํ language-guided query selection module
- ๋ฐ์ค ๊ฐ์ ์ ์ํ cross-modality decoder
ํน์ฑ ์ถ์ถ ๋ฐ ์ตํฉ:
- ์ด๋ฏธ์ง-ํ
์คํธ ์์ด ์ฃผ์ด์ง๋ฉด,
์ด๋ฏธ์ง backbone
์ ์ฌ์ฉํ์ฌ ๋ค์ค ์ค์ผ์ผ์์ ์ด๋ฏธ์ง ํน์ฑ์ ์ถ์ถํ๊ณ , ๋์์ํ ์คํธ backbone
์ ์ฌ์ฉํ์ฌ ํ ์คํธ ํน์ฑ์ ์ถ์ถํฉ๋๋ค. - ๊ทธ๋ฐ ๋ค์ ๋ ํน์ฑ์
feature enhancer module
์ ์ ๋ ฅํ์ฌ cross-modality ์ตํฉ์ ์ํํฉ๋๋ค.
Language-Guided Query Selection:
- ํ ์คํธ๋ฅผ ๊ฐ์ฒด detection ๊ฐ์ด๋๋ก ํ์ฉํ๋ ๊ฒ์ ์ต์ ํํ๊ธฐ ์ํด, Grounding-DINO๋ language-guided query selection module์ ์ค๊ณํ์ต๋๋ค.
- ์ด ๋ชจ๋์ ์ ๋ ฅ ํ ์คํธ ํน์ฑ๊ณผ์ ์ฝ์ฌ์ธ ์ ์ฌ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก num_query ์ ์์ decoder query๋ก ์ ํํฉ๋๋ค.
Cross-modality Decoder:
- Grounding-DINO์ cross-modality decoder layer๋ cross-modality ํ์ต์ ์ํด ํ ์คํธ์ ์ด๋ฏธ์ง ํน์ฑ์ ์ถ๊ฐ๋ก ํตํฉํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- Self-attention ํ, ์ํคํ ์ฒ๋ ์ด๋ฏธ์ง cross-attention layer, ํ ์คํธ cross-attention layer, FFN layer๋ฅผ ์์๋๋ก ํตํฉํฉ๋๋ค.
์ฐจ์ด์ :
MM-G
์ G-DINO
์ ์ฃผ์ ์ฐจ์ด์ ์ contrastive embedding module์ ์์ต๋๋ค.
- CLIP์์ ์๊ฐ์ ๋ฐ์, contrastive embedding module์ ์ด๊ธฐํํ ๋ bias๋ฅผ ์ถ๊ฐํ์ต๋๋ค.
- ์ด๋ ์ด๊ธฐ loss ๊ฐ์ ํฌ๊ฒ ์ค์ด๊ณ ๋ชจ๋ธ์ ์๋ ด์ ๊ฐ์ํํ ์ ์์ต๋๋ค.
2.2 ๋ฐ์ดํฐ์ ์ค๋น
์ ํฌ ๋ฐ์ดํฐ ํ์์ Open Grounding-DINO์ ํ์์์ ์๊ฐ์ ๋ฐ์ MMDetection์ ํ์์ผ๋ก ์์ ๋์์ต๋๋ค. MM-Grounding-DINO๋ ๋ค๋ฅธ ์ข ๋ฅ์ ์ฃผ์์ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ผ๋ก ์ธ ๊ฐ์ง ์์ ์ ๋ค๋ฃจ๋๋ก ์ค๊ณ๋์ด, ์ฌ์ฉํ 15๊ฐ ๋ฐ์ดํฐ์ ์ ์ธ ๊ทธ๋ฃน์ผ๋ก ๋๋์์ต๋๋ค.
OVD ๋ฐ์ดํฐ์ :
- ํ๋ จ์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ์ COCO, Objects365V1, Objects365V2, V3Det, Open-Images๋ฅผ ํฌํจํ๋ฉฐ, ํ๊ฐ ๋ฐ์ดํฐ์ ์ COCO, LVIS, ODinW12/35๋ฅผ ํฌํจํฉ๋๋ค.
PG ๋ฐ์ดํฐ์ :
- ํ๋ จ ๋ฐ์ดํฐ์ ์ GQA, GRIT, Flickr30K Entities๋ฅผ ํฌํจํ๋ฉฐ, Flickr30K Entities ๋ฐ์ดํฐ์ ์ ํ๊ฐ์๋ ์ฌ์ฉ๋ฉ๋๋ค.
REC ๋ฐ์ดํฐ์ :
- ํ๋ จ ๋ฐ์ดํฐ์ ์ RefCOCO, RefCOCO+, RefCOCOg๋ฅผ ํฌํจํฉ๋๋ค. ํ๊ฐ๋ฅผ ์ํด์๋ RefCOCO, RefCOCO+, RefCOCOg, gRefCOCO, Description Detection Dataset(Dยณ)์ ํฌํจํ๋ ๋ ๊ด๋ฒ์ํ ๋ฐ์ดํฐ์ ์ธํธ๋ฅผ ํ์ฉํฉ๋๋ค.
2.3 ํ๋ จ ์ค์
ํ ์คํธ ์ ๋ ฅ ๊ท์น:
- OVD ํ๋ จ์ ์ํด, detection ๋ฐ์ดํฐ์ ์ ๋ชจ๋ ์นดํ ๊ณ ๋ฆฌ๋ฅผ โPeople. Ball. Racket. Cat.โ๊ณผ ๊ฐ์ ๊ธด ๋ฌธ์์ด๋ก ์ฐ๊ฒฐํฉ๋๋ค.
- PG ๋ฐ REC ์์ ์ ๊ฒฝ์ฐ, M-DETR์ ๋ฐ๋ผ ์ฌ์ ํ๋ จ ๋จ๊ณ์์ ํ ์คํธ ๋ด์์ ์ธ๊ธ๋๋ ๋ชจ๋ ๊ฐ์ฒด์ ์ฃผ์์ ๋ฌ์ ์ด ์์ ์ ๋ํ ๋ชจ๋ธ์ ์ ์ฉ์ ์ฝ๊ฐ์ ์์ ์ ๊ฐํฉ๋๋ค.
๋ชจ๋ธ ์ข ๋ฅ:
- Grounding-DINO์ ์ ์ฌํ๊ฒ, ์ธ์ด ์ธ์ฝ๋๋ก ์ ์ฌ์ ํ๋ จ๋ BERT-based-uncased ๋ชจ๋ธ์, ์ด๋ฏธ์ง backbone์ผ๋ก Swin Transformer๋ฅผ ์ ํํฉ๋๋ค.
๋ฐ์ดํฐ ์ฆ๊ฐ:
- ๋๋ค ๋ฆฌ์ฌ์ด์ฆ, ๋๋ค ํด๋ฆฝ, ๋๋ค ํ๋ฆฝ ์ธ์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ์์ ๋๋ค negative sample์ ๋์ ํฉ๋๋ค.
- ๋ค๋ฅธ ์ด๋ฏธ์ง์์ ๋๋คํ๊ฒ ์ํ๋ง๋ ์นดํ ๊ณ ๋ฆฌ๋ ํ ์คํธ ์ค๋ช ์ negative ์์ ๋ก ground-truth ์ค๋ช ๊ณผ ํจ๊ป positive ์์ ๋ก ์ฐ๊ฒฐํฉ๋๋ค.
์ปดํจํ ๋ฆฌ์์ค:
- ์ด batch size 128๋ก 30 epoch ๋์ 32๊ฐ์ NVIDIA 3090 GPU์์ MM-G-Tiny๋ฅผ ํ๋ จํ์ต๋๋ค.
-
์ฃผ์ ๊ฒฐ๊ณผ
3.1 Zero-shot Transfer
Zero-shot ์ค์ ์์, MM-G ๋ชจ๋ธ์ ์ฒ์์ ๊ธฐ๋ณธ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋๊ณ ์ดํ ์๋ก์ด ๋ฐ์ดํฐ์ ์์ ํ๊ฐ๋ฉ๋๋ค.
COCO ๋ฒค์น๋งํฌ:
- O365 ๋ฐ์ดํฐ์ ๊ณผ ๋ค๋ฅธ PG/REC ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จ๋ MM-Grounding-DINO๋ฅผ ํ๊ฐํ์ต๋๋ค.
- Grounding-DINO๋ฅผ ๋ฐ๋ผ COCO ๋ฐ์ดํฐ์ ์ zero-shot ํ์ต baseline ์ค์ ์ ํ์ฉํ์ต๋๋ค.
- Table 3์์ MM-Grounding-DINO-Tiny์ Grounding-DINO-Tiny๋ฅผ ๋น๊ตํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ O365๋ก๋ง ํ๋ จ๋ MM-G(a)(mAP 48.5)์กฐ์ฐจ๋ O365, Gold-G, Cap4M์ผ๋ก ํ๋ จ๋ G-DINO(c)(mAP 48.4)๋ฅผ ๋ฅ๊ฐํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- Objects365, Gold-G, GRIT๋ก ํ๋ จ๋ MM-G-T(c)๋ 50.5 mAP์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ด COCO ๋ฒค์น๋งํฌ์์ G-DINO(c)๋ณด๋ค 2.1 AP ํฅ์๋์์ต๋๋ค.
LVIS ๋ฒค์น๋งํฌ:
- LVIS ๋ฐ์ดํฐ์ ์ ํ๊ฐ๋ฅผ ์ํด 1000๊ฐ ์ด์์ ๊ณ ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฌํจํ๋ long-tail detection ๋ฐ์ดํฐ์ ์ ๋๋ค.
- Table 4์์ MM-Grounding-DINO-Tiny์ Grounding-DINO-Tiny๋ฅผ ๋น๊ตํ์ต๋๋ค.
- Cap4M ์์ด O365์ GoldG๋ก ํ๋ จ๋ MM-G(a)๊ฐ LVIS MiniVal๊ณผ Val ๋ชจ๋์์ G-DINO(c)๋ฅผ +6.9AP ๋ฅ๊ฐํจ์ ๊ด์ฐฐํ์ต๋๋ค.
ODinW ๋ฒค์น๋งํฌ:
- ODinW(Object Detection in the Wild) ๋ฒค์น๋งํฌ๋ ์ค์ ํ๊ฒฝ์์ ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ๋๋ก ์ค๊ณ๋ ๋ ์๊ฒฉํ ๋ฒค์น๋งํฌ์ ๋๋ค.
- ์ ํฌ MM-G-T(c3)๋ ODinW13์์ 53.3 mAP, ODinW35์์ 28.4 mAP์ ์ ์๋ฅผ ๋ฌ์ฑํ์ฌ G-DINO-T(c)๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
RefCOCO/+/g ๋ฐ gRefCOCO ๋ฒค์น๋งํฌ:
- REC ์์ ์์ MM-G์ zero-shot ๋ฅ๋ ฅ๋ ํ๊ฐํ์ต๋๋ค. RefCOCO, RefCOCO+, RefCOCOg๋ REC ํ๊ฐ๋ฅผ ์ํด ์ค์ ๋์์ผ๋ฉฐ, ๊ฒฐ๊ณผ๋ Table 5์ ๋์ ์์ต๋๋ค.
- ์ ํฌ ๋ชจ๋ธ์ RefCOCO์ ๋ชจ๋ zero-shot ํ๊ฐ ์งํ์์ baseline์ ๋ฅ๊ฐํ ์ ์์ต๋๋ค.
3.2 GRIT ๋ถ์
GRIT๋ ์คํ์์ค๊ฐ ์๋ Cap4M์ ๋์ฒด์ฌ๋ก ์ฌ์ฉ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋๋ค. ํ์ง๋ง ์์ ๊ฒฐ๊ณผ์์ ๋ณด๋ฏ์ด GRIT์ ์ฑ๋ฅ์ ๊ธฐ๋์ ๋ฏธ์น์ง ๋ชปํฉ๋๋ค. GRIT์ ์ด๋ฏธ์ง์ ์ฃผ์์ ๊ด์ฐฐํ ๊ฒฐ๊ณผ, ์ฃผ์ ์ด์ ๋ค์ ๋ค์๊ณผ ๊ฐ์ด ์ด๊ฑฐํ ์ ์์ต๋๋ค:
- GRIT์ ํ ์คํธ ์ฃผ์์ COYO-700M๊ณผ LAION-2B์ ์บก์ ์์ spaCy๋ก ์ถ์ถํ ๊ตฌ๋ฌธ์ด๋ ๋ฌธ์ฅ์์ ๋์ค๋ฉฐ, ์ธ๋ช , ์ด๋ฒคํธ, ์์ค, ์ง์ ํ์ ๊ฐ์ฒด์ ๊ฐ์ ๋ง์ ์ถ์์ ๊ตฌ๋ฌธ์ ํฌํจํ์ฌ ๋ชจ๋ธ์ ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ ์ ์์ต๋๋ค.
- GRIT ๋ฐ์ดํฐ์ ์์ ๋๋ถ๋ถ์ ์ด๋ฏธ์ง๋ ๋จ์ผ ์ฃผ์์ด ํจ๊ป ์ ๊ณต๋ฉ๋๋ค. ๋จ์ผ ์ฃผ์์ ์ค์ ๋ก๋ ์ด๋ฏธ์ง์ ์ ์ฒด ์บก์ ์ธ ๊ธด ๋ฌธ์ฅ๊ณผ ์ด๋ฏธ์ง์ ์ ์ฒด ๋ฒ์์ ๊ฑฐ์ ๊ฑธ์ณ ์๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ค๋ฅผ ํฌํจํฉ๋๋ค.
3.3 Fine-tuning์ ํตํ ๊ฒ์ฆ
์ด ๋ณด๊ณ ์์ ๊ธฐ๋ณธ fine-tuning์ MM-G-T(c3) ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
COCO/LVIS์์์ Fine-tuning: MM-Grounding-DINO์ ๊ธฐ๋ฅ์ ์ฒ ์ ํ ํ๊ฐํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ฃผ์ fine-tuning ์ ๊ทผ๋ฒ์ ๊ตฌํํ์ต๋๋ค: close-set fine-tuning, open-set continuing pretraining fine-tuning, open-vocabulary fine-tuning.
Table 10์์ ๋ณด๋ฏ์ด, MM-G-T๋ close-set fine-tuning๊ณผ open-set continuing pretraining fine-tuning ๋ชจ๋๋ฅผ ํตํด COCO ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
ํนํ MM-G-T๋ 12 epoch์ close-set fine-tuning ํ 7.8 mAP ์ฆ๊ฐํ์ฌ 58.2 mAP์ ๋๋ฌํ์ต๋๋ค.
ํ์ ์์ ์์์ Fine-tuning: MM-Grounding-DINO์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ํฌ๊ด์ ์ผ๋ก ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ๋ค์ํ ํ์ ์์ ์ผ๋ก ํ๊ฐ๋ฅผ ํ์ฅํ์ต๋๋ค.
- ์๊ฐ ์ ๊ฐ์ฒด detection: Real-world Task-driven Testing Set (RTTS)๋ฅผ ํ์ฉํ์ผ๋ฉฐ, MM-Grounding-DINO๋ 12 epoch์ fine-tuning ํ 69.1 AP์ ๋๋ฌํ์ต๋๋ค.
- ์์ค ๊ฐ์ฒด detection: Real-world Underwater Object Detection dataset (RUOD)์์ ํ๊ฐํ์ผ๋ฉฐ, 12 epoch์ fine-tuning ํ 35.7 mAP ํฅ์์ ๋ณด์ฌ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์ค์ ํ์ต๋๋ค.
- ๋์ข ์ ๊ฐ์ฒด detection: Brain tumor ๋ฐ์ดํฐ์ ์์ ํ๊ฐํ์ผ๋ฉฐ, ์ด ๋ฐ์ดํฐ์ ์ ์ค๋ช ์ ๋ผ๋ฒจ ์ ๋ณด ์์ด ์ซ์ ์๋ณ์๋ง ์ฌ์ฉํ๋ ๋ ํนํ ๋ผ๋ฒจ๋ง ์ ๊ทผ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
- Cityscapes ๊ฐ์ฒด detection: 50๊ฐ ๋์์ ๊ฑฐ๋ฆฌ์์ ์ดฌ์๋ ์คํ ๋ ์ค ๋น๋์ค ์ํ์ค๊ฐ ํฌํจ๋ ๊ด๋ฒ์ํ ๋์ ๊ฑฐ๋ฆฌ ์ฅ๋ฉด ์ปฌ๋ ์ ์ ๋๋ค.
-
๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์์ ์ ํฌ๋ Grounding-DINO๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ณ ํ๋ถํ ๋น์ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ๋ จ๋ ํฌ๊ด์ ์ด๊ณ ์คํ์์ค์ธ grounding baseline์ธ MM-Grounding-DINO๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ OVD, PG, REC ์์ ์ ํฌ๊ด์ ์ผ๋ก ๋ค๋ฃน๋๋ค. OVD, PG, REC ํ๊ฐ๋ฅผ ์ํ ๋ชจ๋ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฒค์น๋งํฌ๋ฅผ ํ์ฅํ์ผ๋ฉฐ, ๋ชจ๋ ํ๊ฐ ์งํ๋ MMDetection์์ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ธ๊ธ๋ ๋ฒค์น๋งํฌ์์์ ๊ด๋ฒ์ํ ์คํ์ ์ ํฌ MM-Grounding-DINO๊ฐ Grounding-DINO baseline์ ๋ฅ๊ฐ(๋๋ ๋๋ฑํ ์ฑ๋ฅ)ํจ์ ๋ณด์ฌ์ค๋๋ค. ์ ํฌ ํ์ดํ๋ผ์ธ์ด grounding ๋ฐ detection ์์ ์ ์ถ๊ฐ ์ฐ๊ตฌ๋ฅผ ์ํ ๊ท์คํ ์์ ์ญํ ์ ํ๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.