[Paper Review] OmDet_Turbo : Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-OmDetTurbo-Real-time-Transformer-๊ธฐ๋ฐ-Efficient-Fusion-Head๋ฅผ-ํ์ฉํ-Open-Vocabulary-Detection
์ด๋ก
End-to-end transformer ๊ธฐ๋ฐ detector (DETRs)๋ ์ธ์ด modality ํตํฉ์ ํตํด closed-set
๊ณผ open-vocabulary object detection (OVD)
์์
๋ชจ๋์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋์ ์ฐ์ฐ ์๊ตฌ์ฌํญ์ผ๋ก ์ธํด ์ค์๊ฐ object detection (OD) ์๋๋ฆฌ์ค์์์ ์ค์ฉ์ ์ธ ์ ์ฉ์ด ์ ํ๋์ด ์์ต๋๋ค.
๋ณธ ๋
ผ๋ฌธ์์๋ OVDEval ๋ฒค์น๋งํฌ
์ ๋ ์ฃผ์ ๋ชจ๋ธ์ธ OmDet๊ณผ Grounding-DINO์ ํ๊ณ๋ฅผ ๋ฉด๋ฐํ ๋ถ์ํ๊ณ , OmDet-Turbo๋ฅผ ์๊ฐํฉ๋๋ค.
- ์ด๋ OmDet๊ณผ Grounding-DINO์์ ๊ด์ฐฐ๋ ๋ณ๋ชฉํ์์ ์ํํ๋๋ก ์ค๊ณ๋ ํ์ ์ ์ธ Efficient Fusion Head (EFH) ๋ชจ๋์ ํน์ง์ผ๋ก ํ๋ ์๋ก์ด transformer ๊ธฐ๋ฐ ์ค์๊ฐ OVD ๋ชจ๋ธ์ ๋๋ค.
์ฃผ๋ชฉํ ์ ์ OmDet-Turbo-Base๊ฐ TensorRT์ language cache ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ด๋น 100.2 frame (FPS)๋ฅผ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ๋๋ค.
- TensorRT : https://developer.nvidia.com/tensorrt
- language cache : https://www.helicone.ai/blog/effective-llm-caching
COCO์ LVIS ๋ฐ์ดํฐ์ ์ zero-shot ์๋๋ฆฌ์ค์์ OmDet-Turbo๋ ํ์ฌ state-of-the-art supervised ๋ชจ๋ธ๋ค๊ณผ ๊ฑฐ์ ๋๋ฑํ ์ฑ๋ฅ ์์ค์ ๋ฌ์ฑํฉ๋๋ค. ๋ํ ODinW์ OVDEval์์ ๊ฐ๊ฐ 30.1 AP์ 26.86 NMS-AP๋ก ์๋ก์ด state-of-the-art ๋ฒค์น๋งํฌ๋ฅผ ์๋ฆฝํฉ๋๋ค.
๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์์์ ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ์ฐ์ํ ์ถ๋ก ์๋๋ ์ฐ์ ์ ํ๋ฆฌ์ผ์ด์ ์์์ OmDet-Turbo์ ์ค์ฉ์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ์ค์๊ฐ object detection ์์ ์ ์ํ ๋งค๋ ฅ์ ์ธ ์ ํ์ผ๋ก ์๋ฆฌ๋งค๊นํฉ๋๋ค.
Keywords:
Multi-Dataset Pre-Training, Zero/Few-Shot Detection, Task-Conditioned Detection, Deep Fusion Mechanism, language-aware object detection, Continual Learning
-
์๋ก
Object Detection (OD)์ ๋ค์ํ deep neural network์ ํตํฉ์ ํตํด ์๋นํ ์ง์ ์ ์ด๋ฃฌ ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ๊ธฐ๋ณธ ์์ ์ ๋๋ค. ์ ํต์ ์ธ close-set OD ๋ฐฉ๋ฒ๋ค์ ๊ด๋ฒ์ํ ์ฐ๊ตฌ๋ฅผ ๊ฑฐ์ณ ์ ์ฐจ ์์ ํ๋์์ผ๋ฉฐ, ์ฃผ๋ก ๋ ๋ฐฉํฅ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค: ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ detector ๊ตฌ์กฐ ๊ฐ์ ๊ณผ ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๊ฐ์ง ์ค์๊ฐ detector ๊ฐ๋ฐ์ ๋๋ค.
stage ๊ด์ ์์ ๋ณด๋ฉด, Faster R-CNN๊ณผ ๊ฐ์ two-stage ์ ๊ทผ๋ฒ๊ณผ YOLO ์๋ฆฌ์ฆ์ ๊ฐ์ one-stage ์ ๊ทผ๋ฒ์ด ์ ์๋ ค์ง ๋ฐฉ๋ฒ๋ค์ ๋๋ค.
Faster R-CNN - 2 stage
YOLO ์๋ฆฌ์ฆ - 1 stage
Anchor ๊ด์ ์์๋ anchor ๊ธฐ๋ฐ ๋ฐฉ๋ฒ
์์ anchor-free ๋ฐฉ๋ฒ
์ผ๋ก ์ฐ๊ตฌ๊ฐ ๋ฐ์ ํ์ต๋๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ ์ธก๋ฉด์์๋ CNN ๊ธฐ๋ฐ detector์ Transformer ๊ธฐ๋ฐ detector (DETRs)๊ฐ ๋ ๊ฐ์ง ์ฃผ์ OD ์ํคํ
์ฒ์
๋๋ค.
(์ฐธ๊ณ ) Anchor ๊ธฐ๋ฐ vs Anchor-free ๋ฐฉ๋ฒ
- Anchor ๊ธฐ๋ฐ ๋ฐฉ๋ฒ: ๊ฐ์ฒด์ ์์น๋ฅผ ์์ธกํ ๋, ๋ฏธ๋ฆฌ ์ ์๋ ๋ค์ํ ํฌ๊ธฐ์ ๋น์จ์ โanchor boxโ๋ฅผ ๊ธฐ์ค์ผ๋ก ์์ธกํฉ๋๋ค. ๋ํ์ ์ธ ๋ชจ๋ธ:
- Faster R-CNN
- YOLOv2~YOLOv4
- Anchor-free ๋ฐฉ๋ฒ: anchor ์์ด ์ง์ ๊ฐ์ฒด์ ์ค์ฌ์ ์ด๋ ๊ฒฝ๊ณ ๋ฐ์ค๋ฅผ ์์ธกํฉ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ ์ธก๋ฉด์์ ๊ฐ๊ด๋ฐ๊ณ ์์ต๋๋ค. ๋ํ์ ์ธ ๋ชจ๋ธ:
- CornerNet
- DETR
์ฐธ๊ณ
๊ตฌ๋ถ | Anchor ๊ธฐ๋ฐ | Anchor-free |
---|---|---|
CNN ๊ธฐ๋ฐ | Faster R-CNN, SSD, YOLOv3 | FCOS, CenterNet, CornerNet |
Transformer ๊ธฐ๋ฐ | ์ผ๋ถ Deformable DETR (anchor-like ๊ตฌ์กฐ ์ฌ์ฉ) | DETR, DINO-DETR |
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ค์๊ฐ detector์ ๋๋ถ๋ถ์ด CNN ๊ธฐ๋ฐ detector์ธ ๋ฐ๋ฉด, ์ต๊ทผ DETRs์ ๋ํ ๊ด์ฌ์ด ๊ธ์ฆํ๊ณ ์๋ ๊ฒ์ ๊ฐ๊ฒฐํ pipeline๊ณผ end-to-end ์ ๊ทผ๋ฒ ๋๋ฌธ์ ๋๋ค. DINO์ Co-DETR๊ณผ ๊ฐ์ ๋ช ๊ฐ์ง ์๋ก์ด DETR ๋ฐฉ๋ฒ๋ค์ COCO ๋ฐ์ดํฐ์ ์์ ๊ฐ๊ฐ 63.2์ 65.9 AP๋ก state-of-the-art ์ฑ๋ฅ์ ๋๋ฌํ๋ฉฐ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ RT-DETR์ hybrid encoder๋ฅผ ํตํด CNN ๊ธฐ๋ฐ detector๋ฅผ ๋ฅ๊ฐํ๋ ์ค์๊ฐ object detection์ ๋ฌ์ฑํฉ๋๋ค.
๊ทธ๋ฌ๋ ์ ํต์ ์ธ OD ๋ชจ๋ธ๋ค์ ๊ณตํต์ ์ธ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋คโํ๋ จ vocabulary๋ฅผ ๋ฒ์ด๋ ๊ฐ์ฒด๋ค๋ก ์ผ๋ฐํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ํ๊ณ๋ ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ๊ณผ ์ฐ์ ํ๊ฒฝ์ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ๋ ๋ฐ ์ด๋ ค์์ ์ ๊ธฐํฉ๋๋ค.
Object detection์ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ open-vocabulary object detection (OVD)์ผ๋ก, ์ด๋ ์ธ์ด ์ ๋ณด๋ฅผ ํตํฉํ์ฌ detector๋ฅผ ์๋ดํจ์ผ๋ก์จ ํ๋ จ ๋ฐ์ดํฐ์ ๋ฒ์๋ฅผ ๋์ด์ ๊ฐ์ฒด๋ค์ ๊ฒ์ถํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํ์ฌ ๋๋ถ๋ถ์ OVD ๋ชจ๋ธ์ ์ธ์ด modality๋ฅผ close-set detector์ ํตํฉํ์ฌ ๊ฐ๋ฐ๋ฉ๋๋ค.
OVDEval ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ด๋ OVD ๋ชจ๋ธ๋ค ์ค์์, OmDet์ Sparse-RCNN ๊ตฌ์กฐ
๋ฅผ ์ฑํํ๊ณ Multimodal Detection Network (MDN)
๋ฅผ ์ฌ์ฉํ์ฌ recursive head์์ latent query๋ฅผ ์ตํฉํฉ๋๋ค.
OmDet
(์ฐธ๊ณ ) Sparse R-CNN์ ๊ณ ์ ๋ ์์ learnable object queries๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ end-to-end ๋ฐฉ์์ detector์ ๋๋ค.
(์ฐธ๊ณ ) MDN(Multimodal Detection Network)์ ํ ์คํธ์ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ตํฉํ๋ ๋ชจ๋์ ๋๋ค.
- ๋ฐ๋ฉด Grounding-DINO๋ DETR ๊ตฌ์กฐ๋ฅผ ์ฑํํ๊ณ neck, head, query initialization stage์์ fusion mechanism์ ํตํฉํ์ฌ multimodal ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค.
Grounding-DINO
์ด๋ฌํ ๋ฐ์ ์๋ ๋ถ๊ตฌํ๊ณ , ๊ธฐ์กด OVD ๋ชจ๋ธ๋ค์ ๋์ ๊ณ์ฐ ๋ณต์ก์ฑ๊ณผ ๊ธด ์ถ๋ก ์๊ฐ์ผ๋ก ์ธํด ์์ ์ ์ ํ๋ฆฌ์ผ์ด์ ์์์ ์ค์ ๋ฐฐํฌ๊ฐ ๋ฐฉํด๋ฐ๊ณ ์์ต๋๋ค.
-
๊ด๋ จ ์ฐ๊ตฌ
2.1 Transformer ๊ธฐ๋ฐ Detection
Transformer ๊ธฐ๋ฐ object detection ๋ฐฉ๋ฒ๋ค์ ์ต๊ทผ ๋ช ๋
๊ฐ ์๋นํ ์ฃผ๋ชฉ์ ๋ฐ์์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ๋ค์ transformer์ ํ์ ํ์ฉํ์ฌ ์๊ฐ ๋ฐ์ดํฐ์์ long-range dependency
์ contextual
์ ๋ณด๋ฅผ ์บก์ฒํฉ๋๋ค. DETR์ ์ด๋ฌํ ์ ํ์ ๋ชจ๋ธ์์ ๋ํ์ ์ธ ๋ฐฉ๋ฒ ์ค ํ๋์
๋๋ค.
DETR์ transformer encoder-decoder ์ํคํ ์ฒ์ bipartite matching์ ํตํ unique prediction์ ๊ฐ์ ํ๋ set-based global loss๋ฅผ ์ฌ์ฉํฉ๋๋ค. DETR ๋ชจ๋ธ์ ์ถ์ ์ดํ, ์ฐ๊ตฌ์๋ค์ ๋ค์ํ ์ธก๋ฉด์์ DETR๊ณผ ๊ฐ์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ต์ ํํ๋ ๋ฐ ์ค๋ ์๊ฐ์ ๋ณด๋์ต๋๋ค.
Sparse-RCNN, DN-DETR, DINO, RT-DETR๊ณผ ๊ฐ์ vision-and-language ๋ชจ๋ธ์ ์ต๊ทผ ๋ฐ์ ์ object detection์ ํฅ์์ํค๊ณ downstream detection ์์ ์ผ๋ก์ transferability๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ์ ๋งํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ DETR๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค์ ์ ํต์ ์ธ closed-set object detection ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ ํ๋ฆฌ์ผ์ด์ ์๋๋ฆฌ์ค์ Transformer๊ฐ ๊ฐ์ ธ์ผ ํ ์ ์ฌ๋ ฅ์ ํฌ๊ฒ ์ ํํฉ๋๋ค.
2.2 Open-Vocabulary Object Detection
Open-vocabulary object detection (OVD)์ ์ฌ์ฉ์๊ฐ ๋ฏธ๋ฆฌ ์ ์๋ target category์ ์ ํ๋์ง ์๊ณ ์์ฐ์ด๋ก ์ ์๋ target category๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด๋ฅผ ์๋ณํ ์ ์๋ค๋ ์ ์์ ์ ํต์ ์ธ object detection ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ค๋ฆ ๋๋ค.
์ ํต์ ์ธ object detection ์์คํ ์ ๊ณ ์ ๋ ๊ฐ์ฒด ํด๋์ค ์งํฉ์ ๊ฐ์ง ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋์ด ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์ ์ ๋๋ค. OVR-CNN๊ณผ ๊ฐ์ ์ด๊ธฐ OVD ์๊ณ ๋ฆฌ์ฆ์ ๊ณ ์ ๋ category์ bounding box annotation๊ณผ ๋ ๋ค์ํ category๋ฅผ ๋ค๋ฃจ๋ image-caption pair๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ image-text pair์์ cross-modal contrastive learning์ ์ํํ๋ CLIP๊ณผ ALIGN๊ณผ ๊ฐ์ vision-and-language ์ ๊ทผ๋ฒ์ ํ๊ตฌํ์ต๋๋ค. CLIP๊ณผ ALIGN์์ ์๊ฐ์ ๋ฐ์ ViLD๋ ๋ฐ์ด๋ zero-shot object recognition ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ two-stage object detection ๋ชจ๋ธ์ ๊ตฌ์ถํ์ต๋๋ค.
GLIP์ object detection์ phrase grounding ๋ฌธ์ ๋ก ์ฌ๊ณต์ํํ์ฌ grounding๊ณผ ๋๊ท๋ชจ image-text paired data์ ์ฌ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํจ์ผ๋ก์จ ์๋ฃจ์ ์ ์ ๊ณตํฉ๋๋ค. Sparse-RCNN์์ ์๊ฐ์ ๋ฐ์ OmDet์ ์์ฐ์ด๋ฅผ ์ง์ ํํ์ ํต์ผ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ทจ๊ธํฉ๋๋ค.
Grounding DINO๋ transformer ๊ธฐ๋ฐ detection ์๊ณ ๋ฆฌ์ฆ์ธ DINO๋ฅผ grounding task pre-training๊ณผ ๊ฒฐํฉํ์ฌ ์์ฑ์ ๊ฐ์ง target expression์ ์ฌ์ฉ์ ์ ๋ ฅ์ ์ง์ํจ์ผ๋ก์จ OVD ๋ชจ๋ธ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํ์ฅํฉ๋๋ค.
CORA์ BARON๊ณผ ๊ฐ์ ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ํ์ฌ OVD ๋ฐฉ๋ฒ๋ค ๋ด์ ์ง์์ ์ธ ๋์ ๊ณผ์ ๋ค์ ํด๊ฒฐํ๋ ค๊ณ ๋ ธ๋ ฅํ์ต๋๋ค. ๊ทธ๋ฌ๋ OVD ๋ชจ๋ธ์ ํ๊ณ๋ ๋ชจ๋ธ ๊ท๋ชจ์ ๋ณต์ก์ฑ์ ์์ด ์ค์๊ฐ ์ถ๋ก ์ ์ด๋ ต๊ฒ ๋ง๋ ๋ค๋ ์ ์ผ๋ก, ์ด๋ ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์์์ ๊ด๋ฒ์ํ ์ฑํ์ ๋์ ์ด ๋๋ฉฐ ์๊ธํ ํด๊ฒฐ์ด ํ์ํ ๋ฌธ์ ์ ๋๋ค.
2.3 Real-time Object Detection
YOLO ์๋ฆฌ์ฆ, EfficientDet, RT-DETR๊ณผ ๊ฐ์ object detection ๋ชจ๋ธ๋ค์ one-stage ๋ชจ๋ธ ์ํคํ
์ฒ
๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ก ๊ณผ์ ์์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ํฌ๊ฒ ์ค์์ผ๋ก์จ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๊ฐ์ง๋๋ค.
YOLO-World๋ ์ค์๊ฐ open-vocabulary object detection์ ์๋์ ๋๋ค. YOLO ์๊ณ ๋ฆฌ์ฆ์ ๋ํ์ ์ธ one-stage ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ณ์นํ๊ณ , CLIP text encoder๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ํ ์คํธ๋ฅผ ์๋ฒ ๋ฉํ ํ ํน๋ณํ ์ค๊ณ๋ re-parameterizable Vision-Language Path Aggregation Network๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ ํน์ง์ ์ด๋ฏธ์ง ํน์ง๊ณผ ์ตํฉํฉ๋๋ค. YOLO-World๋ ์ค์๊ฐ ์ธ์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ์ง๋ง CNN ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด๋ฉฐ ์ผ๋ฐํ ์ ํ๋๊ฐ transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ค์ฒ์ง๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ open-vocabulary object detection ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋ฌ์ฑํ๋ ์ต์ด์ ์ค์๊ฐ transformer ๊ธฐ๋ฐ end-to-end OVD ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
-
์ ์๋ ๋ฐฉ๋ฒ: OmDet-Turbo
3.1 ๋ชจ๋ธ ๊ตฌ์กฐ
OmDet-Turbo์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ text backbone(TTT), image backbone(III), ๊ทธ๋ฆฌ๊ณ Efficient Fusion Head (EFHEFHEFH) ๋ชจ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๋ชจ๋ธ์ ์ ๋ ฅ์ ์์ ์ ์ค๋ช ํ๋ prompt, ๊ฐ์ฒด label ์งํฉ, ๊ทธ๋ฆฌ๊ณ ๊ฒ์ถํ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
OmDet-Turbo๋ ์ ์ฐ์ฑ๊ณผ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด GLIPGLIPGLIP๊ณผ ๋ฌ๋ฆฌ promptpromptprompt์ labellabellabel encoderencoderencoder๋ฅผ ๋ถ๋ฆฌํ์ฌ ๋์ผํ ํ ์คํธ ์๋ฒ ๋ฉ์ ๊ณต์ ํ์ง ์๋๋ก ํ์ต๋๋ค.
- Label์ ์ผ๋ฐ์ ์ผ๋ก ๊ฒ์ถํ ๊ฐ์ฒด์ ์ด๋ฆ์ ๋ํ๋ด๋ ๋ฐ๋ฉด, prompt๋ ๊ฐ์ฒด ์ด๋ฆ์ ์กฐํฉ, Visual Question Answering (VQA) ์์ ์ ์ง๋ฌธ, ๋๋ ๋๊ท๋ชจ vocabulary ๊ฒ์ถ ์๋๋ฆฌ์ค์์ โ๋ชจ๋ ๊ฐ์ฒด ๊ฒ์ถโ๊ณผ ๊ฐ์ ์ผ๋ฐ์ ์ธ ์ง์์ฌํญ ๋ฑ ๋ค์ํ ์ ์์ต๋๋ค.
(์ฐธ๊ณ ) GLIP์ ํ ์คํธ ์ธ์ฝ๋(์: BERT ๊ณ์ด)๋ฅผ ์ฌ์ฉํด prompt + label์ ํ๋์ ์ํ์ค๋ก ํฉ์ณ์ ์ธ์ฝ๋ฉํฉ๋๋ค.
OmDet-Turbo๋ Text backbone TTT๋ prompt ppp์ K๊ฐ์ label L=[l1,โฆ,lK]L = [l_1, โฆ, l_K]L=[l1โ,โฆ,lKโ]์ ํ ์คํธ ์ ๋ ฅ์ ์ธ์ฝ๋ฉํ์ฌ label embedding๊ณผ prompt embedding์ ์์ฑํ๋ CLIP๊ณผ ๊ฐ์ transformer language model์ ๋๋ค.
- ๊ตฌ์ฒด์ ์ผ๋ก ๊ฐ label e(l)e(l)e(l)์ sentence-level embedding์ ์์ฑํ๊ธฐ ์ํด text backbone ์ถ๋ ฅ์ [cls][cls][cls] token์ label embedding์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- Prompt embedding e(p)e(p)e(p)์ ๊ฒฝ์ฐ, prompt์ ๋ํ fine-grained ์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ์ํด sentence-level embedding ๋์ text backbone TTT์ token-level embedding ์ถ๋ ฅ์ ํ์ฉํฉ๋๋ค.
Image backbone III๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฝ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ multi-scale image feature pyramid P3,P4,P5{P3, P4, P5}P3,P4,P5๋ฅผ ์ถ์ถํฉ๋๋ค.
๊ทธ ๋ค์ ๋ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ์์๋ก ์ด๋ฃจ์ด์ง EFHEFHEFH๋ฅผ ์๊ฐํฉ๋๋ค. ์ด๋ Efficient Language-Aware Encoder (ELA-Encoder)์ Efficient Language-Aware Decoder (ELA-Decoder)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
ELA-Encoder
ํจ์จ์ ์ธ ์ธ์ด ์ธ์ ์ธ์ฝ๋ (ELA-Encoder): ์ด ์ธ์ฝ๋๋ ์๊ฐ์ ๋ฐฑ๋ณธ์์ ์ ๊ณต๋๋ ๋ค์ค ์ค์ผ์ผ ํผ์ฒ ๋งต์ ํ์ฉํ์ฌ ํ๋กฌํํธ์ ๊ด๋ จ๋ ์ฟผ๋ฆฌ ์ ์์ ํจ์จ์ ์ผ๋ก ์์ธกํฉ๋๋ค.
RT-DETR์์ ์๊ฐ๋ efficient hybrid encoder๋ฅผ ๋ฐ๋ผ, multi-scale image backbone feature์ ๋ง์ง๋ง ์ธต์ธ P5P5P5๋ multilayer Multi-head Self-Attention (MHSA) ๋ชจ๋์ ํตํด ์ธ์ฝ๋ฉ๋์ด F5F5F5๋ฅผ ์ป์ต๋๋ค.
๊ทธ ๋ค์ Cross-scale Feature-fusion Module (CCFM)์ PANet๊ณผ ์ ์ฌํ๊ฒ convolutional layer๋ฅผ ํ์ฉํ์ฌ F5์์ P4, P3๋ก top feature๋ฅผ ์ตํฉํฉ๋๋ค.
์ด ์ ๊ทผ๋ฒ์ ์ ํ๋ ์์ค์ ์ ์งํ๋ฉด์ ์๋๋ฅผ 35% ํฅ์์ํต๋๋ค. ์ encoder๋ก๋ถํฐ ์ป์ O๊ฐ ์ฃผ์ด์ง๋ฉด, top-K encoder feature๊ฐ decoder์ ์ด๊ธฐ object position query๋ก ์ ํ๋ฉ๋๋ค. Language-aware selection ๊ณผ์ ์ ๋ง๋ค๊ธฐ ์ํด label embedding์ ๋์ ํฉ๋๋ค.
ELA-Decoder
ํจ์จ์ ์ธ ์ธ์ด ์ธ์ ๋์ฝ๋ (ELA-Decoder): ์ด ๋ชจ๋์ ์๊ฐ์ ํน์ง๊ณผ ์ธ์ด ํน์ง์ ์ตํฉ ๊ณผ์ ์ ๋จ์ํํ๋ฉฐ, ๋ฉํฐํ์คํฌ ํ์ต๊ณผ OVD(Open-Vocabulary Detection) ๊ธฐ๋ฅ์ ์ง์ํฉ๋๋ค.
Image cross-attention๊ณผ Text cross-attention์ ์์ฐจ์ ์ผ๋ก ํ์ฉํ์ฌ ์ด๋ฏธ์ง์ ํ ์คํธ ํน์ง์ ์ตํฉํ๋ Grounding DINO ์ ๊ทผ๋ฒ๊ณผ ๋ฌ๋ฆฌ, vision-language fusion ๊ณผ์ ์ ๋จ์ํํฉ๋๋ค.
๊ฐ decoder layer์์ ๋จผ์ query feature์ prompt feature๋ฅผ concatenateํ ํ ์ํธ์์ฉ์ ์ํ multi-head self-attention mechanism์ ์ ์ฉํฉ๋๋ค. ๊ทธ ๋ค์ query feature๋ deformable attention์ ํตํด ์๊ฐ์ ํน์ง์ attention์ ์ํํฉ๋๋ค.
๋ถ๋ฆฌ๋ Prompt์ Label Encoder
์ด์ grounding ๊ธฐ๋ฐ OVD ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ, ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ ๋ชจ๋ ํด๋์ค๋ฅผ object detection์ ์ํ prompt๋ก ์ง์ concatenateํ์ง ์์ต๋๋ค. ๋์ detection ์์ ์ prompt์ ํด๋์ค๋ฅผ ๋ณ๋๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. Prompt์ label์ ๋ถ๋ฆฌํจ์ผ๋ก์จ detection ์์ ์ prompt๊ฐ ๋์ฑ ์ ์ฐํด์ง๋๋ค.
๋ ์ ์ฐํ prompt๋ language cache์ multi-task learning๊ณผ ๊ฐ์ ๊ธฐ๋ฒ์ ์ฝ๊ฒ ์ํํ ์ ์๊ฒ ํด์ค๋๋ค. ๋ํ ์ด ์ ๊ทผ๋ฒ์ ๋ ํฐ vocabulary ํฌ๊ธฐ๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ ์์์ ํ๋ จ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Language Cache
์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์์๋ ์๊ฐ์ ๋ฐ ํ ์คํธ ํน์ง ์ถ์ถ ์ค์ multi-modal feature ์ํธ์์ฉ์ ์ํํ์ง ์์ผ๋ฏ๋ก, image backbone๊ณผ text backbone์ด ์์ ํ ๋ ๋ฆฝ์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ํ ์คํธ ๋ฐ ๋ฐฐํฌ ๋จ๊ณ์์ target label๊ณผ target detection prompt์ ํ ์คํธ ์๋ฒ ๋ฉ์ ๋ฏธ๋ฆฌ ์ถ์ถํ์ฌ ๋ฉ๋ชจ๋ฆฌ๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ ์ ์์ต๋๋ค.
3.2 ๋ชจ๋ธ ํ๋ จ
Multi-task Learning
Open-vocabulary detection ์์ ์ ๋ํ ์ด์ ์ฐ๊ตฌ๋ค์ object detection์ ๊ณ ์ ๋ ์ฌ๊ณ ๋ฐฉ์์์ ๋ฒ์ด๋์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ์ฃผ๋ก detection ์์ ์ ์ ํ๋์์ต๋๋ค.
ํด๋์ค์ ์์ ์ ๋ถ๋ฆฌํจ์ผ๋ก์จ grounding, object detection (OD), visual question answering (VQA), human-object interaction (HOI) ๋ฑ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์์ ์ ์ํํ๊ณ ์ด๋ฌํ ์์ ์ ๋ฐ์ดํฐ์ ์ pre-training์ ํ์ฉํ๋ ๊ฒ์ด ํธ๋ฆฌํด์ง๋๋ค.
- Grounding:
ํ ์คํธ์ ์ด๋ฏธ์ง์ ํน์ ์์ญ์ ์ฐ๊ฒฐ (์: โthe red carโ โ ์ด๋ฏธ์ง ๋ด ์์น) - Object Detection (OD):
์ด๋ฏธ์ง์์ ๊ฐ์ฒด ์์น์ ํด๋์ค ์์ธก - Visual Question Answering (VQA):
์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ง๋ฌธ์ ๋ต๋ณ - Human-Object Interaction (HOI):
์ฌ๋๊ณผ ๊ฐ์ฒด ๊ฐ์ ๊ด๊ณ ์ธ์ (์: โ์ฌ๋์ด ์ปต์ ๋ค๊ณ ์๋คโ)
Large Vocabulary๋ก์ ํ์ฅ
ํด๋์ค์ ๋ ๋ฆฝ์ ์ธ ๋ถ๋ฆฌ๋ ์์ ์ large-vocabulary ๋ฐ์ดํฐ์ ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ๊ฒ์ถํ target ํด๋์ค๊ฐ ๋ง์ ๋, ์ด๋ค์ ํจ๊ป concatenateํ์ฌ ์์ ์ผ๋ก ๋ง๋ค๋ฉด ๋งค์ฐ ๊ธด ์์ ์ด ๋ฉ๋๋ค. ์ด๋ transformer ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์์ ์์ ์ ์ธ์ฝ๋ฉํ ๋ ์ด์ฐจ์ ์ผ๋ก ์ฆ๊ฐ๋ ์๊ฐ ์๋น๋ก ์ด์ด์ง๋๋ค.
๋ถ๋ฆฌ๋ ์์ ์ ๊ทผ๋ฒ์ ํตํด โ์ด๋ฏธ์ง์ ๋ชจ๋ ๊ฐ์ฒด ๊ฒ์ถโ๊ณผ ๊ฐ์ ์ ์ฐํ ํํ์ detection ๋ชจ๋ธ์ ๋ํ ์ง์์ฌํญ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ณผ๋ํ๊ฒ ๊ธด ์์ ์ ๋ฌธ์ ์ ์ธ์ด ๋ชจ๋ธ์ ๋ํ ํ์ ์ง์์ ์ธ์ฝ๋ฉ ์๊ฐ ์ฆ๊ฐ๋ฅผ ํผํ ์ ์์ต๋๋ค.
ํ์ต ๋ฐฉ๋ฒ
ํ๋ จ ๊ณผ์ ์ ๋ฐ์ ๊ฑธ์ณ DINO์ ์ผ์นํ๊ฒ ๋ชจ๋ธ ์๋ ด์ ๊ฐ์ํํ๊ณ ๋ชจ๋ธ ์ ๋ฐ๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ์ฌ๋ฌ denoise group์ ์ฌ์ฉํฉ๋๋ค. ๋ค๋ฅธ detr-base ๋ชจ๋ธ๊ณผ ์ผ์นํ๊ฒ, ์ฌ๊ตฌ์ฑ ๋ฐ ์์ธก ๋จ๊ณ์์ detection ์์ ์ ์ฃผ์ loss function์ผ๋ก L1 loss์ GIOU loss๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๊ทธ๋ฌ๋ ๋ถ๋ฅ ์์ ์์๋ ๊ฐ query embedding๊ณผ ํ ์คํธ ํน์ง์ dot product๋ฅผ ์ทจํ ํ focalloss๋ฅผ ์ง์ ์ฌ์ฉํ์ง ์์ต๋๋ค. ๋์ positive sample์ ๋ถ๋ฅ์ localization ๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด RT-DETR์์ ํจ๊ณผ์ ์์ด ์ ์ฆ๋ IoU-aware Query Selection์ ๋์ ํ์ต๋๋ค.
-
์คํ
4.1 ์คํ ์ค์
Pre-training ๋ฐ์ดํฐ
OmDet-Turbo-Base์ pre-training ๊ณผ์ ์ multi-task learning ์ ๊ทผ๋ฒ์ ํตํด ๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํฉ๋๋ค. Localization ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด object detection์ฉ O365 ๋ฐ์ดํฐ์ ์ ํตํฉํฉ๋๋ค. Grounding ์์ ์ ์ํด์๋ ์ด์ ์ฐ๊ตฌ์์ ์ผ๋ฐํ ๊ฐ์ ์ ํจ๊ณผ์ ์์ด ์ ์ฆ๋ GoldG ๋ฐ์ดํฐ์ ์ ์ ํํฉ๋๋ค.
๋ชจ๋ธ์ human-object interaction (HOI) ๋ฅ๋ ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด Hake ๋ฐ์ดํฐ์ ๊ณผ ์ ์ ๋ ๋ฒ์ ์ HOIA๋ฅผ ํ์ฉํฉ๋๋ค. ์ ์ ๋ HOI-A ๋ฒ์ ์์๋ ๋นํฉ๋ฆฌ์ ์ธ triplet ์กฐํฉ์ ์ฌ์ฉํ ์๋ชป๋ annotation์ ์ ๊ฑฐํ์ต๋๋ค. ๋ํ phrase grounding์ ์ ์ฉ๋ PhraseCut ๋ฐ์ดํฐ์ ์ ํตํฉํ์ฌ ๋ชจ๋ธ ๋ด ์ง์ญ๊ณผ ํ ์คํธ ๊ฐ์ alignment๋ฅผ ํฅ์์ํต๋๋ค.
๊ตฌํ ์ธ๋ถ์ฌํญ
OmDet-Turbo-Base ๋ชจ๋ธ์ ๊ฒฝ์ฐ image backbone์ผ๋ก ConvNext Base๋ฅผ, text backbone์ผ๋ก CLIP ViT-B/16์ text encoder๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํ๋ จ ์ค ์์ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด text backbone์ ์ฒซ 6๊ฐ layer๋ฅผ ๋๊ฒฐํ๊ณ ๋ง์ง๋ง 4๊ฐ layer๋ง fine-tuneํฉ๋๋ค.
ํ๋ จ ์ค base learning rate๋ฅผ 0.0001๋ก ์ค์ ํ๊ณ ์ ์ฒด ํ๋ จ ๋จ๊ณ์ 70%์ 90%์์ 0.1์ decay๋ฅผ ์ ์ฉํฉ๋๋ค. ๋ชจ๋ธ์ 16๊ฐ์ NVIDIA A100 GPU๋ฅผ ์ฌ์ฉํ์ฌ batch size 64๋ก ํ๋ จ๋ฉ๋๋ค.
4.2 ์ฃผ์ ๊ฒฐ๊ณผ
์ผ๋ฐ์ ์ธ OD ๋ฒค์น๋งํฌ COCO์ LVIS์์์ Zero-shot ์ฑ๋ฅ
COCO์ LVIS๋ OD ๋ชจ๋ธ ํ๊ฐ๋ฅผ ์ํด ๋๋ฆฌ ์ธ์ ๋ฐ๋ ๋ฒค์น๋งํฌ์ ๋๋ค. COCO์์ OmDet-Turbo-Base๋ ์ธ์์ ์ธ 53.4 AP๋ฅผ ๋ฌ์ฑํ๋ฉฐ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ ์์ ๋ชจ๋ธ ํฌ๊ธฐ์๋ ๋ถ๊ตฌํ๊ณ GLIP-L์ ๋ฅ๊ฐํฉ๋๋ค.
LVIS์์์ zero-shot ์ฑ๋ฅ๊ณผ ๊ด๋ จํ์ฌ, OmDet-Turbo-Base๋ ๋ ๊ฐ์ large-sized ๋ชจ๋ธ์ธ GLIP-L๊ณผ Grounding-DINO-L์ ๋ฅ๊ฐํฉ๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋๊ท๋ชจ vocabulary์์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๋ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ๊ฐ์ ์ ๊ฐ์กฐํ๋ฉฐ, ๋ค์ํ ๊ฒ์ถ ์๋๋ฆฌ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๋ณต์กํ OD ๋ฒค์น๋งํฌ์์์ Zero-shot ์ฑ๋ฅ
ODinW ๋ฒค์น๋งํฌ์์ OmDet-Turbo-Base๋ 30.1์ zero-shot AP๋ฅผ ๋ฌ์ฑํ์ฌ Grounding-DINO-L๊ณผ OmDet-B์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋ค์ํ ์ค์ ์์ ์ ๋ํ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์ ์ด ๋ฅ๋ ฅ๊ณผ ์ ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
OVD๋ฅผ ์ํด ์ธ์ฌํ๊ฒ ์ค๊ณ๋ ๋ฒค์น๋งํฌ์ธ OVDEval์์ OmDet-Turbo-Base๋ 26.86์ NMS-AP ์ ์๋ก ์๋ก์ด State-of-the-Art (SOTA) ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
์ถ๋ก ์๋
์ค์ฉ์ ๊ท๋ชจ์์ ๋ชจ๋ธ์ ์ถ๋ก ์๋๋ฅผ ํ๊ฐํ๊ธฐ ์ํด 80๊ฐ category๋ก ๊ตฌ์ฑ๋ COCO val2017 ๋ฐ์ดํฐ์ ์ 5000๊ฐ ์ด๋ฏธ์ง์์ ์ถ๋ก ์ ์ํํ์ต๋๋ค. ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ์ ๋น๊ต์์ OmDet-Turbo-Base๋ PyTorch์์ 18.6 FPS, TensorRT์์ 100.2 FPS์ ์ธ์์ ์ธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์ด ์๋๋ ๊ฒฝ์ ๋ชจ๋ธ๋ค๋ณด๋ค ์ฝ 20๋ฐฐ ๋น ๋ฅด๋ฉฐ, object detection ์์ ์ฒ๋ฆฌ์์ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ํจ์จ์ฑ๊ณผ ์๋๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
4.3 Ablation Study
์ฑ๋ฅ ๋ถ์
๋์ผํ pre-training ๋ฐ์ดํฐ์ ๊ณผ image backbone์ ์ฌ์ฉํ๋ zero-shot ์๋๋ฆฌ์ค์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ ๋ OmDet-Turbo-Tiny์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- OmDet-Turbo-Tiny๋ COCO์์ ๊ฒฝ์๋ ฅ ์๋ zero-shot ์ ์๋ฅผ ๋ฌ์ฑํ๊ณ LVIS minival์์ 30.3 AP์ ์ต๊ณ ์ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฅ๊ฐํฉ๋๋ค.
์์ธํ ์ถ๋ก ์๋ ๋ถ์
์ฐ๋ฆฌ ๋ชจ๋ธ์ ๋ํ ๊ฐ์ ์ฌํญ๊ณผ OmDet๊ณผ Grounding-DINO์ ์กด์ฌํ๋ ๋ณ๋ชฉํ์์ ์ ๊ฑฐ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด, ์ธ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ๋ค ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ์์๋ก ์ธ๋ถํํ์ต๋๋ค: text backbone, image backbone, encoder/FPN, decoder/head. ๊ทธ ๋ค์ ๊ฐ ๊ตฌ์ฑ์์์ ์์ ์๊ฐ์ ์ธ์ฌํ๊ฒ ์ธก์ ํ์ต๋๋ค.
OmDet-Turbo๋ ๋ชจ๋ ๊ตฌ์ฑ์์์์ ๋ค๋ฅธ ๋ ๋ชจ๋ธ์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ฉฐ, encoder/FPN๊ณผ decoder/head ์น์ ์์ ํนํ ์ฃผ๋ชฉํ ๋งํ ๊ฐ์ ์ ๋ณด์ ๋๋ค. Encoder/FPN ๊ตฌ์ฑ์์์์ Grounding-DINO๋ feature enhancer layer์ heavy multi-modality computation์ผ๋ก ์ธํด ์๋นํ ์๋ ์ ํ๋ฅผ ๊ฒช์ต๋๋ค.
OmDet-Turbo๋ hybrid encoder๋ฅผ ๊ตฌํํ์ฌ ์ด ๋ณ๋ชฉํ์์ ํด๊ฒฐํ๊ณ , Grounding-DINO์ ๋น๊ตํ์ฌ encoder/FPN ๊ณผ์ ์์ ์ฝ 10๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํฉ๋๋ค. Decoder/head ๊ตฌ์ฑ์์์ ๊ด๋ จํ์ฌ, OmDet์ ์๋ MDN์ feature ์ถ์ถ์ ์ํด ์๊ฐ์ด ๋ง์ด ์์๋๋ ROIAlign์ ์์กดํฉ๋๋ค. OmDet-Turbo๋ ELA-Decoder๋ฅผ ๋์ ํ์ฌ ROI operation์ ํ์์ฑ์ ์ ๊ฑฐํ๊ณ decoder/head ๊ตฌ์ฑ์์๋ฅผ ์๋นํ ๊ฐ์ํํฉ๋๋ค.
-
๊ฒฐ๋ก
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๋ชจ๋์์ ๋ฐ์ด๋ ์ค์๊ฐ transformer ๊ธฐ๋ฐ open-vocabulary object detection ๋ชจ๋ธ์ธ OmDet-Turbo๋ฅผ ์๊ฐํฉ๋๋ค. ๋์ detection ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ open-vocabulary ์๋๋ฆฌ์ค์ ๋์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํจ์ผ๋ก์จ, OmDet-Turbo๋ ์ค์ object detection ์์ ์ ์ํ ๋งค๋ ฅ์ ์ธ ์๋ฃจ์ ์ผ๋ก ๋๋ณด์ ๋๋ค.
Efficient Fusion Head ๋ชจ๋์ encoder์ head ๊ตฌ์ฑ์์์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ค์ฌ detection ์ฑ๋ฅ์ ํด์น์ง ์์ผ๋ฉด์๋ ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋ OmDet-Turbo-Base๋ ODinW์ OVDEval๊ณผ ๊ฐ์ ์ด๋ ค์ด ๋ฐ์ดํฐ์ ์์ state-of-the-art ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ ๋ฐ์ด๋ zero-shot detection ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
์ค์ ๋ฐฐํฌ์ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ค์ ์ ๋ OmDet-Turbo๋ ๊ฒฌ๊ณ ํ detection ๋ฅ๋ ฅ๊ณผ ํจ์จ์ ์ธ ์ถ๋ก ์๋ ๊ฐ์ ๊ท ํ์ ์ ๊ณตํฉ๋๋ค. Open-vocabulary ์๋๋ฆฌ์ค์์ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ๊ณผ ์ธ์์ ์ธ ์ฑ๋ฅ ์งํ๊ฐ ๊ฒฐํฉ๋์ด, ์ฐ์ object detection ์์ ์ ์ํ ์ ๋งํ ์ ํ์ผ๋ก ์๋ฆฌ๋งค๊นํฉ๋๋ค.
ํ์ ์ ์ธ ์ค๊ณ ์ ํ๊ณผ ์ธ์ฌํ ์ต์ ํ์ ์กฐํฉ์ ํตํด OmDet-Turbo๋ ์ค์๊ฐ transformer ๊ธฐ๋ฐ object detection ๋ถ์ผ์์ ์๋นํ ๋ฐ์ ์ ๋ํ๋ ๋๋ค.