[Paper Review] A COMPREHENSIVE REVIEW OF YOLO ARCHITECTURES IN COMPUTER VISION: FROM YOLOV1 TO YOLOV8 AND
YOLO-NAS
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-A-COMPREHENSIVE-REVIEW-OF-YOLO-ARCHITECTURES-IN-COMPUTER-VISION-FROM-YOLOV1-TO-YOLOV8-ANDYOLO-NAS
YOLO ๋ชจ๋ธ ์๋ฒ ์ด ํ์ดํผ
๐ (์ฐธ๊ณ ) YOLO ๋ฒ์ ์ ๋ฐ์
๐ก ๊ณต์ ๋ฒ์ : YOLO์ ์ ๊ฐ๋ฐ์์ธ Joseph Redmon์ YOLOv3๊น์ง ๊ฐ๋ฐํ์ต๋๋ค. ์ดํ ๊ทธ๋ ์ค๋ฆฌ์ ์ด์ ๋ก ๊ฐ์ฒด ํ์ง ์ฐ๊ตฌ๋ฅผ ์ค๋จํ์ต๋๋ค. Joseph Redmon์ด ๊ฐ์ฒด ํ์ง ์ฐ๊ตฌ๋ฅผ ์ค๋จํ ์ค๋ฆฌ์ ์ด์ ๋ ์ฃผ๋ก ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
๊ตฐ์ฌ์ ๋ชฉ์ ์ผ๋ก์ ํ์ฉ ์ฐ๋ ค
: Redmon์ ์์ ์ด ๊ฐ๋ฐํ ๊ธฐ์ ์ด ๊ตฐ์ฌ์ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๊ฒ์ ์์น ์์์ต๋๋ค.
๊ฐ์ ๊ธฐ์ ๋ก์ ์ ์ฉ ๊ฐ๋ฅ์ฑ
: ๊ฐ์ฒด ํ์ง ๊ธฐ์ ์ด ๊ฐ์ธ์ ํ๋ผ์ด๋ฒ์๋ฅผ ์นจํดํ๋ ๊ฐ์ ์์คํ ์ ์ฌ์ฉ๋ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ์์์ต๋๋ค.
์ค๋ฆฌ์ ์ฑ ์๊ฐ
: YOLO v3 ๊ธฐ์ ๋ณด๊ณ ์์์๋ Redmon์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋ํ ์ค๋ฆฌ์ ์ฑ ์๊ฐ์ ๊ฐ์กฐํ์ต๋๋ค1.
๊ธฐ์ ์ ์๋ฉด์ฑ
: ๊ฐ์ฒด ํ์ง ๊ธฐ์ ์ด ๊ธ์ ์ ์ธ ์ฉ๋๋ก ์ฌ์ฉ๋ ์ ์์ง๋ง, ๋์์ ๋ถ์ ์ ์ธ ๋ชฉ์ ์ผ๋ก๋ ํ์ฉ๋ ์ ์๋ค๋ ์ ์ ์ธ์ํ์ต๋๋ค.
์ฌํ์ ์ํฅ์ ๋ํ ๊ณ ๋ ค
: ์์ ์ ์ฐ๊ตฌ๊ฐ ์ฌํ์ ๋ฏธ์น ์ ์๋ ์ ์ฌ์ ์ธ ๋ถ์ ์ ์ํฅ์ ๊ณ ๋ คํ ๊ฒฐ์ ์ด์์ต๋๋ค.
๐ก ๋น๊ณต์ ๋ฒ์ : YOLOv4๋ถํฐ๋ ๋ค์ํ ์ฐ๊ตฌํ๊ณผ ๊ฐ๋ฐ์๋ค์ด YOLO๋ผ๋ ์ด๋ฆ์ ์ฌ์ฉํ์ฌ ์์ฒด์ ์ผ๋ก ๊ฐ๋ฐ์ ์งํํ์ต๋๋ค.
๋ฒ์ ๋ฒํธ์ ์๋ฏธ
: YOLOv4 ์ดํ์ ๋ฒ์ ๋ฒํธ๋ ์๋ฐํ ๋งํด ์ฐ์์ฑ์ด ์์ต๋๋ค. ๊ฐ ๊ฐ๋ฐํ์ด ๋ ๋ฆฝ์ ์ผ๋ก ๋ฒํธ๋ฅผ ๋ถ์ฌํ๊ธฐ ๋๋ฌธ์ ๋๋ค.์ฐ๊ตฌ์ ๊ฐ๋ฐ์ ์ฐจ์ด
: YOLOv5์ YOLOv8์ ๊ฐ๋ฐํ Ultralytics๋ ์ฃผ๋ก ์ํํธ์จ์ด ๊ฐ๋ฐ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ํ์ ๋ ผ๋ฌธ ์์ด ์ฝ๋๋ฅผ ๊ณต๊ฐํ๋ ๋ฐฉ์์ ์ทจํ๊ณ ์์ต๋๋ค.๋ค์ํ YOLO ๋ณํ
: YOLOv4, Scaled-YOLOv4, YOLO-R, YOLOv7 ๋ฑ์ YOLO์ ์๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ ๊ฐ๊น๊ฒ ๋ฐ๋ฅด๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
(์ฐธ๊ณ ) ๊ฐ Header์ ์ ์ ๋ ผ๋ฌธ์ ๋ ๋๋ ๊ฐ ๋ ผ๋ฌธ(๋ฒ์ )์ ๋ฐํ ์๊ธฐ๋ฅผ ์ ์ ๊ฒ์ ๋๋ค. ๋ฒ์ ์ฐจ์ด ๋ฑ์ผ๋ก ์ธํด์ ์๋ฃ ์กฐ์ฌ๋ฅผ ํ๋ฉด์ ๋ ๋๋ ์กฐ๊ธ์ฉ ์์ดํ ์ ์์ต๋๋ค.
-
Abstract
YOLO(You Only Look Once)
๋ชจ๋ธ์ ๊ฐ์ฒด ํ์ง ๋ถ์ผ์์ ์ค์๊ฐ ์ฑ๋ฅ๊ณผ ๋์ ์ ํ์ฑ์ ๊ฐ์ถ ๋ชจ๋ธ๋ก, ์ต์ YOLO-NAS๊น์ง ๋ฐ์ ํด ์์ต๋๋ค. ์ด ์๋ฒ ์ด ํ์ดํผ๋ YOLO์ ์งํ๋ฅผ ์์ฝํ๊ณ , YOLOv1๋ถํฐ YOLOv8๊น์ง์ ๋ฐ์ ์ ๋ค๋ฃน๋๋ค. YOLO-NAS, YOLO with Transformers ๊ฐ์ ์ต์ ๋ชจ๋ธ๋ค์ ํฌํจํ์ฌ, ๊ฐ ๋ฒ์ ์ด ๋์
ํ ๊ธฐ์ ์ ํ์ ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ค๋ช
ํฉ๋๋ค.
-
Introduction
YOLO๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์ ํจ์จ์ฑ๊ณผ ์ ํ๋์์ ์ค๋ํ ์ญํ ์ ๋ด๋นํ๋ฉฐ, ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ YOLO์ ๋ฐ์ ๊ณผ์ ๊ณผ ๊ฐ ๋ชจ๋ธ์ ํต์ฌ์ ์ธ ํน์ง๋ค์ ๋ถ์ํฉ๋๋ค. YOLOv1๋ถํฐ YOLOv8, ๊ทธ๋ฆฌ๊ณ YOLO-NAS๊น์ง์ ๋ณํ์ ๊ฐ์ ์ ์ ํ๊ตฌํ๋ฉฐ, YOLO ๋ชจ๋ธ์ด ๋น ๋ฅด๊ฒ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ฉด์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์๋ ๋น๊ฒฐ์ ์ค๋ช ํฉ๋๋ค.
-
YOLO Applications across Diverse Fields
YOLO๋ ์์จ์ฃผํ, ๋์ , ์๋ฃ, ์๊ฒฉ ํ์ฌ, ๋น๋์ค ๊ฐ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ฉ๋๋ค.
- ์์จ์ฃผํ: ์ฐจ๋, ๋ณดํ์, ์์ ๊ฑฐ ๋ฑ์ ๊ฐ์ฒด๋ฅผ ํ์งํ์ฌ ์์ ํ๊ณ ํจ์จ์ ์ธ ์ฃผํ์ ๋์ต๋๋ค.
- ๋์ : ๋์๋ฌผ์ ์ํ๋ฅผ ๊ฐ์งํ๊ณ ๋ณํด์ถฉ์ ํ์งํ์ฌ ๋์ ์๋ํ๋ฅผ ์ง์ํฉ๋๋ค.
- ์๋ฃ: ์ ์ง๋จ, ํผ๋ถ ์ธ๋ถํ ๋ฑ์ ์๋ฃ ๋ถ์ผ์์ ๊ฐ์ฒด ํ์ง๋ฅผ ํตํด ์ง๋จ ์ ํ๋๋ฅผ ํฅ์์ํต๋๋ค.
- ์๊ฒฉ ํ์ฌ: ์์ฑ ๋ฐ ํญ๊ณต ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ์ฌ ํ๊ฒฝ ๋ชจ๋ํฐ๋ง, ๋์ ๊ณํ ๋ฑ์ ํ์ฉ๋ฉ๋๋ค.
-
Object Detection Metrics and Non-Maximum Suppression (NMS)
์ด ์ฑํฐ์์๋ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ฃผ์ ๋ฉํธ๋ฆญ๊ณผ ๊ฐ์ฒด ํ์ง ํ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ธ NMS(Non-Maximum Suppression)์ ๋ํด ์ค๋ช ํฉ๋๋ค.
- ๊ฐ์ฒด ํ์ง์ ๋ชฉํ๋ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํ์งํ๊ณ ํด๋น ๊ฐ์ฒด์ ์ ํํ ์์น๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋๋ค.
- ์ด๋, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฉํธ๋ฆญ์ผ๋ก ํ๊ท ์ ํ๋(mean Average Precision, mAP)๊ฐ ์์ฃผ ์ฌ์ฉ๋๋ฉฐ, NMS๋ ๊ฐ์ฒด ํ์ง ๊ฒฐ๊ณผ์์ ์ค๋ณต๋ ์์๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
4.1 Average Precision (AP)์ Mean Average Precision (mAP)
ํ๊ท ์ ํ๋(AP)๋ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์งํ์ ๋๋ค. AP๋ ํ ์ด๋ฏธ์ง ๋ด์์ ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ์ฒด์ ์์น๊ฐ ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ๋ํ๋ด๋ฉฐ, ๋ชจ๋ธ์ ์ ๋ฐ๋(precision)์ ์ฌํ์จ(recall)์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
-
์ ๋ฐ๋(Precision)
: ๋ชจ๋ธ์ด ํ์งํ ๊ฐ์ฒด ์ค ์ค์ ๋ก ๋ง๋ ๊ฐ์ฒด์ ๋น์จ์ ๋๋ค. (์์ธก์ Positive๋ก ํ ์ ๋ค ์ค์์, ์์ธก๊ณผ ์ค์ ๊ฐ์ด ์ผ์นํ๋ ๋ฐ์ดํฐ์ ๋น์จ)- ์ฆ, ๋ชจ๋ธ์ด ํ์งํ ๊ฐ์ฒด๊ฐ ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ํ๊ฐํฉ๋๋ค.
-
์ฌํ์จ(Recall)
: ์ค์ ๊ฐ์ฒด ์ค์์ ๋ชจ๋ธ์ด ๋ง๊ฒ ํ์งํ ๊ฐ์ฒด์ ๋น์จ์ ๋๋ค. (์ค์ ๊ฐ์ด Positive์ธ ๋์๋ค ์ค์์, ์์ธก๊ณผ ์ค์ ๊ฐ์ด Positive๋ก ์ผ์นํ๋ ๋ฐ์ดํฐ์ ๋น์จ)- ์ฆ, ๋ชจ๋ธ์ด ์ค์ ๋ก ์ผ๋ง๋ ๋ง์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋์ง๋ฅผ ํ๊ฐํฉ๋๋ค.
-
์ ๋ขฐ๋ (Confidence)
: ๋ชจ๋ธ๋ง๋ค ์ฃผ๋ก CCC๋ก ๋ฑ์ฅํ๋, ํด๋น ์์ธก์ด ์ผ๋ง๋งํผ์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง๋์ง๋ฅผ ๋ํ๋ด๋ ์ ์์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ Confidence Threshold๋, ๋ง ๊ทธ๋๋ก Confidence์ ์๊ณ๊ฐ์ผ๋ก, Confidence๊ฐ ๋ช ์ด์์ธ ์์ธก๋ค๋ง ์์ธก์ผ๋ก ๋ณผ ๊ฒ์ธ๊ฐ ํ๋ ์์น๋ผ๊ณ ์๊ฐํ ์ ์์ต๋๋ค.- Confidence Threshold๊ฐ ๋ฎ์ผ๋ฉด โ Bbox ์์ธก์ด ๋ง์์ง๊ณ โ Precision ๊ฐ์, Recall ์ฆ๊ฐ.
- Confidence Threshold๊ฐ ๋์ผ๋ฉด โ Bbox ์์ธก์ด ์ ์ด์ง๊ณ โ Precision ์ฆ๊ฐ, Recall ๊ฐ์.
-
AP (Average Precision)
: ์ ๋ฐ๋-์ฌํ์จ ๊ณก์ (precision-recall curve) ์๋์ ๋ฉด์ ์ผ๋ก ๊ณ์ฐ๋๋ฉฐ, ์ฃผ์ด์ง ์๊ณ๊ฐ์์ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ์์ธกํ๋์ง๋ฅผ ๋ํ๋ ๋๋ค. ์ด ๊ณก์ ์ ๋ชจ๋ธ์ ํ์ง ์๊ณ๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ ๋ฐ๋์ ์ฌํ์จ ๊ฐ์ ์ํธ์์ฉ์ ๋ณด์ฌ์ค๋๋ค.์ ๋ฐ๋-์ฌํ์จ ๊ณก์ (precision-recall curve)
: ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ค์ํ ์๊ฐํ ๋๊ตฌ์ ๋๋ค. x์ถ์ ์ฌํ์จ(Recall), y์ถ์ ์ ๋ฐ๋(Precision)๋ฅผ ํ์ํ ๊ทธ๋ํ์ ๋๋ค. ๋ค์ํ ๋ถ๋ฅ ์๊ณ๊ฐ(threshold)์ ๋ฐ๋ฅธ ์ ๋ฐ๋์ ์ฌํ์จ์ ๋ณํ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
mAP (Mean Average Precision)
: mAP๋ ๋ชจ๋ ๊ฐ์ฒด ํด๋์ค์ ๋ํ AP์ ํ๊ท ๊ฐ์ ์๋ฏธํ๋ฉฐ, ์ฌ๋ฌ ํด๋์ค๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ์ ์ ์ฒด์ ์ธ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.- ์๋ฅผ ๋ค์ด, MS COCO์ ๊ฐ์ ๋ฐ์ดํฐ์ ์์๋ 80๊ฐ์ ๊ฐ์ฒด ํด๋์ค๊ฐ ํฌํจ๋์ด ์์ผ๋ฉฐ, mAP๋ ์ด๋ค ๊ฐ์ฒด์ ๋ํ ํ๊ท ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค.
4.2 Intersection over Union (IoU)
- Intersection over Union (IoU)๋ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ฌ์ด์ ๊ฒน์นจ ์ ๋๋ฅผ ๋ํ๋ด๋ ๋ฉํธ๋ฆญ์
๋๋ค.
- IoU๋ ๋ ๋ฐ์ค๊ฐ ๊ฒน์น๋ ์์ญ์ ํฌ๊ธฐ๋ฅผ ๋ ๋ฐ์ค๊ฐ ์ฐจ์งํ๋ ์ด ๋ฉด์ ์ผ๋ก ๋๋์ด ๊ณ์ฐ๋ฉ๋๋ค.
IoU์ ์์์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์์ต๋๋ค:
- IoU = (์์ธก๋ ๋ฐ์ค โฉ ์ค์ ๋ฐ์ค) / (์์ธก๋ ๋ฐ์ค โช ์ค์ ๋ฐ์ค)
IoU๋ ๋ชจ๋ธ์ด ์์ธกํ ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ์ผ๋ง๋ ์ ํํ์ง ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, IoU ์๊ณ๊ฐ์ ๋๊ฒ ์ค์ ํ ์๋ก ๋ ์ ํํ ์์น ์์ธก์ ์๊ตฌํ๊ฒ ๋ฉ๋๋ค.
- ์ผ๋ฐ์ ์ผ๋ก COCO ๋ฐ์ดํฐ์ ์์๋ ์ฌ๋ฌ IoU ์๊ณ๊ฐ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ฉฐ, AP50(IoU 0.5 ์ด์์ธ ๊ฒฝ์ฐ) ๋ฐ AP75(IoU 0.75 ์ด์์ธ ๊ฒฝ์ฐ)์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ์ธก์ ํฉ๋๋ค.
- ๋ฒ์: 0 ~ 1
- ํน์ง: ๋ ์์๊ฐ ๊ฒน์น์ง ์์ผ๋ฉด ํญ์ 0
IoU (Intersection over Union) ๊ฐ๋ ์ ํ์ฅํ์ฌ, GIoU, DIoU, ๊ทธ๋ฆฌ๊ณ CIoU๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์์น ์ ํ๋๋ฅผ ๊ฐ์ ํ๊ณ ์ ๋ค์ํ ์ถ๊ฐ ์์๋ฅผ ๊ณ ๋ คํ ๋ฉํธ๋ฆญ์ ๋๋ค. ๊ฐ ๋ฉํธ๋ฆญ์ IoU์ ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ ์๋์์ผ๋ฉฐ, ํนํ ๋ ๊ฐ์ฒด๊ฐ ๋ง์ด ๊ฒน์น์ง ์์ ๋ ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
- Generalized Intersection over Union (GIoU)๋ IoU๋ฅผ ํ์ฅํ์ฌ ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ฌ์ด์ ์ฐจ์ด๊ฐ ํฌ๋๋ผ๋, ํด๋น ๋ฐ์ค์ ๊ฒน์นจ์ ๋ ์ ํํํ ์ ์๋๋ก ๊ณ ์๋ ๋ฉํธ๋ฆญ์
๋๋ค.
- IoU๋ ๋ฐ์ค๊ฐ ์ ํ ๊ฒน์น์ง ์์ผ๋ฉด 0์ ๋ฐํํ์ง๋ง, GIoU๋ ๋ ๋ฐ์ค๊ฐ ๊ฒน์น์ง ์๋ ์ํฉ์์๋ ๋ ๋์ ์ธก์ ๊ฐ์ ์ ๊ณตํฉ๋๋ค.
GIoU๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
-
**GIoU=IoUโ(โฃCโ(AโชB)โฃ/โฃCโฃ)GIoU = IoU - ( C - (A โช B) / C )GIoU=IoUโ(โฃCโ(AโชB)โฃ/โฃCโฃ)**
์ฌ๊ธฐ์ C๋ ๋ ๋ฐ์ค๋ฅผ ๋ชจ๋ ํฌํจํ๋ ์ต์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์์ญ์ ๋๋ค. ์ด ์์์์ ๋ ๋ฐ์ค๊ฐ ๊ฒน์น์ง ์๋ ๊ฒฝ์ฐ, ๊ฒน์น์ง ์๋ ๊ณต๊ฐ์ ๋ํ ์ ๋ณด๋ฅผ ์ถ๊ฐ๋ก ๋ฐ์ํ์ฌ IoU๋ณด๋ค ๋ ๋์ ์ธก์ ๊ฐ์ ์ ๊ณตํ๊ฒ ๋ฉ๋๋ค.
- ๋ ๋ฐ์ค๊ฐ ์๋ฒฝํ ์ผ์นํ๋ฉด GIoU๋ IoU์ ๋์ผํ ๊ฐ์ ๊ฐ์ง๋๋ค.
- ๋ฒ์: -1 ~ 1
- ํน์ง: ๋ ์์๋ฅผ ๋ชจ๋ ํฌํจํ๋ ์ต์ ์์ญ์ธ C ๋ฐ์ค๋ฅผ ํ์ฉ
- ์ฅ์ : ๋ ์์๊ฐ ๊ฒน์น์ง ์์๋ ๊ฑฐ๋ฆฌ์ ๋ฐ๋ฅธ ํ๋ํฐ ๋ถ์ฌ ๊ฐ๋ฅ
- Distance Intersection over Union (DIoU)๋ IoU์ ๋ฐ์ค์ ์ค์ฌ์ ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ๋ฐ์ํ ๋ฉํธ๋ฆญ์
๋๋ค.
- ์ด๋ ๋จ์ํ ๊ฒน์น๋ ์์ญ์ ํฌ๊ธฐ๋ฟ๋ง ์๋๋ผ, ๋ฐ์ค์ ์ค์ฌ์ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ ๋ คํจ์ผ๋ก์จ ๋ฐ์ค๊ฐ ์ด๋ ์ ๋ ๊ทผ์ ํ์ง๋ฅผ ํ๊ฐํฉ๋๋ค.
- DIoU๋ ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ฌ์ ์ฌ์ด์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๊ณ ์ด๋ฅผ ์ธก์ ์์ ๋ฐ์ํฉ๋๋ค.
๊ทธ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- DIoU=IoUโ(d2/c2)DIoU = IoU - (d^2 / c^2)DIoU=IoUโ(d2/c2)
์ฌ๊ธฐ์:
- d๋ ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ฌ์ ๊ฐ ๊ฑฐ๋ฆฌ์ ๋๋ค.
- c๋ ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ํฌํจํ๋ ์ต์ ์ธ์ ์์ ๋๊ฐ์ ๊ธธ์ด์ ๋๋ค.
DIoU๋ ๋ ๋ฐ์ค์ ์ค์ฌ์ด ์ผ๋ง๋ ๊ฐ๊น์ด์ง ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์, ๊ฐ์ฒด ํ์ง์์ ์์น ์ค๋ฅ๋ฅผ ์ค์ด๋ ๋ฐ ๋ ์ ํฉํฉ๋๋ค. ํนํ ๋ฐ์ค๊ฐ ๊ฒน์น์ง ์๋๋ผ๋ ์ค์ฌ์ ์ด ๊ฐ๊น์ด ๊ฒฝ์ฐ ๋์ ์ ์๋ฅผ ์ค๋๋ค.
- ๋ฒ์: -1 ~ 1
- ํน์ง: IoU์ ์ค์ฌ์ ์ขํ๋ฅผ ํจ๊ป ๊ณ ๋ ค
- ์ฅ์ : GIoU๋ณด๋ค ๋น ๋ฅธ ์๋ ด ์๋, ์ํ/์์ง ๋ฐฉํฅ์์๋ ํจ๊ณผ์
- Complete Intersection over Union (CIoU)๋ DIoU์ ๋ฐ์ค์ ์ข
ํก๋น ์ฐจ์ด๊น์ง ๊ณ ๋ คํ ๋ฉํธ๋ฆญ์
๋๋ค.
- ์ฆ, CIoU๋ IoU, ๋ฐ์ค ์ค์ฌ์ ์ ๊ฑฐ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ๋ฐ์ค์ ํํ๊น์ง ํ๊ฐํ๋ ์ข ํฉ์ ์ธ ์ฒ๋์ ๋๋ค.
CIoU์ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- CIoU=IoUโ(d2/c2)โฮฑ(v)CIoU = IoU - (d^2 / c^2) - ฮฑ(v)CIoU=IoUโ(d2/c2)โฮฑ(v)
์ฌ๊ธฐ์:
- v๋ ๋ ๋ฐ์ค์ ์ข ํก๋น ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ํญ์ ๋๋ค.
- ฮฑ๋ v์ ๋น๋กํ๋ ๊ฐ์ค์น๋ก, IoU๊ฐ ๋ฎ์ ๋๋ ์ข ํก๋น์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํฉ๋๋ค.
์ข ํก๋น ์ฐจ์ด๋ฅผ ๊ณ ๋ คํจ์ผ๋ก์จ, CIoU๋ ๋จ์ํ ๋ ๋ฐ์ค๊ฐ ์ผ๋ง๋ ๊ฒน์น๋์ง ๋ฟ๋ง ์๋๋ผ, ๋ ๋ฐ์ค์ ํฌ๊ธฐ์ ํํ๊ฐ ์ ์ฌํ์ง๋ ํ๊ฐํ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์, ๊ฐ์ฒด ํ์ง ๋ฌธ์ ์์ ์์น์ ํฌ๊ธฐ ๋ชจ๋๋ฅผ ์ต์ ํํ๋ ค๋ ์ํฉ์ ์ ํฉํฉ๋๋ค.
- ๋ฒ์: -1 ~ 1
- ํน์ง: DIoU์ ์ข ํก๋น ํ๋ํฐ ์ถ๊ฐ
- ์ฅ์ : ๊ฒน์น๋ ์์ญ, ์ค์ฌ์ ๊ฑฐ๋ฆฌ, ์ข ํก๋น๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ๊ฐ์ฅ ์์ ํ ํ๊ฐ ๊ฐ๋ฅ
๐ก ์์ฝ
- IoU: ๋ ๋ฐ์ค์ ๊ฒน์น๋ ์์ญ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ฐ.
- GIoU: IoU์ ๋ ๋ฐ์ค๋ฅผ ๋ชจ๋ ํฌํจํ๋ ์ต์ ์์ญ(C ๋ฐ์ค)์ ๊ณ ๋ คํ์ฌ, ๋ ๋ฐ์ค๊ฐ ๊ฒน์น์ง ์๋๋ผ๋ ๋ ๋์ ํ๊ฐ๋ฅผ ์ ๊ณต.
- DIoU: IoU์ ํจ๊ป ๋ ๋ฐ์ค์ ์ค์ฌ์ ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ ๋ คํ์ฌ ๊ทผ์ ์ฑ์ ํ๊ฐ.
- CIoU: DIoU์ ๋ํด ๋ ๋ฐ์ค์ ์ข ํก๋น ์ฐจ์ด๊น์ง ํ๊ฐํ์ฌ, ๋ฐ์ค์ ์์น, ํฌ๊ธฐ, ํํ ๋ชจ๋๋ฅผ ๊ณ ๋ คํ ์ข ํฉ์ ์ธ ์ฒ๋.
4.3 PASCAL VOC์ COCO ๋ฐ์ดํฐ์ ์์์ AP ๊ณ์ฐ
- PASCAL VOC: ์ด ๋ฐ์ดํฐ์ ์์๋ 20๊ฐ์ ๊ฐ์ฒด ํด๋์ค์ ๋ํด AP๋ฅผ ๊ณ์ฐํฉ๋๋ค. ๊ฐ ํด๋์ค์ ๋ํด ์ ๋ฐ๋-์ฌํ์จ ๊ณก์ ์ ๊ทธ๋ฆฐ ํ, 11๊ฐ์ ์ ์ ์ฌ์ฉํ์ฌ ํ๊ท ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก AP๋ฅผ ๊ตฌํฉ๋๋ค.
- COCO: COCO ๋ฐ์ดํฐ์ ์ 80๊ฐ์ ๊ฐ์ฒด ํด๋์ค์ ๋ ๋ณต์กํ AP ๊ณ์ฐ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. 101๊ฐ์ ์ ์์ ์ ๋ฐ๋-์ฌํ์จ ๊ณก์ ์ ๊ณ์ฐํ๋ฉฐ, ๋ค์ํ IoU ์๊ณ๊ฐ(0.5์์ 0.95๊น์ง, 0.05 ๊ฐ๊ฒฉ)์ ์ฌ์ฉํด AP๋ฅผ ๊ตฌํฉ๋๋ค. ์ด ๋ฐฉ์์ ํตํด ๋์ฑ ์ธ๋ฐํ๊ฒ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์์ต๋๋ค.
4.4 Non-Maximum Suppression (NMS)
๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ด๋ฏธ์ง์์ ์ฌ๋ฌ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๋ฉฐ, ์ข ์ข ๋์ผํ ๊ฐ์ฒด์ ๋ํด ์ฌ๋ฌ ์์๋ฅผ ์์ธกํ๊ฒ ๋ฉ๋๋ค. Non-Maximum Suppression (NMS)๋ ์ด๋ฌํ ์ค๋ณต๋ ์์๋ฅผ ์ ๊ฑฐํ๋ ํ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ๋๋ค.
- NMS๋ ๊ฐ์ฒด ํ์ง์ ์ต์ข ๊ฒฐ๊ณผ๋ก ๊ฐ์ฅ ์ ๋ขฐ๋ ๋์ ์์๋ง ๋จ๊ธฐ๊ณ ๋๋จธ์ง ์์๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
NMS์ ๊ธฐ๋ณธ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ชจ๋ธ์ด ์์ธกํ ๋ชจ๋ ์์๋ฅผ ์ ๋ขฐ๋(score) ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํฉ๋๋ค.
- ๊ฐ์ฅ ๋์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง ์์๋ฅผ ์ ํํ๊ณ , ๊ทธ ์์์ ๊ฒน์น๋ ์์๋ค ์ค์์ IoU ๊ฐ์ด ์๊ณ๊ฐ ์ด์์ธ ์์๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
- ๋จ์ ์์๋ค์ ๋ํด ๋์ผํ ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ์ค๋ณต๋ ์์ธก์ ์ ๊ฑฐํฉ๋๋ค.
NMS๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ๊ฐ์ฒด ํ์ง ๊ฒฐ๊ณผ์ ์ค๋ณต์ ๋ฐฉ์งํ๊ณ , ์ต์ข ์ ์ผ๋ก ์ ํํ ํ์ง ๊ฒฐ๊ณผ๋ง ๋จ๊ฒ ๋ฉ๋๋ค.
์ด๋ ๊ฐ์ฒด ํ์ง์์ ๋งค์ฐ ์ค์ํ ํ์ฒ๋ฆฌ ๋จ๊ณ๋ก, ํ์ง ์ ํ๋๋ฅผ ๋์ด๊ณ ๋ถํ์ํ ์ค๋ณต ์์ธก์ ์ค์ด๋ ์ญํ ์ ํฉ๋๋ค.
-
YOLO-v1: You Only Look Once (2016๋ )
YOLOv1
์ 2015๋
์ Joseph Redmon์ ์ํด ์๊ฐ๋ ์ต์ด์ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, โYou Only Look Onceโ๋ผ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ๋จ์ผ ํจ์ค๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋ ํ์ ์ ์ธ ๋ชจ๋ธ์ด์์ต๋๋ค. YOLOv1์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ํ ๋ฒ์ ๋ถ์ํ์ฌ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐฉ์์ผ๋ก ๊ธฐ์กด์ ๊ฐ์ฒด ํ์ง ๋ฐฉ์๊ณผ๋ ํฌ๊ฒ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค. YOLOv1์ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง ์์คํ
์ ํจ์จ์ฑ๊ณผ ์๋๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ์ผ๋ฉฐ, ์์จ์ฃผํ, ๊ฐ์ ์์คํ
, ๋น๋์ค ๋ถ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋์์ต๋๋ค. (CVPR 2016)
- ๋งํฌ : https://arxiv.org/abs/1506.02640
5.1 YOLOv1์ ์ฃผ์ ํน์ง
-
๋จ์ผ ์ ๊ฒฝ๋ง ํจ์ค:
- YOLOv1์ ๊ฐ์ฅ ํฐ ํน์ง์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ํ ๋ฒ์ ์ฒ๋ฆฌํ์ฌ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ด์ ์ ๊ฐ์ฒด ํ์ง ์์คํ ๋ค์ ์ด๋ฏธ์ง ๋ด์์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ฅผ ์ฌ์ฉํด ๋ง์ ํ๋ณด ์์ญ์ ๋ง๋ค์ด๋ธ ํ, ๊ทธ ํ๋ณด ์์ญ์ ๋ํด ๊ฐ์ฒด ์ฌ๋ถ๋ฅผ ํ๋ณํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ์ต๋๋ค.
- ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ์์ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํด ์ฌ๋ฌ ๋ฒ์ ์ฐ์ฐ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ์๋๊ฐ ๋๋ฆฌ๊ณ ๋นํจ์จ์ ์ด์์ต๋๋ค.
- YOLOv1์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ๊ฒฉ์(grid)๋ก ๋๋๊ณ ๊ฐ ๊ฒฉ์์์ ๋์์ ์ฌ๋ฌ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋์ค ํ๋ฅ ์ ์์ธกํ๋ ๋ฐฉ์์ ์ฑํํ์ต๋๋ค.
-
๊ฒฉ์ ๊ธฐ๋ฐ ํ์ง:
- YOLOv1์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ SรSS \times SSรS ํฌ๊ธฐ์ ๊ฒฉ์(grid)๋ก ๋๋๋๋ค.
- ๊ฐ ๊ฒฉ์ ์ ์ ์ต๋ BBB๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋น ๊ฐ์ฒด๊ฐ ์์ ํ๋ฅ ์ ์์ธกํฉ๋๋ค.
- ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๊ฐ์ฒด์ ์ค์ฌ ์ขํ (x,yx, yx,y), ๋๋น (www), ๋์ด (hhh), ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ฐ์ฒด๊ฐ ์์ ํ๋ฅ ์ ๋ํ๋ด๋ ํ์ ๋(PcPcPc)๋ฅผ ํฌํจํ 5๊ฐ์ ๊ฐ(Pc, bx, by, bh, bw)์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
- ๊ฐ ๊ฒฉ์ ์ ์ ํด๋์ค๋ณ ํ๋ฅ CCC๋ ์์ธกํ๋ฉฐ, ๊ฐ ํด๋์ค์ ํด๋นํ๋ ์์ธก ํ๋ฅ ์ ์ ๊ณตํฉ๋๋ค.
- ๋ฐ๋ผ์ YOLOv1์ ์ถ๋ ฅ์ SรSร(Bร5+C)S \times S \times (B \times 5 + C)SรSร(Bร5+C) ํฌ๊ธฐ์ ํ ์๋ก ํํ๋ฉ๋๋ค.
- ์ด ๊ตฌ์กฐ๋ ๋ชจ๋ ๊ฐ์ฒด ํ์ง๋ฅผ ๋์์ ์ํํ ์ ์์ด ์ฐ์ฐ ํจ์จ์ฑ์ด ๋์ต๋๋ค.
YOLOv1์์์ ์ถ๋ ฅ์ ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ๋ํด ์์ธก๋ ๊ฐ๋ค์ ๋ฐฐ์ด๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ ๊ทธ๋ฆผ์ฒ๋ผ class๊ฐ 3๊ฐ์๋ task์ ๋ํด์ โ3x3โ ๊ทธ๋ฆฌ๋์ ๋ํด, ์ถ๋ ฅ์ 3ร3ร8 ํํ๋ก ๋์ต๋๋ค. ์ฌ๊ธฐ์ ๊ฐ ์ฐจ์์ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
-
3x3 ๊ทธ๋ฆฌ๋:
- ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ 3ร3์ ๊ทธ๋ฆฌ๋๋ก ๋๋์ด ์ด 9๊ฐ์ ๊ทธ๋ฆฌ๋ ์ ์ด ํ์ฑ๋ฉ๋๋ค.
- ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ์๊ธฐ ์์ญ ๋ด์์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๊ณ ์์ธกํ ์ฑ ์์ด ์์ต๋๋ค.
-
8๊ฐ์ ๊ฐ: ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ๋ค์์ 8๊ฐ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค:
- 1๊ฐ์ ์ ๋ขฐ๋ ์ ์ PcP_cPcโ: ํด๋น ๊ทธ๋ฆฌ๋ ์ ๋ด์ ๊ฐ์ฒด๊ฐ ํฌํจ๋ ํ๋ฅ .
- 4๊ฐ์ ๊ฒฝ๊ณ ์์ ์ขํ bx,by,bh,bwb_x, b_y, b_h, b_wbxโ,byโ,bhโ,bwโ: ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ์ค์ฌ ์ขํ ๋ฐ ๊ฒฝ๊ณ ์์์ ํฌ๊ธฐ.
- 3๊ฐ์ ํด๋์ค ํ๋ฅ : 3๊ฐ์ ์๋ก ๋ค๋ฅธ ํด๋์ค์ ๋ํ ํ๋ฅ ๊ฐ.
-
PcP_cPcโ: ๊ฐ์ฒด๊ฐ ํฌํจ๋ ํ๋ฅ (Confidence Score)
- ์ด ๊ฐ์ ํน์ ๊ฒฝ๊ณ ์์ ๋ด์ ๊ฐ์ฒด๊ฐ ์กด์ฌํ ํ๋ฅ ์ ๋ํ๋ ๋๋ค.
- ์ฆ, ๊ทธ ๊ฒฝ๊ณ ์์์ ํด๋นํ๋ ํด๋์ค๊ฐ ์ค์ ๋ก ์กด์ฌํ ๊ฐ๋ฅ์ฑ์ ์ธก์ ํฉ๋๋ค.
- ์ด ํ๋ฅ ์ ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ์ฒด์ ์กด์ฌ ์ฌ๋ถ๋ฅผ ๋ฐ์ํ๋ฉฐ, ๋ชจ๋ธ์ ์ ํ์ฑ์ ๋์ด๊ธฐ ์ํด ์ค์ํฉ๋๋ค.
-
bxb_xbxโ: ๊ฒฝ๊ณ ์์์ ์ค์ฌ x์ขํ
- bxb_xbxโ๋ ๊ทธ๋ฆฌ๋ ์ ์ ๊ธฐ์ค์ผ๋กํ ๊ฒฝ๊ณ ์์์ ์ค์ฌ์ x์ขํ๋ฅผ ๋ํ๋ ๋๋ค.
- ์ด๋ ์ด๋ฏธ์ง์ ๋๋น์ ์๋์ ์ผ๋ก ์์น๊ฐ ๊ฒฐ์ ๋๋ฉฐ, ํด๋น ์ ๋ด์ ๊ฐ์ฒด ์ค์ฌ ์ขํ๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
byb_ybyโ: ๊ฒฝ๊ณ ์์์ ์ค์ฌ y์ขํ
- byb_ybyโ๋ ๊ฒฝ๊ณ ์์์ ์ค์ฌ์ y์ขํ๋ฅผ ๋ํ๋ ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ด ๊ฐ์ ํด๋น ์ ๋ด์ ๊ฐ์ฒด ์ค์ฌ ์ขํ๋ก์, ์ด๋ฏธ์ง์ ๋์ด์ ๋ํ ์๋์ ์ธ ์์น๋ฅผ ์ ์ํฉ๋๋ค.
-
bhb_hbhโ: ๊ฒฝ๊ณ ์์์ ๋์ด
- bhb_hbhโ๋ ์์ธก๋ ๊ฒฝ๊ณ ์์์ ๋์ด๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ฒฝ๊ณ ์์๊ฐ ์ปค๋ฒํ๋ ๊ฐ์ฒด์ ๋์ด๋ฅผ ์ธก์ ํฉ๋๋ค. ์ด ๊ฐ์ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ํ ์๋์ ์ธ ๊ฐ์ผ๋ก ๊ฒฐ์ ๋ฉ๋๋ค.
-
bwb_wbwโ: ๊ฒฝ๊ณ ์์์ ๋๋น
- bwb_wbwโ๋ ๊ฒฝ๊ณ ์์์ ๋๋น๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ฒฝ๊ณ ์์๊ฐ ํฌํจํ๋ ๊ฐ์ฒด์ ๋๋น๋ฅผ ์ธก์ ํฉ๋๋ค. ์ด ๊ฐ ์ญ์ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ํ ์๋์ ์ธ ๊ฐ์ผ๋ก์, bhb_hbhโ์ ํจ๊ป ๊ฒฝ๊ณ ์์์ ํฌ๊ธฐ๋ฅผ ์ ์ํฉ๋๋ค.
5.2 YOLOv1์ ์ํคํ ์ฒ
YOLOv1์ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ๋ 24๊ฐ์ ํฉ์ฑ๊ณฑ(convolutional) ๊ณ์ธต๊ณผ 2๊ฐ์ ์์ ์ฐ๊ฒฐ(fully connected) ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. 24๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด์ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ํ๋ฉฐ, ๋ง์ง๋ง 2๊ฐ์ ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ํ์ง๋ ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ์ ํด๋์ค ํ๋ฅ ์ ์์ธกํ๋ ์ญํ ์ ํฉ๋๋ค. ๊ฐ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ Leaky ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๋ง์ง๋ง ์ธต์์๋ ์ ํ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๋ํ, ๋ชจ๋ธ์ ๊ฒฝ๋ํํ Fast YOLO ๋ฒ์ ๋ ํจ๊ป ๋์ ๋์๋๋ฐ, ์ด ๋ฒ์ ์ 9๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต๋ง์ ์ฌ์ฉํ์ฌ YOLOv1๋ณด๋ค ๋ ๋น ๋ฅธ ์๋๋ฅผ ์๋ํฉ๋๋ค.
5.3 YOLOv1์ ํ๋ จ ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ
- YOLOv1์ ์ฒซ 20๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ImageNet ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จ์ ์งํํ์ต๋๋ค.
- ๊ทธ๋ฆฌ๊ณ ๋๋จธ์ง 4๊ฐ์ ๊ณ์ธต์ ์ถ๊ฐํ์ฌ PASCAL VOC 2007 ๋ฐ 2012 ๋ฐ์ดํฐ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ์งํํ์ต๋๋ค.
-
ํ๋ จ ์ค์๋ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ ์์๋ก ํ๋ํ๊ฑฐ๋ ์ถ์ํ๊ณ , ์ด๋ฏธ์ง๋ฅผ ํ์ ์ํค๊ฑฐ๋ ๋ฐ๊ธฐ ๋ฐ ์์์ ๋ณํํ๋ ๋ค์ํ ๋ฐ์ดํฐ ์ฆ๊ฐ(data augmentation) ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ค์ํ ์ํฉ์์ ์ ๋์ํ ์ ์๋๋ก ํ๋ จ๋์์ต๋๋ค.
- Random scaling and translations: ์ด๋ฏธ์ง ํฌ๊ธฐ์ ์ต๋ 20%๊น์ง ๋ฌด์์๋ก ํ๋/์ถ์ ๋ฐ ์ด๋์ ์ ์ฉํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, 448x448 ํฌ๊ธฐ์ ์
๋ ฅ ์ด๋ฏธ์ง๋ผ๋ฉด:
- ์ค์ผ์ผ๋ง: 358x358 ~ 538x538 ์ฌ์ด์ ํฌ๊ธฐ๋ก ๋ฌด์์ ์กฐ์
- ์ด๋: ๊ฐ๋ก์ธ๋ก ๊ฐ๊ฐ -90 ~ +90 ํฝ์ ๋ฒ์ ๋ด์์ ๋ฌด์์ ์ด๋
- Random exposure and saturation: HSV, ์์(Hue), ์ฑ๋(Saturation), ๋ช
๋(Value) ์ ๊ณต๊ฐ์์ ๋
ธ์ถ(๋ฐ๊ธฐ)๊ณผ ์ฑ๋๋ฅผ ์กฐ์ ํ์ต๋๋ค. ์ต๋ 1.5๋ฐฐ๊น์ง ์ฆ๊ฐ์์ผฐ์ต๋๋ค.
- ์ฆ, ์๋ณธ ๊ฐ์ 1.0 ~ 1.5๋ฐฐ ์ฌ์ด์์ ๋ฌด์์๋ก ์กฐ์ ํ์ต๋๋ค.
- Random scaling and translations: ์ด๋ฏธ์ง ํฌ๊ธฐ์ ์ต๋ 20%๊น์ง ๋ฌด์์๋ก ํ๋/์ถ์ ๋ฐ ์ด๋์ ์ ์ฉํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, 448x448 ํฌ๊ธฐ์ ์
๋ ฅ ์ด๋ฏธ์ง๋ผ๋ฉด:
5.4 YOLOv1์ ์์ค ํจ์
YOLOv1์์ ์ฌ์ฉ๋ ์์ค ํจ์๋ ์ฌ๋ฌ ๊ฐ์ ์ ๊ณฑํฉ ์ค๋ฅ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ด๋ ์์ธก๋ ๊ฒฝ๊ณ ์์(bounding boxes)
์ ์ ํ์ฑ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ฮปcoord์ ฮปnoobj๋ YOLOv1์ ์์ค ํจ์์์ ์ฌ์ฉ๋๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก, ๋ชจ๋ธ์ ๋ค์ํ ์์ธก์ ๋ํ ์ค์์ฑ์ ์กฐ์ ํ๋ ์ญํ ์ ํฉ๋๋ค.
-
ฮปcoord (Coordinate Scale Factor):
ฮปcoord
๋ ๊ฒฝ๊ณ ์์(bounding box) ์์ธก์ ์ ํ์ฑ์ ๊ฐ์กฐํ๋ ์ค์ผ์ผ ํฉํฐ์ ๋๋ค. ๊ฐ์ด 5๋ก ์ค์ ๋์ด ์์ด, ๊ฒฝ๊ณ ์์ ์์น์ ํฌ๊ธฐ ์์ธก์ ์์ค์ด ์ ์ฒด ์์ค์ ๋ฏธ์น๋ ์ํฅ์ ์ฆ๊ฐ์ํต๋๋ค.- ์ฆ, ๋ชจ๋ธ์ด ๊ฐ์ฒด์ ์์น์ ํฌ๊ธฐ๋ฅผ ์ ํํ๊ฒ ์์ธกํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ ๋ฐ์ํฉ๋๋ค. ์ด ๊ฐ์ด ๋์์๋ก ๊ฒฝ๊ณ ์์ ์์ธก์ ์ค๋ฅ๊ฐ ๋ ํฐ ํจ๋ํฐ๋ฅผ ๋ฐ๊ฒ ๋์ด, ๋ชจ๋ธ์ด ์ด ๋ถ๋ถ์ ๋ ์ง์คํ๋๋ก ์ ๋ํฉ๋๋ค.
- ์๋ ๊ทธ๋ฆผ์ ๋ณด๋ฉด
Localization loss
์ ํ๋ผ๋ฏธํฐ๋ก ๊ณฑํด์ ธ์๋ ๊ฒ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค.
-
ฮปnoobj (No Object Scale Factor):
ฮปnoobj
๋ ๊ฐ์ฒด๊ฐ ์๋ ๊ฒฝ๊ณ ์์์ ๋ํ ์์ค์ ์ค์์ฑ์ ์ค์ด๋ ์ค์ผ์ผ ํฉํฐ์ ๋๋ค. ๊ฐ์ด 0.5๋ก ์ค์ ๋์ด ์์ด, ์ค์ ๋ก ๊ฐ์ฒด๊ฐ ์๋ ๊ณณ์์ ๊ฒฝ๊ณ ์์๋ฅผ ์์ธกํ ๋ ๋ฐ์ํ๋ ์์ค์ ์ํฅ์ด ์ค์ด๋ญ๋๋ค.- ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ๋ถํ์ํ ์์ธก์ ์ค์ด๊ณ , ์ค์ ๊ฐ์ฒด๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋ง ๋ ์ง์คํ๋๋ก ๋์ต๋๋ค.
- ์๋ ๊ทธ๋ฆผ์ ๋ณด๋ฉด
Confidence loss
์ ํ๋ผ๋ฏธํฐ๋ก ๊ณฑํด์ ธ์๋ ๊ฒ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค.
์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ์์ค ํจ์ ์ค๊ณ๋ YOLOv1์ด ๊ฐ์ฒด ํ์ง์์ ์ ํํ ์์ธก์ ํ ์ ์๋๋ก ๋๋๋ฐ, ํนํ ๊ฐ์ฒด๊ฐ ์๋ ๊ฒฝ๊ณ ์์์ ๋ํ ์์ธก์ ๋ ์ฃผ์ ๊น๊ฒ ๊ณ ๋ คํ๊ฒ ํฉ๋๋ค. ์ด๋ ์ ์ฒด์ ์ธ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋ ์ค์ํ ์์์ ๋๋ค.
5.5 YOLOv1์ ์ฅ์ ๊ณผ ํ๊ณ
YOLOv1์ ๊ฐ๋จํ ์ํคํ ์ฒ์ ๋น ๋ฅธ ์๋๋ฅผ ๋ฐํ์ผ๋ก ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ์ง๋ง, ๋ช ๊ฐ์ง ํ๊ณ์ ๋ ์กด์ฌํ์ต๋๋ค:
- ์ํ ๊ฐ์ฒด ํ์ง์ ์ด๋ ค์: YOLOv1์ ๊ฒฉ์ ๊ธฐ๋ฐ์ ํ์ง ๋ฐฉ์์ผ๋ก ์ธํด, ๋์ผํ ๊ฒฉ์ ๋ด์์ ์ฌ๋ฌ ๊ฐ์ฒด๊ฐ ์์ ๊ฒฝ์ฐ ์ ํํ๊ฒ ํ์งํ๊ธฐ ์ด๋ ต๋ค๋ ๋จ์ ์ด ์์์ต๋๋ค.
- ๋นํ์ค์ ์ธ ๊ฐ์ฒด ๋น์จ ํ์ง ๋ฌธ์ : ํ๋ จ ๋ฐ์ดํฐ์์ ๋ณธ ์ ์๋ ๋น์จ์ ๊ฐ์ง ๊ฐ์ฒด์ ๊ฒฝ์ฐ ํ์ง ์ฑ๋ฅ์ด ๋จ์ด์ก์ต๋๋ค.
- ๋ค์ด์ํ๋ง ๋ฌธ์ : YOLOv1์ ์ด๋ฏธ์ง์ ํด์๋๋ฅผ ๋ฎ์ถ์ด ํน์ง์ ์ถ์ถํ๋ ๊ณผ์ ์์, ๊ฐ์ฒด์ ์ธ๋ถ ์ ๋ณด๋ฅผ ๋์น๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค.
-
YOLOv2: Better, Faster, and Stronger (2017๋ )
YOLOv2
๋ 2016๋
Joseph Redmon๊ณผ Ali Farhadi๊ฐ ๋ฐํํ ๋ชจ๋ธ๋ก, YOLOv1์์ ์ฑ๋ฅ๊ณผ ์ ํ๋๋ฅผ ๊ฐ์ ํ์ฌ โ๋ ๋์(Better), ๋ ๋น ๋ฅธ(Faster), ๋ ๊ฐ๋ ฅํ(Stronger)โ ๊ฐ์ฒด ํ์ง ์์คํ
์ ๋ชฉํ๋ก ๊ฐ๋ฐ๋์์ต๋๋ค.
- Better : ์ ํ๋๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํ ๋ฐฉ๋ฒ
- Faster : detection ์๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํ ๋ฐฉ๋ฒ
- Stronger : ๋ ๋ง์ ๋ฒ์์ class๋ฅผ ์์ธกํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
YOLOv2๋ YOLOv1์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ณ ๋ค์ํ ์ต์ ํ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ ๋์ฑ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํ์ต๋๋ค. YOLOv2๋ ํนํ ๋ ๋ง์ ๊ฐ์ฒด๋ฅผ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ํ์งํ ์ ์๋๋ก ์ฌ๋ฌ ๊ฐ์ง ๊ฐ์ ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. (CVPR2017)
6.1 YOLOv2์ ์ฃผ์ ๊ฐ์ ์ฌํญ
-
๋ฐฐ์น ์ ๊ทํ(Batch Normalization) ๋์
- YOLOv2๋ ๋ชจ๋ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ๋ฐฐ์น ์ ๊ทํ(Batch Normalization)๋ฅผ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ์๋ ด ์๋๋ฅผ ๋์ด๊ณ ๊ณผ์ ํฉ(overfitting)์ ๋ฐฉ์งํ์ต๋๋ค.
- ๋ฐฐ์น ์ ๊ทํ๋ ํ๋ จ ๊ณผ์ ์์ ํ์ฑํ ๊ฐ์ ๋ถํฌ๋ฅผ ์์ ํ์์ผ, ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด ๊ธฐ๋ฒ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ 2%๊ฐ๋ ํฅ์์์ผฐ์ต๋๋ค.
๐ ๋ฐฐ์น ์ ๊ทํ(Batch Normalization)
๋ฐฐ์น ์ ๊ทํ(Batch Normalization)๋ 2015๋ Ioffe์ Szegedy๊ฐ ์๊ฐํ ๊ธฐ๋ฒ์ผ๋ก, ๋ฅ๋ฌ๋ ๋ชจ๋ธ, ํนํ CNN(Convolutional Neural Networks)์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ์ค์ํ ๊ธฐ์ ์ ๋๋ค.
๐ก ๋ฐฐ์น ์ ๊ทํ์ ๋ชฉ์
ํ์ต ์๋ ํฅ์
: ๋ ๋์ ํ์ต๋ฅ ์ ์ฌ์ฉํ ์ ์๊ฒ ํด์ค๋๋ค.๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐ์
: ๊ณผ์ ํฉ์ ์ค์ด๋ ๋ฐ ๋์์ ์ค๋๋ค.Internal Covariate Shift ๊ฐ์
: ๊ฐ ๋ ์ด์ด์ ์ ๋ ฅ ๋ถํฌ ๋ณํ๋ฅผ ์ค์ ๋๋ค.
โ๏ธ ์๋ ์๋ฆฌ
-
์ ๊ทํ: ๊ฐ ๋ฐฐ์น์ ํ์ฑํ ๊ฐ์ ๋ํด ํ๊ท (ฮผB\mu_BฮผBโ๋ ๋ฐฐ์น์ ํ๊ท )๊ณผ ๋ถ์ฐ(ฯB2\sigma_B^2ฯB2โ๋ ๋ฐฐ์น์ ๋ถ์ฐ)์ ๊ณ์ฐํ์ฌ ์ ๊ทํํฉ๋๋ค.
xnorm=xโฮผBฯB2+ฯตx_{norm} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}xnormโ=ฯB2โ+ฯตโxโฮผBโโ
-
์ค์ผ์ผ๋ง๊ณผ ์ด๋: ์ ๊ทํ๋ ๊ฐ์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ ฮณ\gammaฮณ(๊ฐ๋ง)์ ฮฒ\betaฮฒ(๋ฒ ํ)๋ฅผ ์ ์ฉํฉ๋๋ค.
y=ฮณxnorm+ฮฒy = \gamma x_{norm} + \betay=ฮณxnormโ+ฮฒ
-
๊ณ ํด์๋ ๋ถ๋ฅ๊ธฐ(Fine-tuned High-resolution Classifier)
- YOLOv1๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก YOLOv2๋ ImageNet ๋ฐ์ดํฐ์ ์์ ๋จผ์ 224ร224 ํด์๋์ ์ด๋ฏธ์ง๋ก ์ฌ์ ํ๋ จ(pretraining)์ ๊ฑฐ์ณค์ต๋๋ค.
- ์ดํ YOLOv2๋ ํด์๋๋ฅผ 448ร448๋ก ๋์ฌ 10 ์ํฌํฌ(epoch) ๋์ ์ถ๊ฐ ํ์ต์ ์งํํ์ฌ ๊ณ ํด์๋ ์ ๋ ฅ์ ๋ํ ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค.
- ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ด ๋์ ํด์๋์์ ๋ ๋์ ์์ธก์ ํ ์ ์๋๋ก ์ต์ ํ๋์์ต๋๋ค.
-
์์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ(Fully Convolutional Network)
- YOLOv2๋ ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ์ ๊ฑฐํ๊ณ ์์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ(Fully Convolutional Network, FCN)๋ฅผ ๋์ ํ์ฌ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๊ณ์ฐ ๋น์ฉ์ ์ค์์ต๋๋ค.
- ์ด๋ฅผ ํตํด YOLOv2๋ ๋ ๋น ๋ฅธ ์๋์ ๋ ์์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๋ฌ์ฑํ ์ ์์์ต๋๋ค.
- ์ต์ปค ๋ฐ์ค(Anchor Boxes) ๋์
- YOLOv2์์ ์ต์ปค ๋ฐ์ค(Anchor Boxes)๋ ๊ฐ์ฒด ๊ฐ์ง ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๊ธฐ ์ํด ๋์ ๋ ์ค์ํ ๊ฐ๋ ์ ๋๋ค.
- ์ต์ปค ๋ฐ์ค๋ ๋ชจ๋ธ์ด ํน์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ ๋ฐ ์์๋๋ ๊ฒฝ๊ณ ์์์ ๊ตฌ์กฐ ๋๋ ๋น์จ์ ๋ฏธ๋ฆฌ ์ ์ํ ๊ฒ์ ๋๋ค.
- ์ด ๋ฐฉ์์ Faster R-CNN๊ณผ ๊ฐ์ ๋ชจ๋ธ์์ ์ฒ์ ๋์ ๋์์ผ๋ฉฐ, ๋ค์ํ ํฌ๊ธฐ์ ๋น์จ์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์์ต๋๋ค.
์ต์ปค ๋ฐ์ค
๊ธฐ๋ณธ ์์ด๋์ด
: YOLOv2๋ ๋คํธ์ํฌ์ ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์ง์ ํฉ๋๋ค.
- ์ด๋ฌํ ์ต์ปค ๋ฐ์ค๋ ๋ฏธ๋ฆฌ ์ ์๋ ๋น์จ๊ณผ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ๋ค์ํ ๊ฐ์ฒด์ ํฌ๊ธฐ์ ํํ์ ๋ํ ์ฌ์ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค์์ฑ
: ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ์ฌ๋ฌ ๊ฐ์ ์ต์ปค ๋ฐ์ค๋ฅผ ๋ฐฐ์นํจ์ผ๋ก์จ, ๋ค์ํ ๋ชจ์๊ณผ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์์ธกํ ์ ์์ต๋๋ค. ์ด๋ ํนํ ์๋ก ๋ค๋ฅธ ๊ฐ์ฒด์ ํฌ๊ธฐ์ ๋น์จ์ด ํฐ ์ด๋ฏธ์ง์์ ์ ๋ฆฌํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ฌ๋์ด ์๋ ๊ฒฝ์ฐ์ ์๋์ฐจ๊ฐ ์๋ ๊ฒฝ์ฐ๋ ํํ๊ฐ ๋ค๋ฅด๋ฏ๋ก ์๋ก ๋ค๋ฅธ ๋น์จ์ ๊ฐ์ง ์ต์ปค ๋ฐ์ค๊ฐ ํ์ํฉ๋๋ค.
๐ Faster R-CNN์ ๊ณ ์ ๋ ์ต์ปค๋ฐ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Faster R-CNN์์๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋น์จ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฆ, ์ฌ์ ์ ์ ์๋ ํน์ ํฌ๊ธฐ์ ๋น์จ์ ๋ฐ์ค๋ฅผ ๋ค์ํ ์์น์ ์ ์ฉํ์ฌ ๊ฐ์ฒด๋ฅผ ํ์งํฉ๋๋ค.
- Faster R-CNN์ ๋ณดํต 3๊ฐ์ ํฌ๊ธฐ์ 3๊ฐ์ ๋น์จ์ ์กฐํฉํด 9๊ฐ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์์ฑํ๋ฉฐ, ์ด๋ ์ด๋ฏธ์ง๋ ๋ฐ์ดํฐ์ ์ ์๊ด์์ด ๊ณ ์ ๋ ๊ฐ์ ๋๋ค.
2:1
,1:1
,1:2
x 3, ์ด 9๊ฐ์ ์ต์ปค๋ฐ์ค ํ๋ณด๋ฅผ ์ฌ์ฉ
๐ Yolo-v2๋ ๋ฐ์ดํฐ์ ์ ๋ง์ถ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค.
YOLO v2์์๋ ๊ฐ ๊ฐ์ฒด์ ์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค ํฌ๊ธฐ์ ๋น์จ์ ๊ธฐ๋ฐ์ผ๋ก ํด๋ฌ์คํฐ๋ง์ ์ํํ์ฌ, K-ํ๊ท ํด๋ฌ์คํฐ๋ง์ ํตํด ๋ฐ์ดํฐ์ ์ ๋ง๋ ์ต์ ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ ํจ์จ์ ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, Pascal VOC์ ๊ฐ์ ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฒด๋ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค(GT, Ground Truth)๋ฅผ ๋ถ์ํ ํ, K-ํ๊ท ํด๋ฌ์คํฐ๋ง์ ์ ์ฉํ์ฌ 5๊ฐ์ ์ต์ ํ๋ ์ต์ปค ๋ฐ์ค๋ฅผ ์ ์ํฉ๋๋ค.
์ด ๊ณผ์ ์ ๋ฐ์ดํฐ์ ๋ง๋ค ๋ฌ๋ผ์ง ์ ์์ผ๋ฉฐ, ์ด๋ ๊ฒ ์ ์๋ ์ต์ปค ๋ฐ์ค๋ ํด๋น ๋ฐ์ดํฐ์ ์ ๋ง๋ ํฌ๊ธฐ์ ๋น์จ์ ๋ฐ์ํ์ฌ ๋ ๋์ ํ์ง ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- ์ฐจ์ ๊ตฐ์งํ(Dimensional Clustering)
์ฐจ์ ๊ตฐ์งํ
๋ YOLOv2์์ K-ํ๊ท ๊ตฐ์งํ(K-means clustering)๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์ ํํ๋ ๋ฐฉ์์ ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๊ฐ์ฒด ํ์ง์์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํฌ๊ธฐ์ ๋น์จ์ ๋ณด๋ค ์ ํํ๊ฒ ์์ธกํ ์ ์๋๋ก ๋์์ค๋๋ค.- ๊ณผ์ :
- ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ฐ์ด๋ฉ ๋ฐ์ค ๋ถ์: ๋ชจ๋ธ์ ํ๋ จํ ๋, ๊ฐ ๊ฐ์ฒด์ ์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ ๋ณด๋ฅผ ํ์ฉํฉ๋๋ค. ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๋๋น์ ๋์ด(w, h)๋ ํ๋ จ ๋ฐ์ดํฐ์ ์์ ์์ง๋ Ground Truth(GT) ์ ๋ณด์์ ์ป์ ์ ์์ต๋๋ค.
- K-ํ๊ท ๊ตฐ์งํ: YOLOv2๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํฌ๊ธฐ์ ๋น์จ์ ๋ฐ๋ผ K-ํ๊ท ๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ, ๊ฐ์ฅ ์์ฃผ ๋ํ๋๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํฌ๊ธฐ ๋ฐ ๋น์จ์ ๊ทธ๋ฃนํํฉ๋๋ค. ์ด ๊ตฐ์งํ ๊ณผ์ ์ ์ค์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ์ ๋ง๋ ์ต์ ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ์ต์ปค ๋ฐ์ค ์ ํ: ๊ตฐ์งํ ๊ฒฐ๊ณผ๋ก ๊ฐ ๊ตฐ์ง์ ์ค์ฌ(centroid)์ ๊ธฐ์ค์ผ๋ก ์ต์ปค ๋ฐ์ค๋ฅผ ์ ์ํฉ๋๋ค. YOLOv2์์๋ ์ผ๋ฐ์ ์ผ๋ก 5๊ฐ์ ์ต์ปค ๋ฐ์ค๊ฐ ์ต์ ์ ์ ํ์ผ๋ก ์๋ ค์ ธ ์์ผ๋ฉฐ, ์ด ์ต์ปค ๋ฐ์ค๋ ๋ชจ๋ธ์ด ๊ฐ์ฒด๋ฅผ ํ์งํ ๋ ์ด๊ธฐ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ์ง์ ์์น ์์ธก(Direct Location Prediction)
์ง์ ์์น ์์ธก
์ YOLOv2๊ฐ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ขํ๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ ๋๋ค. YOLOv2๋ ์ด์ ๋ชจ๋ธ์ธ Faster R-CNN๊ณผ ๋ฌ๋ฆฌ, ์คํ์ (offset) ๊ธฐ๋ฐ ์์ธก ๋์ ๊ฐ์ฒด์ ์ง์ ์ ์ธ ์์น๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ YOLO์ ์ฒ ํ์ ์ ์งํ๋ฉด์๋ ์์น ์์ธก์ ์ ํ๋๋ฅผ ๋์ธ ๋ฐฉ๋ฒ์ ๋๋ค.- ๊ณผ์ :
- YOLO์ ์ฒ ํ ์ ์ง: YOLO ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋ฆฌ๋ ์ ๋ก ๋๋๊ณ , ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ด ๊ฐ์ฒด์ ์กด์ฌ ์ฌ๋ถ์ ๊ฐ์ฒด์ ์์น ์ ๋ณด๋ฅผ ์์ธกํฉ๋๋ค. ์ด ๋, ๊ทธ๋ฆฌ๋ ์ ์์ ๊ฐ์ฒด์ ์ค์ฌ ์ขํ(X, Y)๋ฅผ ์ง์ ์์ธกํ๋ ๋ฐฉ์์ ๋๋ค.
- Sigmoid ํ์ฑํ ํจ์ ์ฌ์ฉ: ์์ธก๋ X, Y ์ขํ๋ ๊ฐ ๊ทธ๋ฆฌ๋ ์ ์ ๊ฒฝ๊ณ ๋ด์์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์ ํ๋ฉ๋๋ค. ์ด๋ฅผ ์ํด YOLOv2๋ Sigmoid ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํด ์ขํ ๊ฐ์ ๊ทธ๋ฆฌ๋ ์ ๊ฒฝ๊ณ ๋ด์ ์์น์ํค๋ ๋ฐฉ์์ ์ ์ฉํฉ๋๋ค.
- ๊ทธ๋ฆฌ๋ ์ ๋ด ์๋ ์ขํ ์์ธก: YOLOv2๋ ๊ทธ๋ฆฌ๋ ์ ์ ๊ธฐ์ค์ผ๋ก ์ขํ๋ฅผ ์์ธกํ๋ฏ๋ก, ์ขํ์ ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด ์๋์ ์ธ ์ขํ๋ฅผ ์์ธกํฉ๋๋ค. Faster R-CNN์์ ์ฌ์ฉํ๋ ์คํ์ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ถ์์ ํ ํ๋ จ์ ์ด๋ํ ์ ์์์ผ๋, YOLOv2์ ๋ฐฉ์์ ์์ ์ ์ธ ํ๋ จ์ ์ ๊ณตํฉ๋๋ค.
๐ ์๋ ๊ทธ๋ฆผ์ YOLOv2์์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์์น์ ํฌ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ์์ธกํ๋์ง๋ฅผ ์๊ฐ์ ์ผ๋ก ์ค๋ช ํ ๊ฒ์ผ๋ก, ๊ทธ๋ฆฌ๋ ์ ์ ๊ธฐ์ค์ผ๋ก ์์ธก๋ ์๋ ์ขํ๊ฐ ์ด๋ป๊ฒ ์ต์ข ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ฑํ๋์ง์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๊ณ์ฐ ๊ณผ์ ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ฐ์ด๋ฉ ๋ฐ์ค ์ค์ฌ: Sigmoid ํจ์๋ฅผ ํตํด ๊ทธ๋ฆฌ๋ ์ ๋ด์์ ์๋์ ์ธ ์ขํ๋ฅผ ์์ธกํ๊ณ , ๊ทธ ๊ฐ์ ๊ธฐ์ค ๊ทธ๋ฆฌ๋ ์ ์ขํ์ ๋ํด ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ฌ ์ขํ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ๋ฐ์ด๋ฉ ๋ฐ์ค ํฌ๊ธฐ: ๋ฏธ๋ฆฌ ์ ์๋ ์ต์ปค ๋ฐ์ค ํฌ๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ง์ ํจ์๋ฅผ ํตํด ์์ธก๋ ์ค์ผ์ผ ๊ฐ์ ๋ฐ์ํ์ฌ ์ต์ข ๋๋น์ ๋์ด๋ฅผ ๊ณ์ฐํฉ๋๋ค.
์ต์ปค ๋ฐ์ค: ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ด๊ธฐ ํฌ๊ธฐ๋ฅผ ์ ๊ณตํ๋ฉฐ, YOLOv2์์๋ ๋ฐ์ดํฐ์ ์ ํด๋ฌ์คํฐ๋ง์ ํตํด ์ฌ์ ์ ์๋ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค.
-
๋ ์ธ๋ฐํ ํน์ง(Finer-grained Features)
- YOLOv2๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๋ฅผ 416ร416์ผ๋ก ์ค์ ํ๊ณ , ํ ๊ณ์ธต์ ํ๋ง(pooling)์ ์ ๊ฑฐํจ์ผ๋ก์จ ๋ ํฐ ์ถ๋ ฅ ๊ทธ๋ฆฌ๋๋ฅผ ์์ฑํ์ฌ ๋ ์ธ๋ฐํ ํน์ง์ ์ถ์ถํ ์ ์์์ต๋๋ค. ๋ํ, ํจ์คํธ์ค๋ฃจ ๋ ์ด์ด(Passthrough Layer)๋ฅผ ๋์ ํ์ฌ ๋ฎ์ ํด์๋์ ํน์ง ๋งต์ ๊ณ ํด์๋์ ํน์ง ๋งต๊ณผ ์ฐ๊ฒฐํจ์ผ๋ก์จ ์์ ๊ฐ์ฒด์ ๋ํ ํ์ง ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
-
๋ค์ค ์ค์ผ์ผ ํ์ต(Multi-scale Training)
- YOLOv2๋ ๋ค์ํ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ ์ ์๋๋ก ๋ค์ค ์ค์ผ์ผ ํ์ต ๊ธฐ๋ฒ์ ๋์ ํ์ต๋๋ค. ํ๋ จ ๊ณผ์ ์์ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ 320ร320์์ 608ร608๊น์ง ๋ฌด์์๋ก ๋ณ๊ฒฝํ์ฌ ๋ชจ๋ธ์ด ๋ค์ํ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ๊ณ , ๋ค์ํ ํด์๋์์๋ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ํ์ต๋๋ค.
6.2 YOLO9000: ๋ ๋ง์ ๊ฐ์ฒด ํ์ง
YOLOv2์ ํจ๊ป ๋ฐํ๋ YOLO9000์ ๋ชจ๋ธ์ด ๋จ์ผ ํ๋ จ ๊ณผ์ ์์ ๊ฐ์ฒด ํ์ง์ ๋ถ๋ฅ ์์ ์ ๋์์ ํ์ตํ ์ ์๋๋ก ์ค๊ณ๋ ๋ชจ๋ธ์ ๋๋ค.
- YOLO9000์ COCO ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฒด ํ์ง ์์ ์, ImageNet ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฒด ๋ถ๋ฅ ์์ ์ ํ์ตํจ์ผ๋ก์จ ๋ ๋ง์ ๊ฐ์ฒด ํด๋์ค์ ๋ํ ํ์ง๊ฐ ๊ฐ๋ฅํด์ก์ต๋๋ค.
- YOLO9000์ 9000๊ฐ ์ด์์ ๊ฐ์ฒด ํด๋์ค์ ๋ํ ํ์ง ์ฑ๋ฅ์ ์๋ํ์ผ๋ฉฐ, ์ด๋ YOLOv2์ ํ์ฅ๋ ๋ฒ์ ์ผ๋ก ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
YOLOv3 (2018๋ )
YOLOv3
๋ 2018๋
์ Joseph Redmon๊ณผ Ali Farhadi์ ์ํด ๋ฐํ๋ ๋ชจ๋ธ๋ก, YOLOv2์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ ๊ฐ์ฒด ํ์ง์ ์ ํ๋๋ฅผ ๋์ด๋ ๋ฐ ์ค์ ์ ๋ ๋ฒ์ ์
๋๋ค.
- YOLOv3๋ ๋ ํฐ ๋คํธ์ํฌ ์ํคํ ์ฒ์ ํฅ์๋ ๊ธฐ๋ฅ์ ๋์ ํ์ฌ, ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํ์งํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ๋ํ, ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๋ณต์กํ ์ฅ๋ฉด์์์ ํ์ง ๋ฅ๋ ฅ์ ๊ฐํํ์์ต๋๋ค.
7.1 YOLOv3์ ์ฃผ์ ๊ฐ์ ์ฌํญ
- ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก์ ๊ฐ์
- YOLO-V3๋ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํด ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ขํ๋ฅผ ์์ธกํฉ๋๋ค.
- ๊ฐ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ bxb_xbxโ(X์ขํ), byb_ybyโ(Y์ขํ), bwb_wbwโ(ํญ), tht_hthโ(๋์ด), ๊ฐ์ฒด์ฑ ์ ์ (ํด๋น ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ฐ์ฒด๊ฐ ์์ ํ๋ฅ )์ ํด๋์ค ํ๋ฅ (ํด๋น ๋ฐ์ด๋ฉ ๋ฐ์ค์์ ํ์ธ๋ ๊ฐ์ฒด์ ํด๋์ค)์ ์์ธกํฉ๋๋ค.
- ์ด ๊ฐ๋ค์ ๋คํธ์ํฌ์์ ์์ธก๋ ๋ณํ(txt_xtxโ, tyt_ytyโ)์ ์ฌ์ ์ ์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ฐจ์(pwp_wpwโ, php_hphโ)์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค. (์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ )
- YOLOv3๋ ์ด์ YOLOv2์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๊ธฐ ์ํด 4๊ฐ์ ์ขํ ๊ฐ์ ์ฌ์ฉํ์ง๋ง, ๊ฐ์ฒด์ฑ ์ ์๋ผ๋ ์๋ก์ด ๊ฐ๋ ์ ๋์ ํ์ต๋๋ค.
- ๊ฐ์ฒด์ฑ ์ ์(objectness score)๋ YOLOv3์ ๊ฐ์ ๊ฐ์ฒด ๊ฐ์ง ๋ชจ๋ธ์์ ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ์ค์ ๊ฐ์ฒด๋ฅผ ํฌํจํ ํ๋ฅ ์ ๋ํ๋ด๋ ๊ฐ์ ๋๋ค. ์ด ์ ์๋ ํน์ ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ๊ฐ์ฒด๋ฅผ ํฌํจํ๊ณ ์๋์ง๋ฅผ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- YOLO-V3๋ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํด ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ขํ๋ฅผ ์์ธกํฉ๋๋ค.
-
ํด๋์ค ์์ธก์ ๊ฐ์
- YOLOv3๋ ํด๋์ค ์์ธก์์ ์ํํธ๋งฅ์ค(Softmax) ๋์ ์ด์ง ๊ต์ฐจ ์ํธ๋กํผ(Binary Cross-Entropy) ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํด๋์ค์ ๋ํ ๋ ๋ฆฝ์ ์ธ ๋ก์ง์คํฑ ํ๊ท ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์์ผฐ์ต๋๋ค.
- ๊ตฌ์ฒด์ ์ผ๋ก ๋งํ์๋ฉด, YOLOv3๋ ๊ฐ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๋ํด ๊ฐ์ฒด์ ์กด์ฌ ํ๋ฅ ์ ์ถ๋ ฅํ๋๋ฐ, ์ด ํ๋ฅ ์ ๋ก์ง์คํฑ ํ๊ท๋ฅผ ํตํด ๊ณ์ฐ๋ฉ๋๋ค.
- ์ด ๋ฐฉ์์ ๊ฐ์ฒด๊ฐ ์ฌ๋ฌ ๊ฐ์ ํด๋์ค๋ฅผ ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ(์: โ์ฌ๋โ์ด์ โ๋จ์โ์ธ ๊ฐ์ฒด)๋ฅผ ๋ ์ ์ฐํ๊ฒ ํ์งํ ์ ์๋๋ก ํด์ฃผ์์ต๋๋ค.
-
์๋ก์ด ๋ฐฑ๋ณธ ๋คํธ์ํฌ: Darknet-53
- YOLOv3๋ ํน์ง ์ถ์ถ์ ์ํด ๋ ํฐ ๋ฐฑ๋ณธ ๋คํธ์ํฌ์ธ Darknet-53์ ๋์ ํ์ต๋๋ค.
- ์ด ๋คํธ์ํฌ๋ ์ด 53๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์์ฐจ ์ฐ๊ฒฐ(residual connections)์ ๋์ ํ์ฌ ํ์ต์ด ๋ ์ ์งํ๋ ์ ์๋๋ก ํ์ต๋๋ค.
- ์์ฐจ ๋ธ๋ก๊ณผ Leaky ReLU ํ์ฑํ ํจ์๊ฐ ์ฌ์ฉ๋๋ฉฐ, ์์ธก์ ๋ชจ๋ ํฉ์ฑ๊ณฑ(convolutional) ๋ ์ด์ด๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
- ํ๋ง ๋ ์ด์ด ๋์ Stride 2๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ด์ํ๋ง์ ์งํํ์ฌ, ์ ๋ณด ์์ค์ ์ค์ด๊ณ ์ ํ์ต๋๋ค.
- Darknet-53์ ResNet-152์ ์ ์ฌํ ์ ํ๋๋ฅผ ๊ฐ์ง๋ฉด์๋ ๋ ๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณตํ๋ ํจ์จ์ ์ธ ๋คํธ์ํฌ์ ๋๋ค.
- ๋ค์ค ์ค์ผ์ผ ์์ธก(Multi-Scale Predictions)
- YOLOv3์ ๊ฐ์ฅ ์ค์ํ ๊ฐ์ ์ค ํ๋๋ ๋ค์ค ์ค์ผ์ผ ์์ธก ๊ธฐ๋ฅ์
๋๋ค. YOLOv3๋ ํ ๊ฐ์ง ํด์๋์์๋ง ํ์ง๋ฅผ ์ํํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ํด์๋์์ ํ์ง ์์
์ ์ํํจ์ผ๋ก์จ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ํ์งํ ์ ์์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, YOLOv3๋
13ร13
,26ร26
,52ร52
์ ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ์ ๊ทธ๋ฆฌ๋์์ ํ์ง๋ฅผ ์ํํ์ฌ, ์์ ๊ฐ์ฒด๋ถํฐ ํฐ ๊ฐ์ฒด๊น์ง ๋ชจ๋ ํ์งํ ์ ์์์ต๋๋ค. ์ด๋ฌํ ๋ค์ค ์ค์ผ์ผ ์์ธก์ ํนํ ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐ ํจ๊ณผ์ ์ด์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, YOLOv3๋
- YOLOv3์ ๊ฐ์ฅ ์ค์ํ ๊ฐ์ ์ค ํ๋๋ ๋ค์ค ์ค์ผ์ผ ์์ธก ๊ธฐ๋ฅ์
๋๋ค. YOLOv3๋ ํ ๊ฐ์ง ํด์๋์์๋ง ํ์ง๋ฅผ ์ํํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ํด์๋์์ ํ์ง ์์
์ ์ํํจ์ผ๋ก์จ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ํ์งํ ์ ์์์ต๋๋ค.
- ๊ณต๊ฐ ํผ๋ผ๋ฏธ๋ ํ๋ง(Spatial Pyramid Pooling, SPP)
- ํด๋น ๋ ผ๋ฌธ์์๋ ์ง์ ์ ์ธ ์ธ๊ธ์ ์์ง๋ง โPredicting financial distress and corporate failure: A review from the state-of-the-art definitions, modeling, sampling, and featuring approachesโ ๋ ผ๋ฌธ์์๋ YOLO-v3์ Spatial pyramid pooling (SPP)๊ธฐ๋ฒ์ ํ์ฉํ SPPBlock์ ์ถ๊ฐํ๋ ค๋ ์๋๊ฐ ์์์ต๋๋ค.
- YOLOv3์ SPP(Spatial Pyramid Pooling) ๊ธฐ๋ฒ์ ์ถ๊ฐํ์ฌ, ๋ค์ํ ํฌ๊ธฐ์ ๋งฅ์ค ํ๋ง ์ฐ์ฐ์ ํตํด ๊ฐ์ฒด์ ์์น์ ํฌ๊ธฐ์ ๋ํ ๋ ๋์ ์์ฉ ์์ญ์ ์ ๊ณตํ์ต๋๋ค. ์ด๋ ๋ณด๋ค ์ ํํ ํ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ์์ผ๋ฉฐ, ํนํ ํฐ ๊ฐ์ฒด์ ๋ํ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
๐ Spatial Pyramid Pooling(SPP)
๋ค์ํ ํฌ๊ธฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ๋ก ๋ณํํ์ง ์๊ณ ๋ ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ฃผ๋ ๊ธฐ๋ฒ์ ๋๋ค. SPP๋ ํนํ ๋ค์ํ ์ค์ผ์ผ์์ ์ถ์ถ๋ ํผ์ฒ๋ฅผ ๋ณํฉํ์ฌ ๋คํธ์ํฌ๊ฐ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
- ๋ค์ํ ์ค์ผ์ผ์ ํผ์ฒ๋งต: SPP๋ ์ด๋ฏธ์ง์์ ๋ค์ํ ์ค์ผ์ผ๋ก ํผ์ฒ๋งต์ ์ถ์ถํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง๋ฅผ 1x1, 2x2, 4x4 ํฌ๊ธฐ์ ํ๋ง ์๋์ฐ๋ก ๋๋์ด ๊ฐ๊ฐ ํ๋ง์ ์ํํ๊ฒ ๋๋ฉด, ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ์๊ด์์ด ๋ค์ํ ํฌ๊ธฐ์ ํผ์ฒ๋งต์ ์ป์ ์ ์์ต๋๋ค.
- ์์ ์๋์ฐ๋ ์ธ๋ฐํ ์ ๋ณด๋ฅผ, ํฐ ์๋์ฐ๋ ์ ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ๋ด์๋ ๋๋ค.
- SPP ๊ตฌ์กฐ: ์ด๋ฏธ์ง๊ฐ ๋ค์ํ ํฌ๊ธฐ์ ์์ญ์ผ๋ก ๋๋๊ณ , ๊ฐ ์์ญ์์ ๋งฅ์ค ํ๋ง(Max Pooling)์ด ์ํ๋ฉ๋๋ค. ์ด๋ ๊ฒ ๋ค์ํ ์ค์ผ์ผ๋ก ์ป์ด์ง ํผ์ฒ๋งต์ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ถ๋ ฅ์ผ๋ก ๋ณํ๋์ด ๋คํธ์ํฌ์ ์ดํ ๋จ๊ณ์์ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ ๋ ฅ ํฌ๊ธฐ ์ ์ฝ ์ ๊ฑฐ: ์ผ๋ฐ์ ์ธ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ๊ฐ ๊ณ ์ ๋์ด ์์ด์ผ ํ๋๋ฐ, SPP๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํ ํ์ ์์ด, ๋ค์ํ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ๋คํธ์ํฌ์ ์ ๋ ฅํ ์ ์์ต๋๋ค. ์ด๋ SPP๊ฐ ๋ค์ํ ์ค์ผ์ผ์ ์ ๋ณด๋ฅผ ํตํฉํด ์ฃผ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ณ ์ ๋ ๊ธธ์ด์ ํผ์ฒ ๋ฒกํฐ ์์ฑ: SPP๋ ๋ค์ํ ํฌ๊ธฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ณ ์ ๋ ํฌ๊ธฐ์ ํผ์ฒ ๋ฒกํฐ๋ฅผ ์์ฑํ์ฌ, ํ์ ์์ ์ฐ๊ฒฐ ์ธต(Fully Connected Layers)์์ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค. ์ด๋ก ์ธํด ๋คํธ์ํฌ์ ์ ์ฐ์ฑ์ด ์ฆ๊ฐํ๋ฉฐ, ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
(์ฐธ๊ณ ) Object Detection ์ ํ
- ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๋ ๊ฐ์ง ์ ํ์ผ๋ก ํฌ๊ฒ ๋๋ฉ๋๋ค:
- ์ฑ๊ธ ์คํ ์ด์ง(single-stage) ๊ฐ์ฒด ํ์ง๊ธฐ
- ํฌ ์คํ ์ด์ง(two-stage) ๊ฐ์ฒด ํ์ง๊ธฐ.
์ด ๋ ๊ฐ์ง ๋ฐฉ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ๊ณผ ์๋, ์ ํ์ฑ ์ธก๋ฉด์์ ์ค์ํ ์ฐจ์ด๋ฅผ ๋ณด์ ๋๋ค.
1. ์ฑ๊ธ ์คํ ์ด์ง(Single-stage) ๊ฐ์ฒด ํ์ง๊ธฐ
-
์ฑ๊ธ ์คํ ์ด์ง ๊ฐ์ฒด ํ์ง๊ธฐ๋ ํ ๋จ๊ณ์์ ๊ฐ์ฒด์ ์์น(๋ฐ์ด๋ฉ ๋ฐ์ค)์ ํด๋์ค ์ ๋ณด๋ฅผ ๋์์ ์์ธกํฉ๋๋ค.
- ๋ํ์ ์ธ ์ฑ๊ธ ์คํ ์ด์ง ๋ชจ๋ธ๋ก๋ YOLO(You Only Look Once), SSD(Single Shot MultiBox Detector) ๋ฑ์ด ์์ต๋๋ค.
-
์ฃผ์ ํน์ง:
- ์๋๊ฐ ๋น ๋ฆ: ํ ๋ฒ์ ์์ธก ๊ณผ์ ์์ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๋น ๋ฅด๋ฉฐ, ์ค์๊ฐ ํ์ง๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ํนํ YOLO๋ ์ด ์๋ ๋๋ฌธ์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค.
- ๋จ์ผ ๋คํธ์ํฌ: ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋จ์ผ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ํต๊ณผ์์ผ ๊ฐ์ฒด์ ์์น์ ํด๋์ค ์ ๋ณด๋ฅผ ์์ธกํฉ๋๋ค.
- ๋ฐ์ง ์์ธก(Dense Prediction): ์ด๋ฏธ์ง์ ๊ฐ ์์ญ์ ๊ทธ๋ฆฌ๋ ์
๋ก ๋๋๊ณ , ๊ฐ ์
์์ ๊ฐ์ฒด์ ์กด์ฌ ์ฌ๋ถ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํฉ๋๋ค.
- ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๊ทธ๋ฆฌ๋๋ก ๋๋์ด ๋ชจ๋ ๊ทธ๋ฆฌ๋ ์ ์ด ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๊ฐ๊ฒ ๋ฉ๋๋ค.
- ๋จ์ผ ๋จ๊ณ ์์ธก(One-step Prediction): ๋ฐฑ๋ณธ ๋คํธ์ํฌ๋ฅผ ํตํด ์ถ์ถํ ํผ์ฒ๋งต์์ ๋ฐ๋ก ๊ฐ์ฒด ์์น์ ํด๋์ค ์์ธก์ด ์ด๋ฃจ์ด์ง๋๋ค. ์ด ๊ณผ์ ์์ ๋ฆฌ์ ์ ์(region proposals)์ด๋ ํ์ ๋จ๊ณ๊ฐ ํ์ ์์ต๋๋ค.
-
์ฅ์ :
- ์ค์๊ฐ ์ฒ๋ฆฌ: ๋งค์ฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ์์จ ์ฃผํ, CCTV ๋ชจ๋ํฐ๋ง ๊ฐ์ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ํฉํฉ๋๋ค.
- ๋จ์ํ ์ํคํ ์ฒ: ๋คํธ์ํฌ๊ฐ ๋จ์ํ๋ฉฐ, ํ์ต์ด ๋น ๋ฆ ๋๋ค.
-
๋จ์ :
- ์ ํ๋ ๋ฎ์: ํฌ ์คํ ์ด์ง ๋ฐฉ์์ ๋นํด ๊ฐ์ฒด ํ์ง์ ์ ํ๋๊ฐ ๋ค์ ๋ฎ์ ์ ์์ต๋๋ค. ํนํ ์์ ๊ฐ์ฒด๋ ๋ณต์กํ ๋ฐฐ๊ฒฝ์์์ ํ์ง๊ฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
2. ํฌ ์คํ ์ด์ง(Two-stage) ๊ฐ์ฒด ํ์ง๊ธฐ
-
ํฌ ์คํ ์ด์ง ๊ฐ์ฒด ํ์ง๊ธฐ๋ ๊ฐ์ฒด ํ์ง๋ฅผ ๋ ๋จ๊ณ๋ก ๋๋์ด ์ฒ๋ฆฌํฉ๋๋ค.
- ๋ํ์ ์ธ ํฌ ์คํ ์ด์ง ๋ชจ๋ธ๋ก๋ Faster R-CNN๊ณผ R-CNN ๊ณ์ด์ด ์์ต๋๋ค.
-
์ฃผ์ ํน์ง:
- 1๋จ๊ณ - ๋ฆฌ์ ์ ์(Region Proposal): ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ๊ฐ์ฒด๊ฐ ์์ ๋งํ ์์น๋ฅผ ์ ์ํ๋ ์์ญ(๋ฆฌ์ )์ ์์ฑํฉ๋๋ค. ์ด ๊ณผ์ ์์๋ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๊ฐ ์์ ๊ฐ๋ฅ์ฑ์ด ๋์ ํ๋ณด ์์ญ์ ์ฐพ์ต๋๋ค.
- 2๋จ๊ณ - ํด๋์ค ์์ธก(Classification) ๋ฐ ๋ฐ์ค ์กฐ์ (Bounding Box Regression): ๋ ๋ฒ์งธ ๋จ๊ณ์์ ์ ์๋ ์์ญ์ ๋ฐํ์ผ๋ก ๊ฐ์ฒด์ ์ ํํ ์์น(๋ฐ์ด๋ฉ ๋ฐ์ค)๋ฅผ ์์ธกํ๊ณ , ํด๋น ๊ฐ์ฒด๊ฐ ์ด๋ค ํด๋์ค์ธ์ง ๋ถ๋ฅํฉ๋๋ค.
- ์ด ๊ณผ์ ์์ RoI Pooling(Region of Interest Pooling)๊ณผ ๊ฐ์ ๊ธฐ๋ฒ์ ํตํด ์ ์๋ ์์ญ์์ ๊ณ ์ ๋ ํฌ๊ธฐ์ ํผ์ฒ๋งต์ ์ถ์ถํ๊ณ , ์ด ํผ์ฒ๋งต์ ํ์ฉํด ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ๊ณ ์์น๋ฅผ ์ ํํ ์์ธกํฉ๋๋ค.
-
์ฅ์ :
- ๋์ ์ ํ๋: ๋ ๋จ๊ณ๋ก ๋๋์ด ํ์ง๋ฅผ ์ํํ๋ฏ๋ก, ์์ ๊ฐ์ฒด๋ ๋ณต์กํ ๋ฐฐ๊ฒฝ์์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์์ต๋๋ค.
- ์ธ๋ฐํ ํ์ง: ๋ฆฌ์ ์ ์ ๋จ๊ณ์์ ๊ฐ์ฒด์ ์์น๋ฅผ ๋ ์ ํํ๊ฒ ์ขํ ์ ์์ด, ์ต์ข ์ ์ผ๋ก ๋ ์ ๊ตํ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ป์ ์ ์์ต๋๋ค.
-
๋จ์ :
- ์๋๊ฐ ๋๋ฆผ: ๋ฆฌ์ ์ ์๊ณผ ๋ถ๋ฅ ๋จ๊ณ๊ฐ ๋ถ๋ฆฌ๋์ด ์์ด, ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์๋ ์ ํฉํ์ง ์์ต๋๋ค.
- ๋ณต์กํ ์ํคํ ์ฒ: ๋คํธ์ํฌ๊ฐ ๋ณต์กํ๋ฉฐ, ํ๋ จ๊ณผ ์ถ๋ก ์๋๊ฐ ๋๋ฆด ์ ์์ต๋๋ค.
(์ ๋ฆฌ) ์ฑ๊ธ ์คํ ์ด์ง์ ํฌ ์คํ ์ด์ง ๋ชจ๋ธ ๋น๊ต
ํน์ง | ์ฑ๊ธ ์คํ ์ด์ง | ํฌ ์คํ ์ด์ง |
---|---|---|
์์ ๋ชจ๋ธ | YOLO, SSD | Faster R-CNN, Mask R-CNN |
์๋ | ๋งค์ฐ ๋น ๋ฆ (์ค์๊ฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ) | ๋น๊ต์ ๋๋ฆผ (์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ถ์ ํฉ) |
์ ํ๋ | ์๋์ ์ผ๋ก ๋ฎ์ | ๋์ ์ ํ๋ |
๋จ๊ณ ์ | 1๋จ๊ณ๋ก ๊ฐ์ฒด ํ์ง ๋ฐ ๋ถ๋ฅ๋ฅผ ๋์์ ์ํ | 2๋จ๊ณ๋ก ๋ฆฌ์ ์ ์ ํ ๋ถ๋ฅ ๋ฐ ๋ฐ์ด๋ฉ ๋ฐ์ค |
๊ตฌ์กฐ | ๋จ์ | ๋ณต์ก |
์ฉ๋ | ์ค์๊ฐ ๊ฐ์ฒด ํ์ง(์: ์์จ ์ฃผํ, ๋ณด์) | ์ธ๋ฐํ ๊ฐ์ฒด ํ์ง(์: ์๋ฃ ์ด๋ฏธ์ง ๋ถ์) |
-
Backbone, Neck, and Head
YOLO ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ดํดํ๊ธฐ ์ํด์๋ ๊ฐ์ฒด ํ์ง์์ ์ฌ์ฉํ๋ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ด์ผ ํ๋ฉฐ, ์ด๋ ํฌ๊ฒ Backbone(๋ฐฑ๋ณธ), Neck(๋ฅ), Head(ํค๋)๋ก ๋๋ฉ๋๋ค.
- ์ด ๊ตฌ์กฐ๋ YOLO๋ฟ๋ง ์๋๋ผ ์ฑ๊ธ ์คํ ์ด์ง ๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ์์ ๊ณตํต์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋ถ๋ถ์ ๋๋ค.
- ์ด ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ ๊ฐ๊ธฐ ๋ค๋ฅธ ์ญํ ์ ์ํํ๋ฉฐ, ํจ๊ป ์๋ํ์ฌ ์ต์ข ์ ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ ์์น๋ฅผ ์์ธกํฉ๋๋ค.
Backbone
, Neck
, Head
์ ๊ฐ ๊ตฌ์ฑ ์์๋ ์๋ก ์ํธ์์ฉํ๋ฉฐ ์ ์ฒด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
- Backbone์ ์ด๋ฏธ์ง์์ ์ ์ฉํ ํน์ง์ ์ถ์ถํ๊ณ ,
- Neck์ ์ด๋ฅผ ๋ณด๊ฐํ์ฌ ๋ค์ค ์ค์ผ์ผ์ ๊ฐ์ฒด์ ๋ํด ํ์ตํ ์ ์๊ฒ ํ๋ฉฐ,
- Head๋ ๊ฐ์ฒด์ ์์น์ ํด๋์ค๋ฅผ ์์ธกํ์ฌ ์ต์ข ์ ์ธ ํ์ง๋ฅผ ์ํํฉ๋๋ค.
8.1 Backbone(๋ฐฑ๋ณธ)
Backbone(๋ฐฑ๋ณธ)์ YOLO์ ๊ฐ์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฒซ ๋ฒ์งธ ๋ถ๋ถ์ผ๋ก, ์ ๋ ฅ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ํฉ๋๋ค. ๋ฐฑ๋ณธ์ ์ฃผ๋ก ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ค์ํ ํฌ๊ธฐ์ ํน์ง ๋งต์ ์์ฑํ์ฌ ์ด๋ฏธ์ง์ ์ ๋ณด๋ค์ ์ถ์ถํฉ๋๋ค.
- YOLOv1์ Backbone: ์ด๊ธฐ YOLOv1์์๋ ๊ฐ๋จํ CNN ๊ตฌ์กฐ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค. ํ์ง๋ง ๋คํธ์ํฌ๊ฐ ์๋์ ์ผ๋ก ์๊ณ ๋จ์ํ๊ธฐ ๋๋ฌธ์ ๋ณต์กํ ์ฅ๋ฉด์ด๋ ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐ ํ๊ณ๊ฐ ์์์ต๋๋ค.
- Darknet Backbone: YOLOv2์ YOLOv3๋ ํน์ง ์ถ์ถ์ ์ํด Darknet์ด๋ผ๋ ๋ฐฑ๋ณธ ๋คํธ์ํฌ๋ฅผ ๋์ ํ์ต๋๋ค. ํนํ YOLOv3์์๋ Darknet-53์ด ์ฌ์ฉ๋์์ผ๋ฉฐ, ์ด ๋คํธ์ํฌ๋ ์์ฐจ ์ฐ๊ฒฐ(residual connections)์ ์ฌ์ฉํ์ฌ ๊น์ ๊ณ์ธต์์๋ ํ์ต์ด ์ ์ด๋ฃจ์ด์ง๋๋ก ์ค๊ณ๋์์ต๋๋ค. Darknet-53์ 53๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ์ฌ์ฉํ์ฌ ๋งค์ฐ ๊ฐ๋ ฅํ ํน์ง ์ถ์ถ ๋ฅ๋ ฅ์ ์ ๊ณตํ๋ฉฐ, ์ด๋ฏธ์ง์ ๋ค์ํ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค.
8.2 Neck(๋ฅ)
Neck(๋ฅ)์ Backbone์์ ์ถ์ถ๋ ํน์ง์ Head๋ก ์ ๋ฌํ๋ ์ค๊ฐ ์ญํ ์ ํ๋ ๋ถ๋ถ์ ๋๋ค. Neck์ ํน์ง์ ๊ณต๊ฐ์ ๋ฐ ์๋ฏธ์ ์ ๋ณด๋ฅผ ๋ณด๊ฐํ๊ณ ๊ฒฐํฉํ์ฌ, ๋ค์ํ ํฌ๊ธฐ์ ํํ์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํ์งํ ์ ์๋๋ก ๋์์ค๋๋ค. ์ฃผ๋ก Feature Pyramid Networks (FPN) ๋๋ Path Aggregation Networks (PAN) ๊ฐ์ ๊ตฌ์กฐ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- Feature Pyramid Networks (FPN): FPN์ ์ฌ๋ฌ ํด์๋์ ํน์ง ๋งต์ ๊ฒฐํฉํ์ฌ, ๊ฐ์ฒด์ ํฌ๊ธฐ์ ์๊ด์์ด ๋ ์ ํํ ํ์ง๊ฐ ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค. FPN์ ํนํ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๊ฐ ํผ์ฌํ ์ด๋ฏธ์ง์์ ๋งค์ฐ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค.
8.3 Head(ํค๋)
Head(ํค๋)๋ ์ต์ข ์ ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ , ๊ฐ์ฒด์ ํด๋์ค์ ์์น๋ฅผ ์์ธกํ๋ ๋ถ๋ถ์ ๋๋ค. Head๋ ๊ฐ ํน์ง ๋งต์์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ(x, y, w, h)์ ๊ฐ์ฒด์ฑ(objectness) ์ ์, ํด๋์ค ํ๋ฅ ์ ์์ธกํฉ๋๋ค. ์ด๋ ๋น์ต๋ ์ต์ (Non-Maximum Suppression, NMS)์ ๊ฐ์ ํ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฒน์น๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ค ๊ฐ์ฅ ๋์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง ๋ฐ์ค๋ง ๋จ๊ธฐ๊ฒ ๋ฉ๋๋ค.
- YOLOv3์ Head: YOLOv3๋ ๋ค์ค ์ค์ผ์ผ ์์ธก์ ์ฌ์ฉํ์ฌ 13ร13, 26ร26, 52ร52 ํฌ๊ธฐ์ ๊ทธ๋ฆฌ๋์์ ๊ฐ๊ฐ ๋ค๋ฅธ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์์ธกํ ์ ์์์ต๋๋ค. ์ด๋ฅผ ํตํด ํฐ ๊ฐ์ฒด๋ฟ๋ง ์๋๋ผ ์์ ๊ฐ์ฒด์ ๋ํ ํ์ง ์ฑ๋ฅ๋ ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
-
YOLOv4 (2020๋ 4์)
YOLOv4
๋ 2020๋
Alexey Bochkovskiy, Chien-Yao Wang, ๊ทธ๋ฆฌ๊ณ Hong-Yuan Mark Liao์ ์ํด ๋ฐํ๋ ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ๋ค ๋ฒ์งธ ๋ฒ์ ์
๋๋ค.
- YOLOv4๋ YOLOv3์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ , ๋ ๋น ๋ฅด๊ณ ์ ํํ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ์ต์ ๊ธฐ์ ์ ๋์ ํ์์ต๋๋ค.
- ํนํ YOLOv4๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ์ฐ๊ตฌ์๋ค๊ณผ ์์ง๋์ด๋ค์๊ฒ ๊ฐ๋ ฅํ ๋๊ตฌ๋ก ์๋ฆฌ ์ก์์ต๋๋ค.
Bag of Freebies์ Bag of Specials๋ YOLOv4 ๋ ผ๋ฌธ์์ ์๊ฐ๋ ๋ ๊ฐ์ง ์ฃผ์ ๊ฐ๋ ์ผ๋ก, ๊ฐ๊ฐ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ค์ํ ๊ธฐ๋ฒ๋ค์ ๋ฌถ์ด์ ์ค๋ช ํ๋ ์ฉ์ด์ ๋๋ค.
์ด ๋ ๊ฐ๋ ์ ์ฐจ์ด๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด โ์ถ๋ก ๊ณผ์ ์์ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ์ ์ผ๋ง๋ ์๊ตฌํ๋๊ฐ์ ๋ฐ๋ผ ๊ตฌ๋ถโ๋ฉ๋๋ค.
9.1 Bag of Freebies (BoF)
- ๊ฐ๋ : Bag of Freebies๋ ์ถ๋ก (inference) ๋จ๊ณ์์ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ์ ์๊ตฌํ์ง ์๊ณ , ํ์ต(training) ๊ณผ์ ์์๋ง ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ธฐ๋ฒ๋ค์ ๋งํฉ๋๋ค.
์ถ์ฒ: https://hoya012.github.io/blog/yolov4/
-
์ปจ์ : BoF๋ ํ์ต ์ ๋ต์ด๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- ์ด ๊ธฐ๋ฒ๋ค์ ๋ชจ๋ธ์ด ํ์ตํ๋ ๋์๋ง ์ถ๊ฐ์ ์ธ ๋น์ฉ์ด ๋ฐ์ํ๊ณ , ์ถ๋ก ์์๋ ์ฑ๋ฅ ์ ํ ์์ด ๋ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค.
-
Mosaic data augmentation: ๋ค ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํผํฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๋์์ผ๋ก์จ, ๋ค์ํ ์ํฉ์์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์๊ฐ ์๊ธฐ: 2020๋ , YOLOv4 ๋ ผ๋ฌธ์์ ์ฒ์ ์๊ฐ๋์์ต๋๋ค.
- ๊ฐ๋
:
- Mosaic์ ๋ค ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํผํฉํ์ฌ ํ๋์ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- Mosaic์ ๋ค ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ํ๋์ ํฐ ์ด๋ฏธ์ง๋ก ๊ฒฐํฉํจ์ผ๋ก์จ ๋คํธ์ํฌ๊ฐ ๊ฐ์ฒด๋ฅผ ๋ค์ํ ๋ฐฐ๊ฒฝ, ์์น, ๋น์จ์์ ํ์งํ ์ ์๊ฒ ๋์์ค๋๋ค. ์ด๋ฅผ ํตํด ๋คํธ์ํฌ๊ฐ ์ฌ๋ฌ ์ํฉ์์๋ ์ฑ๋ฅ์ด ์ ์ง๋๋๋ก ๋ง๋ญ๋๋ค.
-
Self-Adversarial Training (SAT): ๋คํธ์ํฌ๊ฐ ์๊ธฐ ์์ ์ ๊ณต๊ฒฉํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ์ฌ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์๊ฐ ์๊ธฐ: 2020๋ , YOLOv4 ๋ ผ๋ฌธ์์ ์ฒ์ ์๊ฐ๋์์ต๋๋ค.
- ๊ฐ๋ : ๋คํธ์ํฌ๊ฐ ์๊ธฐ ์์ ์ ๊ณต๊ฒฉํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- SAT๋ ๋คํธ์ํฌ๊ฐ ์ฒ์์๋ ์ด๋ฏธ์ง๋ฅผ ๋ณํ์์ผ ๋ง์น ๊ฐ์ฒด๊ฐ ์๋ ๊ฒ์ฒ๋ผ ์์ฅํ๊ณ , ๊ทธ๋ฐ ํ์ ๊ทธ ๋ณํ๋ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ์ฐพ์๋ด๋ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค:
- ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ ๋คํธ์ํฌ๋ ์ด๋ฏธ์ง๋ฅผ ๋ณํํ์ฌ ๊ฐ์ฒด๊ฐ ๋ณด์ด์ง ์๋๋ก โ์๊ธฐ ์์ ์ ๊ณต๊ฒฉโํฉ๋๋ค.
- ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ๋ณํ๋ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ๋ค์ ์ธ์ํ๊ฒ ํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ํตํด ๋คํธ์ํฌ๋ ๋ ๊ฐ๋ ฅํ ๋ฐฉ์ด๋ ฅ์ ๊ฐ์ถ๊ฒ ๋๊ณ , ๋ ธ์ด์ฆ๊ฐ ๋ง๊ฑฐ๋ ๊ฐ์ฒด๊ฐ ์์ฅ๋ ์ด๋ฏธ์ง์์๋ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
- CutMix: ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํ์ฌ ํ์ต์ ์ฌ์ฉ, ๊ฐ์ฒด๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ์ธ์ํ ์ ์๋๋ก ๋์์ค๋๋ค.
- ์๊ฐ ์๊ธฐ: 2019๋ , Yun, Sangdoo, et al., โCutMix: Regularization Strategy to Train Strong Classifiers with Localizable Featuresโ
- ๊ฐ๋ : ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํ์ฌ ํ๋์ ์ด๋ฏธ์ง๋ก ๋ง๋๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- CutMix๋ ๋ ์ด๋ฏธ์ง๋ฅผ ์ ํํ ํ, ํ ์ด๋ฏธ์ง์ ํน์ ๋ถ๋ถ์ ์๋ผ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ๋ถ์ด๋ ๋ฐฉ์์ผ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค.
- ์ด๋ ์๋ ค์ง ๋ถ๋ถ์ ํด๋นํ๋ ๋ ์ด๋ธ๋ ์์ฌ์ ํ์ต๋๋ฉฐ, ์ด๋ฅผ ํตํด ํ์ต ๋ชจ๋ธ์ด ๊ฐ์ฒด์ ์ผ๋ถ๋ถ๋ง์ผ๋ก๋ ํด๋น ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก ๋์์ค๋๋ค.
- Mosaic๊ณผ ์ฐจ์ด์ ์ Mosaic์ ๋ค ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๊ฒฐํฉํ๋ ๋ฐ๋ฉด, CutMix๋ ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ต๋๋ค. ์ด ๋ฐฉ์์ ๋ชจ๋ธ์ด ๋ค์ํ ์ํฉ์์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํ์งํ ์ ์๋๋ก ํด์ค๋๋ค.
- CIoU loss: ๊ฐ์ฒด ๋ฐ์ด๋ฉ ๋ฐ์ค ํ๊ท๋ฅผ ์ต์ ํํ๋ ์์ค ํจ์๋ก, ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ ํ์ฑ์ ํฅ์์ํต๋๋ค.
- ์๊ฐ ์๊ธฐ: 2020๋ , Zheng, Zhishuai, et al., โDistance-IoU Loss: Faster and Better Learning for Bounding Box Regressionโ
- ๊ฐ๋ : ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค ํ๊ท(์์ธก)๋ฅผ ์ต์ ํํ๋ ์์ค ํจ์์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- ๋ฐ์ด๋ฉ ๋ฐ์ค(bounding box)๋ ๊ฐ์ฒด์ ์์น๋ฅผ ๋คํธ์ํฌ๊ฐ ์์ธกํ ๋ ์ฌ์ฉํ๋ ์ฌ๊ฐํ์ ๋๋ค.
- CIoU Loss๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ ํ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ์์ค ํจ์์ ๋๋ค. ๊ธฐ์กด์ IoU (Intersection over Union) ์์ค ํจ์๋ ๋ ๋ฐ์ค๊ฐ ์ผ๋ง๋ ๊ฒน์น๋์ง๋ฅผ ๊ณ์ฐํ์ง๋ง, CIoU๋ ๊ฒน์น๋ ๋ฉด์ ๋ฟ๋ง ์๋๋ผ, ์ค์ฌ์ ์ ๊ฑฐ๋ฆฌ์ ๊ฐ๋ก์ธ๋ก ๋น์จ๊น์ง ๊ณ ๋ คํฉ๋๋ค.
- ์ฆ, ๊ฐ์ฒด์ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ๊ฐ์ ์ค์ฒฉ ์ ๋๋ฟ๋ง ์๋๋ผ, ๋ ์์์ ์ค์ฌ ๊ฐ ๊ฑฐ๋ฆฌ์ ์์์ ๊ฐ๋ก์ธ๋ก ๋น์จ๋ ๊ณ ๋ คํจ์ผ๋ก์จ ๋ ์ ํํ ์์ธก์ ํ ์ ์๊ฒ ๋์ต๋๋ค.
์ถ์ฒ: An improved Tiny YOLOv3 for real-time object detection
- DropBlock regularization: ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์ ๊ทํ ๊ธฐ๋ฒ์
๋๋ค.
- ์๊ฐ ์๊ธฐ: 2018๋ , Ghiasi, Golnaz, Tsung-Yi Lin, and Quoc V. Le, โDropBlock: A Regularization Method for Convolutional Networksโ
- ๊ฐ๋ : ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์ ๊ทํ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
DropBlock
์ Dropout์ ํ์ฅ๋ ํํ๋ก, ์ฐ์์ ์ธ ์์ญ์ ๋นํ์ฑํํ๋ ๋ฐฉ์์ ๋๋ค. Dropout์ ์์์ ๊ฐ๋ณ ๋ด๋ฐ์ ๋นํ์ฑํํ์ง๋ง, DropBlock์ ํผ์ฒ ๋งต์์ ์ฐ์๋ ์์ญ(์ ์ฌ๊ฐํ ๋ธ๋ก)์ ์ฐจ๋จํ์ฌ ๋คํธ์ํฌ๊ฐ ํน์ ์ธ๋ถ ์ ๋ณด์ ์์กดํ์ง ์๋๋ก ํฉ๋๋ค.- DropBlock์ ํผ์ฒ ๋งต์ ์ผ์ ์์ญ์ ๋ฌด์์๋ก ์ ๊ฑฐํจ์ผ๋ก์จ ๊ณผ์ ํฉ์ ์ค์ด๊ณ , ๋คํธ์ํฌ๊ฐ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํด ๋ ์ผ๋ฐํ๋ ํ์ต์ ํ๋๋ก ์ ๋ํฉ๋๋ค.
9.2 Bag of Specials (BoS)
- ๊ฐ๋ : Bag of Specials๋ ์ถ๋ก (inference) ๊ณผ์ ์์๋ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ์ ์๊ตฌํ์ง๋ง, ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ ํฅ์์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ ๊ธฐ๋ฒ๋ค์ ๋งํฉ๋๋ค.
์ถ์ฒ: https://hoya012.github.io/blog/yolov4/
-
์ปจ์ : BoS๋ ์ถ๋ก ๋จ๊ณ์์ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด์ ์ผ๋ถ ๊ณ์ฐ ๋น์ฉ์ ์ถ๊ฐ์ ์ผ๋ก ์ง๋ถํด์ผ ํ๋ ๋ฐฉ๋ฒ๋ค์ ๋๋ค.
- ์ด๋ฌํ ๊ธฐ๋ฒ๋ค์ ๋ชจ๋ธ์ด ๋ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ก ํ๊ฑฐ๋, ๋ณด๋ค ์ธ๋ฐํ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ๋์์ค๋๋ค.
-
Mish activation: ์ค๋ฌด์คํ๊ฒ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํ์ฑํ ํจ์๋ก, ์ฑ๋ฅ์ ๋์ด๋ฉด์๋ ๊ณ์ฐ ๋ณต์ก์ฑ์ ํฌ๊ฒ ๋๋ฆฌ์ง ์์ต๋๋ค.
- ์๊ฐ ์๊ธฐ: 2019๋ , Diganta Misra, โMish: A Self Regularized Non-Monotonic Neural Activation Functionโ
- ๊ฐ๋ : ์ ๊ฒฝ๋ง์์ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ์ค๋ฌด์คํ๊ฒ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํ์ฑํ ํจ์์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- Mish๋ ์ต๊ทผ ์ ์๋ ํ์ฑํ ํจ์๋ก, ๊ธฐ์กด ReLU ํจ์๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค.
- Mish๋ tanh์ softplus ํจ์๊ฐ ๊ฒฐํฉ๋ ํํ๋ก, ReLU์ ๋ฌ๋ฆฌ ์์ ๊ตฌ๊ฐ์์๋ ์ ๋ณด๊ฐ ์ ์ง๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ ๋ถ๋๋ฌ์ด ๊ทธ๋๋์ธํธ ํ๋ฆ์ ๋ง๋ค์ด ๋คํธ์ํฌ๊ฐ ๋ ์ ํ์ตํ ์ ์๋๋ก ๋์ต๋๋ค.
-
Mish ํ์ฑํ ํจ์์ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
f(x)=xโ tanhโก(softplus(x))f(x) = x \cdot \tanh(\text{softplus}(x))f(x)=xโ tanh(softplus(x))
-
์ฌ๊ธฐ์ softplus ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
softplus(x)=lnโก(1+ex)\text{softplus}(x) = \ln(1 + e^x)softplus(x)=ln(1+ex)
- Mish๋ ๋คํธ์ํฌ์ ํ์ต ์๋๋ฅผ ํฌ๊ฒ ๋ฆ์ถ์ง ์์ผ๋ฉด์๋ ์ฑ๋ฅ์ ๋์ด๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
-
Cross-Stage Partial connections (CSP): ํผ์ฒ ๋งต์ ๋ ๋ถ๋ถ์ผ๋ก ๋๋ ์ฐ์ฐํ์ฌ ์ค๋ณต๋ ๊ทธ๋ผ๋์ธํธ ์ ๋ณด๋ฅผ ์ค์ด๊ณ ์ฐ์ฐ ํจ์จ์ ๋์ ๋๋ค.
- ์๊ฐ ์๊ธฐ: 2019๋ , Wang, Chien-Yao, et al., โCSPNet: A New Backbone That Can Enhance Learning Capability of CNNโ
- ๊ฐ๋ : ํผ์ฒ ๋งต์ ๋ ๋ถ๋ถ์ผ๋ก ๋๋์ด ์ค๋ณต๋ ๊ทธ๋ผ๋์ธํธ ์ ๋ณด๋ฅผ ์ค์ด๊ณ ์ฐ์ฐ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- CSPNet์ ๋คํธ์ํฌ๊ฐ ๋์ผํ ์ ๋ณด๋ก ์ฌ๋ฌ ๋ฒ ํ์ตํ๋ ๋ฌธ์ (์ค๋ณต ๊ทธ๋ผ๋์ธํธ)๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ํผ์ฒ ๋งต์ ๋ ๋ถ๋ถ์ผ๋ก ๋๋์ด ์ฒ๋ฆฌํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ํ ๋ถ๋ถ์ Dense Block๊ณผ ๊ฐ์ ์ฐ์ฐ์ ๊ฑฐ์น๊ณ , ๋ค๋ฅธ ๋ถ๋ถ์ ๋ฐ๋ก ๋ค์ ๋จ๊ณ๋ก ์ ๋ฌ๋์ด, ๋ถํ์ํ ๊ณ์ฐ์ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ ์ ์๊ฒ ํฉ๋๋ค.
-
YOLOv4์์๋ CSP๋ฅผ ์ ์ฉํ์ฌ ๋คํธ์ํฌ์ ์ฐ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํํ๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ ๋๋ค.
- ์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด CSPDenseNet ๊ตฌ์กฐ๊ฐ ์ด๋ป๊ฒ ์๋ํ๋์ง ์ค๋ช ํ ์ ์์ต๋๋ค. CSPNet์ด ์ฐ์ฐ๋์ ์ค์ด๊ณ ํ์ต ๋ฅ๋ ฅ์ ์ ์งํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ๊ฐ๋ ์ ๊ธฐ๋ฐํฉ๋๋ค:
-
Figure 2 (a) DenseNet์์๋ ๊ฐ ์ธต์์ ์์ฑ๋ ํผ์ฒ ๋งต(feature map)์ด ๋ค์ ์ธต์ผ๋ก ์ ๋ถ ์ ๋ฌ๋ฉ๋๋ค. ์ด ๊ณผ์ ์์ ํผ์ฒ ๋งต์ด ์ค๋ณต์ ์ผ๋ก ๊ฒฐํฉ๋๊ณ , ๊ทธ๋ก ์ธํด ์ค๋ณต๋ ๊ทธ๋ผ๋์ธํธ ์ ๋ณด๊ฐ ์์ฑ๋ ์ ์์ต๋๋ค.
-
Figure 2 (b) CSPDenseNet์์๋ ํผ์ฒ ๋งต์ ๋ ๋ถ๋ถ์ผ๋ก ๋๋์ด ์ฒ๋ฆฌํฉ๋๋ค. ํ ๋ถ๋ถ์ Dense Block์ ํตํด ์ฐ์ฐ์ ๊ฑฐ์น๊ณ , ๋ค๋ฅธ ๋ถ๋ถ์ ์ด๋ฅผ ํต๊ณผํ์ง ์๊ณ ๋ฐ๋ก ๋ค์ ๋จ๊ณ๋ก ์ ๋ฌ๋ฉ๋๋ค. ์ด๋ก์จ ์ค๋ณต๋ ๊ทธ๋ผ๋์ธํธ ์ ๋ณด๋ฅผ ๋ฐฉ์งํ๊ณ ์ฐ์ฐ๋์ ์ค์ด๊ฒ ๋ฉ๋๋ค.
-
Spatial Pyramid Pooling (SPP): ๊ฐ์ฒด์ ๋ค์ํ ํฌ๊ธฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด, ํผ์ฒ ๋งต์ ์์ฉ ์์ญ์ ํ์ฅํฉ๋๋ค.
- ์๊ฐ ์๊ธฐ: 2014๋ , He, Kaiming, et al., โSpatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitionโ
- ๊ฐ๋ : ๊ฐ์ฒด์ ๋ค์ํ ํฌ๊ธฐ์ ๋น์จ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ํผ์ฒ ๋งต์ ์์ฉ ์์ญ์ ํ์ฅํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- SPP๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅผ ๋๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ถ๋ ฅ์ ์ป๊ธฐ ์ํด ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ๊ฐ์ฒด๊ฐ ์ด๋ฏธ์ง ๋ด์์ ์ฐจ์งํ๋ ๊ณต๊ฐ์ด ๋ค๋ฅผ ๊ฒฝ์ฐ์๋ ๋์ผํ๊ฒ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋์ต๋๋ค.
- SPP๋ ์ฌ๋ฌ ํฌ๊ธฐ์ ํ๋ง ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ํผ์ฒ ๋งต์ ๋ค์ํ ์์ญ์ ๊ณ ๋ คํ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋คํธ์ํฌ๊ฐ ์ฌ๋ฌ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋ ์ ์ธ์ํ ์ ์๊ฒ ํฉ๋๋ค.
- Path Aggregation Network (PAN): ํผ์ฒ ๋งต์ ํจ์จ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๋์ด๋ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
-
์๊ฐ ์๊ธฐ: 2018๋ , Liu, Shuyang, et al., โPath Aggregation Network for Instance Segmentationโ
- ๊ฐ๋ : ํผ์ฒ ๋งต์ ๊ฒฐํฉํ์ฌ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๋์ด๋ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋๋ค.
-
์ธ๋ถ ์ค๋ช :
- Path Aggregation์ด๋ผ๋ ์ด๋ฆ์ ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ํตํด ์ ํ๋๋ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ, ๊ฐ์ฒด ํ์ง๋ ์ธ์คํด์ค ์ธ๊ทธ๋ฉํ ์ด์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๊ตฌ์กฐ๋ผ๋ ๊ฒ์ ๋ํ๋ ๋๋ค.
- ํนํ, ๊ธฐ์กด์ ๋จ์ผ ๊ฒฝ๋ก(top-down ๋ฐฉ์)์์ ๋ฒ์ด๋ ๋ค์ํ ๊ฒฝ๋ก๋ค(์์์ ์๋๋ก, ์๋์์ ์๋ก)์์ ์ ๋ณด๋ฅผ ๋ชจ์ผ๋ ๋ฐฉ์์ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ฅผ ํตํด, ๋คํธ์ํฌ๊ฐ ๊ฐ์ฒด์ ์ธ๋ถ์ ์ธ ์์น ์ ๋ณด๋ง ์๋๋ผ ํฐ ๋งฅ๋ฝ ์ ๋ณด๋ ๋์์ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค.
-
์ฆ, PANet์ด๋ผ๋ ์ด๋ฆ์ ๋คํธ์ํฌ๊ฐ ๋ค์ํ ์ ๋ณด ๊ฒฝ๋ก๋ฅผ ํ์ฉํ์ฌ ๋ ์ ํํ๊ณ ํ๋ถํ ํผ์ฒ๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ๋ํ๋ด๋ ๊ฒ์ผ๋ก, ์ด๋ ์๋ ๊ธฐ๋ฒ๋ค์ ํฌํจํ๊ณ ์์ต๋๋ค:
Bottom-up Path Augmentation
: ์ ์์ค ํผ์ฒ์์ ์์ ๋ ๋ฒจ๋ก ์ ๋ณด๊ฐ ํจ์จ์ ์ผ๋ก ์ ๋ฌ๋๋๋ก ํจ.Adaptive Feature Pooling
: ๊ฐ์ฒด ํฌ๊ธฐ์ ์๊ด์์ด ์ฌ๋ฌ ํผ์ฒ ๋ ๋ฒจ์์ ์ ๋ณด๋ฅผ ํตํฉ.Fully-connected Fusion
: ๋ง์คํฌ ์์ธก ์ ๋ค์ํ ๋ทฐ๋ฅผ ๊ฒฐํฉํ์ฌ ์์ธก ์ฑ๋ฅ ํฅ์.
9.2 YOLOv4์ ๊ตฌ์กฐ
์์์ ์๊ฐํ ๊ฐ๊ฐ์ ๊ตฌ์กฐ๋ค์ ํ์ฉํ์ฌ Backbone
, Neck
, Head
๋ฅผ ๊ตฌ์ฑํฉ๋๋ค:
- Backbone: CSPDarknet53์ ์ฌ์ฉํ์ฌ ๊ฐ๋ ฅํ ํผ์ฒ ์ถ์ถ์ ์ํํฉ๋๋ค.
- Neck: SPP์ PAN์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ํผ์ฒ ๋งต์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ๊ณ ๊ฐ์ฒด์ ๋ค์ํ ํฌ๊ธฐ์ ์์น์ ๋์ํฉ๋๋ค.
- Head: ๊ธฐ์กด YOLOv3์ anchor ๊ธฐ๋ฐ ์ถ๋ ฅ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋์ค๋ฅผ ์์ธกํฉ๋๋ค.
-
YOLOv5 (2020๋ 6์)
YOLOv5
๋ 2020๋
Ultralytics์์ ๋ฐํ๋ YOLO ์๋ฆฌ์ฆ์ ๋ค์ฏ ๋ฒ์งธ ๋ฒ์ ์
๋๋ค. YOLOv5๋ YOLOv4์์ ์ด์ด์ง๋ ๋ชจ๋ธ์ด์ง๋ง, YOLOv4์๋ ๋ฌ๋ฆฌ PyTorch ํ๋ ์์ํฌ๋ก ์ฒ์๋ถํฐ ๊ตฌํ๋์์ผ๋ฉฐ, ๊ฐ๋ฐ์๋ค์ด ์์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋ ์ฌ์ฉ์ ์นํ์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํฉ๋๋ค. YOLOv5๋ ํนํ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ์ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ ์ฑ๋ฅ๊ณผ ์ฌ์ฉ ํธ์์ฑ ์ธก๋ฉด์์ ํฐ ์ธ๊ธฐ๋ฅผ ์ป์์ต๋๋ค.
10.1 YOLOv5์ ์ฃผ์ ํน์ง
-
PyTorch ๊ธฐ๋ฐ ๊ตฌํ
- YOLOv5๋ PyTorch ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๋์๊ธฐ ๋๋ฌธ์, ์ฐ๊ตฌ์๋ค๊ณผ ๊ฐ๋ฐ์๋ค์ด ๋ชจ๋ธ์ ์ฝ๊ฒ ์์ ํ๊ณ ์คํํ ์ ์๊ฒ ๋์์ต๋๋ค.
- YOLOv4๋ Darknet์ผ๋ก ๊ตฌํ๋์์ง๋ง, YOLOv5๋ PyTorch์ ํ๋ถํ ์ํ๊ณ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ ๋ ๊ฐํธํ๊ฒ ๋ค๋ฃจ๊ณ ํ์ฅํ ์ ์๋ ์ฅ์ ์ด ์์ต๋๋ค.
-
๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ ์ ๊ณต
- YOLOv5๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ YOLOv5n (nano), YOLOv5s (small), YOLOv5m (medium), YOLOv5l (large), YOLOv5x (extra-large)์ ๋ค์ฏ ๊ฐ์ง ๋ฒ์ ์ ์ ๊ณตํฉ๋๋ค.
- ์ด๋ ์ฌ์ฉ์๊ฐ ์๋์ ์ ํ๋ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ฅผ ์กฐ์ ํ ์ ์๋๋ก ํด์ฃผ๋ฉฐ, ์์ ๋ฒ์ ์ ์๋ฒ ๋๋ ์์คํ ์ด๋ ๋ชจ๋ฐ์ผ ์ฅ์น์์๋ ์ฌ์ฉํ ์ ์์ ์ ๋๋ก ๊ฒฝ๋ํ๋์์ต๋๋ค.
์ถ์ฒ: https://pytorch.kr/hub/ultralytics_yolov5/
-
AutoAnchor ๋ฐ AutoBatch
YOLOv5๋ AutoAnchor์ AutoBatch ๊ธฐ๋ฅ์ ๋์ ํ์ฌ ์ฌ์ฉ์๊ฐ ๋ชจ๋ธ์ ๋ ์ฝ๊ฒ ์กฐ์ ํ ์ ์๊ฒ ํ์ต๋๋ค.
AutoAnchor
- ์ ์: AutoAnchor๋ ์ต์ ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์
๋๋ค.
- YOLOv5์์ ์ต์ปค ๋ฐ์ค๋ ๊ฐ์ฒด์ ํฌ๊ธฐ์ ๋น์จ์ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์๋ ์๋ฆฌ:
๋ฐ์ดํฐ ๊ธฐ๋ฐ
: AutoAnchor๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์ ๋ถ์ํ์ฌ ๊ฐ์ฒด์ ํฌ๊ธฐ ๋ฐ ๋น์จ์ ๋ง๋ ์ต์ ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์์ฑํฉ๋๋ค.K-ํ๊ท ํด๋ฌ์คํฐ๋ง
: AutoAnchor๋ K-ํ๊ท ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ๊ณ , ๊ทธ์ ๋ฐ๋ผ ์ด๊ธฐ ์ต์ปค ๋ฐ์ค๋ฅผ ์ค์ ํฉ๋๋ค.์งํ ์๊ณ ๋ฆฌ์ฆ
: ์ดํ, ์ด ์ด๊ธฐ ์ต์ปค ๋ฐ์ค๋ ์ ์ ์ ์๊ณ ๋ฆฌ์ฆ(GA)์ ํตํด ์ธ๋๋ฅผ ๊ฑฐ์น๋ฉฐ ์งํํ์ฌ, ๊ฐ์ฒด ๊ฐ์ง ์ฑ๋ฅ์ ๊ทน๋ํํฉ๋๋ค.
AutoBatch
- ์ ์: AutoBatch๋ ํ๋ จ ๊ณผ์ ์์ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์๋์ผ๋ก ์กฐ์ ํ์ฌ ๋์ฑ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ์ ํ๋ จํ ์ ์๊ฒ ๋๋ ๊ธฐ๋ฅ์ ๋๋ค.
- ์๋ ์๋ฆฌ:
ํ๋์จ์ด ๊ฐ์ง
: AutoBatch๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฌ์ฉ ํํฉ์ ์ค์๊ฐ์ผ๋ก ๊ฐ์งํ์ฌ, ๊ทธ์ ๋ง๊ฒ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์กฐ์ ํฉ๋๋ค.๋์ ์กฐ์
: ํ๋ จ์ค์ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฌ์ ๊ฐ ๋จ์์์ผ๋ฉด ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆด ์ ์๋ ๋ฐฉ์์ ํตํด, ์ต๋ํ์ ์์์ ํ์ฉํฉ๋๋ค.
- ๋ฐ์ดํฐ ์ฆ๊ฐ(Data Augmentation)
- YOLOv5๋ YOLOv4์์ ๋์ ๋ Mosaic, copy paste, MixUp, random affine, HSV ์ฆ๊ฐ ๋ฑ๊ณผ ๊ฐ์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ถํ๊ฒ ๋ง๋ค๊ณ , ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ค์ํ ๋ฐฐ๊ฒฝ๊ณผ ์กฐ๋ช ์กฐ๊ฑด์์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํ์งํ ์ ์๊ฒ ๋์์ต๋๋ค.
-
Mosaic data augmentation: ๋ค ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํผํฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๋์์ผ๋ก์จ, ๋ค์ํ ์ํฉ์์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์๊ฐ ์๊ธฐ: 2020๋ , YOLOv4 ๋ ผ๋ฌธ์์ ์ฒ์ ์๊ฐ๋์์ต๋๋ค.
- ๊ฐ๋
:
- Mosaic์ ๋ค ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํผํฉํ์ฌ ํ๋์ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- Mosaic์ ๋ค ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ํ๋์ ํฐ ์ด๋ฏธ์ง๋ก ๊ฒฐํฉํจ์ผ๋ก์จ ๋คํธ์ํฌ๊ฐ ๊ฐ์ฒด๋ฅผ ๋ค์ํ ๋ฐฐ๊ฒฝ, ์์น, ๋น์จ์์ ํ์งํ ์ ์๊ฒ ๋์์ค๋๋ค. ์ด๋ฅผ ํตํด ๋คํธ์ํฌ๊ฐ ์ฌ๋ฌ ์ํฉ์์๋ ์ฑ๋ฅ์ด ์ ์ง๋๋๋ก ๋ง๋ญ๋๋ค.
-
Mixup data augmentation: ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์ ํ ๊ฒฐํฉํ์ฌ ์๋ก์ด ํ์ต ์ํ์ ์์ฑํ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์๊ฐ ์๊ธฐ: 2018๋ , Zhang, Hongyi, et al., โMixup: Beyond Empirical Risk Minimizationโ
- ๊ฐ๋
:
- Mixup ๊ธฐ๋ฒ์ ๊ธฐ์กด ์ด๋ฏธ์ง์ ๋ ์ด๋ธ์ ์์ด ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค๊ณ , ๋ ์ด๋ธ๋ ๋ ์ด๋ฏธ์ง์ ๋น์จ์ ๋ง๊ฒ ์์ด์ ์๋ก์ด ๋ ์ด๋ธ์ ์์ฑํฉ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- MixUp์ ๋จ์ํ ๋ ์ด๋ฏธ์ง๋ฅผ ๋ํด์ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ๋๋ค. ์ด๋, ๋ ์ด๋ฏธ์ง ๊ฐ์ ๊ฐ์ค์น๋ฅผ ๋๋คํ๊ฒ ์ค์ ํ์ฌ ๋ ์ด๋ฏธ์ง๋ฅผ ์ ํ ๊ฒฐํฉํฉ๋๋ค.
- ์ด๋ฏธ์ง ๋ฟ๋ง ์๋๋ผ ๋ ์ด๋ธ ์ญ์ ์ ํ ๊ฒฐํฉํ์ฌ, ์ํํธ ๋ผ๋ฒจ์ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ๊ฐ์ฒด ๋ถ๋ฅ๋ ํ์ง ์ ํ๋์ ์ ๋ต๋ง์ ๊ณ ์งํ์ง ์๊ณ , ๋ ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ๋์์ค๋๋ค.
- MixUp์ ๊ณผ์ ํฉ ๋ฐฉ์ง, ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ ๋ฐ ๋ ธ์ด์ฆ์ ๋ํ ๊ฐ๊ฑดํจ ๊ฐํ ๋ฑ์ ์ฅ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
-
copy-paste data augmentation: ์ด๋ฏธ์ง์์ ํน์ ๊ฐ์ฒด๋ฅผ ๋ณต์ฌํ ํ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ๋ถ์ฌ ๋ฃ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์๊ฐ ์๊ธฐ: 2021๋ , Ghiasi, Golnaz, et al., โSimple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentationโ
- ๊ฐ๋
:
- Copy-Paste๋ ๊ฐ์ฒด ํ์ง์์ ํ ์ด๋ฏธ์ง์ ๊ฐ์ฒด๋ฅผ ๋ณต์ฌํ์ฌ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ๋ถ์ฌ ๋ฃ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- ํ ์ด๋ฏธ์ง์์ ํน์ ๊ฐ์ฒด๋ฅผ ๋ณต์ฌํ ํ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ๋ถ์ฌ ๋ฃ์์ผ๋ก์จ ๊ฐ์ฒด์ ์์น, ๋ฐฐ๊ฒฝ, ๊ทธ๋ฆฌ๊ณ ์ํธ์์ฉ ํ๊ฒฝ์ ๋ค์ํํ๋ ์ฆ๊ฐ ๋ฐฉ๋ฒ์ ๋๋ค.
- CutMix์ ๋น์ทํ ๊ฐ๋ ์ด์ง๋ง, Copy-Paste๋ ํน์ ๊ฐ์ฒด๋ฅผ ๋์์ผ๋ก๋ง ์ํ๋๋ฉฐ, ๊ฐ์ฒด๋ฅผ ๋ณต์ฌํ์ฌ ์๋ ์ด๋ฏธ์ง์๋ ๋ค๋ฅธ ๋งฅ๋ฝ์ ์ด๋ฏธ์ง์ ์ฝ์ ํฉ๋๋ค.
- ์ด ๊ธฐ๋ฒ์ ๋ณต์กํ ๋ฐฐ๊ฒฝ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ฑฐ๋ ๊ฐ์ฒด ๊ฐ์ ์ํธ์์ฉ์ ํ์ตํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค. ํนํ ๊ฐ์ฒด ๊ฐ์ ์์น๋ ์ํธ์์ฉ์ ๋ ๋ณต์กํ๊ฒ ๋ง๋ค์ด ๋ชจ๋ธ์ด ๋ค์ํ ํ๊ฒฝ์์ ํ์ตํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
Random Affine Transformation: ์ด๋ฏธ์ง๋ฅผ ํ์ , ํํ ์ด๋, ์ค์ผ์ผ ์กฐ์ , ๋๋ ๋นํ๊ธฐ ๋ฑ์ ๋ณํ์ ์ํ ํ ๋ชจ๋ธ์ด ๋ค์ํ ํํ์ ๋ณํ๋ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค.
- ์๊ฐ ์๊ธฐ: ๋๋ค ์ดํ์ธ ๋ณํ์ ๋จธ์ ๋ฌ๋๊ณผ ์ปดํจํฐ ๋น์ ์์ ์ค๋ซ๋์ ์ฌ์ฉ๋์ด ์จ ๊ธฐ๋ฒ์ ๋๋ค. ์ ํํ ์ถ์ฒ๋ณด๋ค๋ ๊ธฐํํ์ ๋ณํ์ ํ ๊ธฐ๋ฒ์ผ๋ก ๊ณ ์ ์ ์ธ ์ฆ๊ฐ ๋ฐฉ๋ฒ์ผ๋ก ์๋ฆฌ ์ก๊ณ ์์ต๋๋ค.
- ๊ฐ๋
:
- Random Affine์ ํ์ , ์ด๋, ์ค์ผ์ผ ์กฐ์ , ๊ธฐ์ธ์(shear) ๋ฑ์ ์ดํ์ธ ๋ณํ(affine transformation)์ ๋ฌด์์๋ก ์ ์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๋ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- Affine ๋ณํ์ ์ด๋ฏธ์ง๋ฅผ ํ์ , ํํ ์ด๋, ์ค์ผ์ผ ์กฐ์ , ๋๋ ๋นํ๊ธฐ ๋ฑ์ ๋ณํ์ ์ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ด๋ ์ด๋ฏธ์ง์ ๊ธฐํํ์ ์ฑ์ง์ ๋ณ๊ฒฝํ๋ฉด์๋ ๊ฐ์ฒด ํ์ง๋ ๋ถ๋ฅ์ ์ํฅ์ ์ฃผ์ง ์๋๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ์ ์๊ฒ ํฉ๋๋ค.
- Random Affine ๋ณํ์ ์ด๋ฌํ ๋ณํ์ ๋ฌด์์๋ก ์ ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ค์ํ ํํ์ ๋ณํ๋ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค. ํนํ, ์ด๋ฏธ์ง์ ์๋ณธ ์ ๋ณด๊ฐ ํฌ๊ฒ ์์ค๋์ง ์๋๋ก ํ๋ฉด์๋ ๋ค์ํ ๋ชจ์๊ณผ ์์น์์์ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ฐ์ฒด๊ฐ ๋ค์ํ ๊ฐ๋๋ ์์น์์ ๋ฑ์ฅํ๋๋ผ๋ ์ ๋๋ก ํ์งํ ์ ์๊ฒ ๋ฉ๋๋ค.
-
HSV (Hue, Saturation, Value) Augmentation: ์์กฐ(Hue), ์ฑ๋(Saturation), ๋ช ๋(Value)๋ฅผ ๋ฌด์์๋ก ์กฐ์ ํ์ฌ ์ด๋ฏธ์ง์ ์์์ ๋ค์ํ๊ฒ ๋ณํ ํ ๋ชจ๋ธ์ด ๋ค์ํ ํํ์ ๋ณํ๋ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค.
- ์๊ฐ ์๊ธฐ: HSV ์ ๊ณต๊ฐ ์์ฒด๋ ์ค๋๋ ๊ฐ๋ ์ด์ง๋ง, ์ด๋ฅผ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ปดํจํฐ ๋น์ ๊ณผ ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋์ด ์จ ๊ณ ์ ์ ์ธ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
- ๊ฐ๋
:
- HSV ์ฆ๊ฐ์ ์ด๋ฏธ์ง์ ์์กฐ(Hue), ์ฑ๋(Saturation), ๋ช ๋(Value)๋ฅผ ์กฐ์ ํ์ฌ ์์ ๋ณํ์ ํตํด ๋ฐ์ดํฐ ๋ค์์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ๋ถ ์ค๋ช
:
- HSV ์ ๊ณต๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ์ฑํ๋ ์์ ์ ๋ณด๋ฅผ ์์กฐ(Hue), ์ฑ๋(Saturation), ๋ช ๋(Value)๋ก ๋ถ๋ฆฌํ์ฌ ํํํ๋ ๋ฐฉ์์ ๋๋ค.
- HSV ์ฆ๊ฐ์ ์ด ์ธ ๊ฐ์ง ์์๋ฅผ ๋ฌด์์๋ก ์กฐ์ ํ์ฌ ์ด๋ฏธ์ง์ ์์์ ๋ค์ํ๊ฒ ๋ณํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์์กฐ๋ฅผ ๋ณ๊ฒฝํ๋ฉด ์ด๋ฏธ์ง์ ์์์ด ๋ณํ๊ณ , ์ฑ๋๋ฅผ ์กฐ์ ํ๋ฉด ์์ ๊ฐ๋๊ฐ ๋ฌ๋ผ์ง๋ฉฐ, ๋ช ๋๋ฅผ ๋ณ๊ฒฝํ๋ฉด ์ด๋ฏธ์ง์ ๋ฐ๊ธฐ๊ฐ ๋ณํฉ๋๋ค.
- ์ด๋ฌํ ์์ ๋ณํ์ ํตํด ๋คํธ์ํฌ๋ ์กฐ๋ช ๋ณํ๋ ์์ ์๊ณก ๋ฑ ์ค์ ํ๊ฒฝ์์ ๋ฐ์ํ ์ ์๋ ๋ค์ํ ๋ณํ์ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
- ๊ธฐํํ์ ๋ณํ ๋์ ์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ๋ณํํ์ฌ ๋ค์ํ ํ๊ฒฝ์์ ๋ชจ๋ธ์ด ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ง๋๋ก ํฉ๋๋ค.
-
CSPNet Backbone
- YOLOv5๋ YOLOv4์์ ์ฌ์ฉ๋ CSPNet ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ์ฐ์ฐ ํจ์จ์ฑ์ ๋์์ต๋๋ค. CSPNet์ ์ ๊ฒฝ๋ง์ ๋ฐ๋ณต์ ์ธ ์ ๋ณด ํ๋ฆ์ ์ค์ฌ ์ฐ์ฐ๋์ ์ต์ ํํ๋ฉฐ, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
์ฑ๋ฅ ํฅ์์ ์ํ ์ต์ ํ
- YOLOv5๋ FP16 ํผํฉ ์ ๋ฐ๋ ํ์ต์ ํตํด ์๋์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ํฅ์์์ผฐ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์๊ณ , GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๋ ์ค์ด๋ค์ด ๋ํ ๋ฐ์ดํฐ์ ํ์ต ์์๋ ํจ์จ์ ์ผ๋ก ๋์ํฉ๋๋ค.
10.2 YOLOv5์ ์ํคํ ์ฒ
YOLOv5์ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ ์ด์ ๋ฒ์ ์ YOLO์ ์ ์ฌํ์ง๋ง, ๋ช ๊ฐ์ง ์ต์ ํ๋ ์์๋ฅผ ์ถ๊ฐํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
YOLOv5์ ์ํคํ ์ฒ๋ ํฌ๊ฒ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์ฑ ์์๋ก ๋๋ฉ๋๋ค:
- Backbone: YOLOv5๋ CSPNet ๊ธฐ๋ฐ์ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํฉ๋๋ค. ์ด ๋ฐฑ๋ณธ์ YOLOv4์์ ์๊ฐ๋ ๊ฒ๊ณผ ์ ์ฌํ์ง๋ง, PyTorch ํ๋ ์์ํฌ์์ ๋ ํจ์จ์ ์ผ๋ก ๋์ํ ์ ์๋๋ก ์ต์ ํ๋์์ต๋๋ค.
- Neck: YOLOv5๋ PANet (Path Aggregation Network) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋์ฑ ์ ํํ๊ฒ ํ์งํ ์ ์๊ฒ ๋ฉ๋๋ค.
- Head: YOLOv5๋ ์ต์ปค ๋ฐ์ค ๊ธฐ๋ฐ์ ํ์ง ๋ฐฉ์์ ์ฌ์ฉํ๋ฉฐ, ๊ฐ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ขํ, ๊ฐ์ฒด์ฑ(objectness) ์ ์, ํด๋์ค ํ๋ฅ ์ ์์ธกํฉ๋๋ค. YOLOv5๋ ํ์ฒ๋ฆฌ ๊ณผ์ ์์ Non-Maximum Suppression (NMS) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ค๋ณต๋ ๋ฐ์ค๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
-
Scaled-YOLOv4 (2020๋ 11์)
Scaled-YOLOv4
๋ YOLOv4์ ํ์ฅ ๋ฒ์ ์ผ๋ก, 2021๋
๋ฐํ๋ ๋ชจ๋ธ์
๋๋ค. Scaled-YOLOv4๋ YOLOv4์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ๊ณ , ์ฌ๋ฌ ํฌ๊ธฐ ์ค์ผ์ผ์์ ๊ฐ์ฒด ํ์ง๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๋ชจ๋ธ์ ์ค์ผ์ผ๋ง์ ํตํด ์ค์๊ฐ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๊ณ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค.
- Scaled-YOLOv4๋ ์ฌ๋ฌ ๋ฒ์ ์ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ, ์์ ํฌ๊ธฐ๋ถํฐ ๋ํ ๋ชจ๋ธ๊น์ง ๋ค์ํ ํฌ๊ธฐ์ ์ฑ๋ฅ ์๊ตฌ์ ๋ง์ถ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ์ด๋ก ์ธํด, Scaled-YOLOv4๋ ๊ฒฝ๋ํ๋ ํ๊ฒฝ์์๋ถํฐ ๊ณ ์ฑ๋ฅ GPU๋ฅผ ์ฌ์ฉํ๋ ํ๊ฒฝ์ ์ด๋ฅด๊ธฐ๊น์ง ํญ๋๊ฒ ์ ์ฉ๋ ์ ์์ต๋๋ค.
11.1 Scaled-YOLOv4์ ์ฃผ์ ๋ชฉํ
Scaled-YOLOv4์ ๊ฐ๋ฐ ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด ํ์ง: ์์ ๋ชจ๋ธ์ ๋น ๋ฅด๊ณ ๊ฒฝ๋ํ๋์ด ์์ผ๋ฉฐ, ํฐ ๋ชจ๋ธ์ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํ์ฌ ์ฌ์ฉ์๊ฐ ํ์์ ๋ฐ๋ผ ์ฑ๋ฅ์ ์กฐ์ ํ ์ ์๋๋ก ํฉ๋๋ค.
- ๋ฒ์ฉ์ฑ: ๋ค์ํ ์ปดํจํ ํ๊ฒฝ์ ์ ์ํ ์ ์๋ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ, ์๋ฒ ๋๋ ์ฅ์น๋ ์ค์๊ฐ ์์ฉ๋ฟ๋ง ์๋๋ผ GPU ๊ธฐ๋ฐ์ ๊ณ ์ฑ๋ฅ ์์คํ ์์๋ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ๊ณ ํจ์จ ์ค์ผ์ผ๋ง: ๋ชจ๋ธ ํฌ๊ธฐ์ ์ฑ๋ฅ ์ฌ์ด์ ๊ท ํ์ ์กฐ์ ํ ์ ์๋๋ก ํ์ฌ, ์์ ๋ชจ๋ธ์ ์๋์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ต์ ํํ๊ณ , ํฐ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๊ทน๋ํํ ์ ์์ต๋๋ค.
๋ชจ๋ธ ์ค์ผ์ผ๋ง์ ๊ธฐ๋ณธ ์์น
์ ๋์ ๋น์ฉ ์ต์ ํ
: ์ด๋ฏธ์ง ํฌ๊ธฐ, ๋คํธ์ํฌ ๊น์ด ๋ฐ ํํฐ ์(๋๋น)๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๊ฑฐ๋ ํฅ์์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.์ต์ ๊ณ์ฐ ์ฃผ๋ฌธ ์ ์ง
: ๊ณ์ฐ ์์๊ฐ O(whkb2)๋ณด๋ค ์๋๋ก ํ์ฌ ๊ฒฝ๋ ๋ชจ๋ธ์์ ํจ์จ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ์ด์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ค์ผ์ผ๋ง ๋ณ์๋ฅผ ํตํ ์กฐ์
์ค์ผ์ผ๋ง์ ์ฃผ๋ก ์ธ ๊ฐ์ง ๋ณ์๋ก ์งํ๋ฉ๋๋ค:
ฮฑ (์ด๋ฏธ์ง ํฌ๊ธฐ)
: ์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๋ฅผ ์กฐ์ ํฉ๋๋ค. ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ฉด ์ ๊ฒํ ์ ์๋ ์ ๋ณด์ ์์ด ์ฆ๊ฐํ์ง๋ง ๊ณ์ฐ ๋น์ฉ๋ ํจ๊ป ์ฆ๊ฐํฉ๋๋ค.ฮฒ (๊น์ด)
: ๋คํธ์ํฌ์ ์ธต ์๋ฅผ ์กฐ์ ํ์ฌ ๋ชจ๋ธ์ ๊น์ด๋ฅผ ๋ณํ์ํต๋๋ค. ๊น์ด๋ฅผ ๋๋ฆฌ๋ฉด ๋ชจ๋ธ์ ํํ๋ ฅ์ด ๋์์ง์ง๋ง, ํ๋ จ๊ณผ ์ถ๋ก ์๋๋ ๋๋ ค์ง ์ ์์ต๋๋ค.ฮณ (๋๋น)
: ๊ฐ ์ธต์ ํํฐ ์๋ฅผ ์กฐ์ ํฉ๋๋ค. ํํฐ ์๋ฅผ ๋๋ฆฌ๋ฉด ๋คํธ์ํฌ์ ์ฉ๋์ด ์ฆ๊ฐํ์ฌ ๋ ๋ณต์กํ ํจํด์ ํ์ตํ ์ ์์ง๋ง, ๋์์ ๊ณ์ฐ ๋น์ฉ์ด ์์นํฉ๋๋ค.
11.2 Scaled-YOLOv4์ ์ค์ผ์ผ๋ง ๊ธฐ๋ฒ
Scaled-YOLOv4๋ YOLOv4์ ๊ธฐ๋ณธ ์ํคํ ์ฒ๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ํฌ๊ธฐ(ฮฑ), ๊น์ด(ฮฒ), ํญ(ฮณ)์ ์กฐ์ ํ์ฌ ๋ค์ํ ๋ฒ์ ์ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค. (์ ์ฐธ๊ณ )
์ด๋ฌํ ์ค์ผ์ผ๋ง ๊ธฐ๋ฒ์ ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, EfficientDet์์ ์ฌ์ฉ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ๋ชจ๋ธ์ ์ธ ๊ฐ์ง ์ธก๋ฉด์์ ํ์ฅํ ์ ์์ต๋๋ค:
-
ํฌ๊ธฐ ์ค์ผ์ผ๋ง (Resolution Scaling):
๊ธฐ๋ณธ ๊ฐ๋
: ํฌ๊ธฐ ์ค์ผ์ผ๋ง์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๊ฐ ๋์์ง๋ฉด, ๋ชจ๋ธ์ ๋ ๋ง์ ํฝ์ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ฒ ๋๋ฉฐ, ์ด๋ฅผ ํตํด ๋์ฑ ์ธ๋ฐํ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค.ํจ๊ณผ
: ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ ๋ฌผ์ฒด์ ์์ ์ธ๋ถ ์ฌํญ์ ๋ ์ ํฌ์ฐฉํ ์ ์์ง๋ง, ์ด๋ก ์ธํด ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ๊ณ ์ฒ๋ฆฌ ์๊ฐ์ด ๊ธธ์ด์ง ์ ์์ต๋๋ค. ๋ฐ๋๋ก, ์ ํด์๋ ์ด๋ฏธ์ง๋ ๊ณ์ฐ์ด ๋ ๋น ๋ฅด์ง๋ง ๋ฌผ์ฒด์ ์ธ๋ถ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.Scaled-YOLOv4์์์ ์ฌ์ฉ
: Scaled-YOLOv4๋ ๋ค์ํ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํฐ ๋ชจ๋ธ์ ๊ณ ํด์๋ ์ ๋ ฅ์ ์ฒ๋ฆฌํด ๋ ์ ๋ฐํ ํ์ง๋ฅผ ์ํํ๊ณ , ์์ ๋ชจ๋ธ์ ์ ํด์๋ ์ ๋ ฅ์ ํตํด ์ค์๊ฐ ์ฑ๋ฅ์ ์ ๊ณตํ ์ ์์ต๋๋ค. ์ด๋ก ์ธํด, Scaled-YOLOv4๋ ๋ค์ํ ํ๊ฒฝ์์ ์ต์ ํ๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
-
๊น์ด ์ค์ผ์ผ๋ง (Depth Scaling):
๊ธฐ๋ณธ ๊ฐ๋
: ๊น์ด ์ค์ผ์ผ๋ง์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ์๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ฆ, ๋คํธ์ํฌ์ ๋ ์ด์ด ์๋ฅผ ๋๋ฆฌ๊ฑฐ๋ ์ค์ฌ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ์์ ๋๋ค.ํจ๊ณผ
: ๋ ๊น์ ๋คํธ์ํฌ๋ ๋ ๋ง์ ๊ณ์ธต์ ํตํด ๋์ฑ ๋ณต์กํ๊ณ ์ถ์์ ์ธ ํน์ง์ ํ์ตํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ ์ ํํ ๊ฐ์ฒด ํ์ง๊ฐ ๊ฐ๋ฅํ์ง๋ง, ์ฐ์ฐ๋์ด ๋ง์์ง๋ฉด์ ์ฒ๋ฆฌ ์๋๊ฐ ๋๋ ค์ง ์ ์์ต๋๋ค. ๋ฐ๋ฉด, ์์ ๋คํธ์ํฌ๋ ๋น ๋ฅด๊ฒ ์ฐ์ฐํ ์ ์์ง๋ง, ๋ณต์กํ ๋ฌผ์ฒด์ ํน์ง์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ ์ ์์ต๋๋ค.Scaled-YOLOv4์์์ ์ฌ์ฉ
: Scaled-YOLOv4๋ YOLOv4์ ๊ธฐ๋ณธ ์ํคํ ์ฒ์์ ๊ฐ ๋ชจ๋ธ ๋ฒ์ ์ ๋ฐ๋ผ ๊น์ด๋ฅผ ํ์ฅํ๊ฑฐ๋ ์ถ์ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, YOLOv4-tiny๋ ๊น์ด๊ฐ ์์ ๊ฒฝ๋ํ๋ ์ฅ์น์์ ์ค์๊ฐ์ผ๋ก ๋์ํ ์ ์๊ณ , YOLOv4-large๋ ๋ ๊น์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ก ๋ณต์กํ ๊ฐ์ฒด๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ํ์งํ ์ ์์ต๋๋ค.
-
ํญ ์ค์ผ์ผ๋ง (Width Scaling):
๊ธฐ๋ณธ ๊ฐ๋
: ํญ ์ค์ผ์ผ๋ง์ ๊ฐ ๊ณ์ธต์ ํํฐ ์๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ฆ, ๊ฐ ๋ ์ด์ด์์ ์ฌ์ฉํ๋ ํํฐ(์ปค๋)์ ๊ฐ์๋ฅผ ๋๋ฆฌ๊ฑฐ๋ ์ค์ด๋ ๋ฐฉ์์ ๋๋ค.ํจ๊ณผ
: ๋ ๋์ ๋คํธ์ํฌ๋ ๊ฐ ๊ณ์ธต์์ ํ ๋ฒ์ ๋ ๋ง์ ํน์ง์ ํ์ตํ ์ ์์ต๋๋ค. ์ด๋ ๋ ํ๋ถํ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๊ฒ ํ์ง๋ง, ํํฐ ์๊ฐ ๋ง์์ง์๋ก ์ฐ์ฐ๋๋ ์ฆ๊ฐํฉ๋๋ค. ๋ฐ๋๋ก, ์ข์ ๋คํธ์ํฌ๋ ๊ณ์ฐ ๋น์ฉ์ด ์ ์ง๋ง ํ์ตํ๋ ์ ๋ณด์ ์์ด ์ ํ๋ ์ ์์ต๋๋ค.Scaled-YOLOv4์์์ ์ฌ์ฉ
: Scaled-YOLOv4๋ ํญ ์ค์ผ์ผ๋ง์ ํตํด ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์กฐ์ ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, YOLOv4-large๋ ๋์ ํญ์ ๊ฐ์ง ๋ ์ด์ด๋ค์ ์ฌ์ฉํ์ฌ ๋ ๋ง์ ํํฐ๋ฅผ ํตํด ๋ณต์กํ ํจํด์ ํ์ตํ๊ณ , YOLOv4-tiny๋ ์ข์ ํญ์ ์ฌ์ฉํด ๋น ๋ฅด๊ณ ๊ฒฝ๋ํ๋ ์ฐ์ฐ์ ์ํํฉ๋๋ค.
11.3 ๋ชจ๋ธ ์ํคํ ์ฒ
Scaled-YOLOv4์ ๊ธฐ๋ณธ ์ํคํ ์ฒ๋ YOLOv4์ ๋งค์ฐ ์ ์ฌํฉ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก CSPNet ๊ธฐ๋ฐ์ CSPDarknet53 ๋ฐฑ๋ณธ์ ์ฌ์ฉํ๋ฉฐ, Path Aggregation Network (PANet)์ ๋ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋ ํน์ง์ ๊ฒฐํฉํฉ๋๋ค. ์ด ์ํคํ ์ฒ๋ ๋์ ์ฐ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์๋ ๋งค์ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- Backbone (CSPDarknet53): YOLOv4์์ ์ฌ์ฉ๋ CSPNet์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐฑ๋ณธ์ ๊ทธ๋๋ก ์ฌ์ฉํ์ฌ, YOLOv4์ ๋์ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค.
- Neck (PANet): YOLOv4์์ ์ฌ์ฉ๋ PANet์ ํตํด ์ํ์ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํ์ฌ, ์์ ๊ฐ์ฒด์ ํฐ ๊ฐ์ฒด๋ฅผ ๋ชจ๋ ์ ํํ๊ฒ ํ์งํฉ๋๋ค.
- Head: YOLOv4์ ๋ง์ฐฌ๊ฐ์ง๋ก, ๊ฐ ์ค์ผ์ผ์์ ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ์ ํด๋์ค ํ๋ฅ ์ ์์ธกํ๋ฉฐ, Non-Maximum Suppression (NMS) ๊ธฐ๋ฒ์ ์ฌ์ฉํด ์ค๋ณต๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
๐ก Scaled-YOLOv4์์ โScaledโ๋ผ๋ ์๋ฏธ
Scaled-YOLOv4์ โscaledโ๋ผ๋ ์ฉ์ด๋ ๋จ์ํ ํ๋์ ๊ณ ์ ๋ ๋ชจ๋ธ์ด ์๋๋ผ, ํ์์ ๋ฐ๋ผ ์ต์ ํ๋ ํฌ๊ธฐ๋ก ์กฐ์ ํ ์ ์๋ ๋ชจ๋ธ์ด๋ผ๋ ์๋ฏธ์์ ์ฌ์ฉ๋ ๊ฒ์ ๋๋ค.
- ํ์ฅ ๊ฐ๋ฅํ(Scalable): Scaled-YOLOv4๋ ์ํฉ์ ๋ง๊ฒ ๋ชจ๋ธ์ ํฌ๊ธฐ(ํด์๋), ๊น์ด(๋ ์ด์ด ์), ํญ(ํํฐ ์)๋ฅผ ์ ์ฐํ๊ฒ ์กฐ์ ํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ์์ ๋ชจ๋ธ์์ ํฐ ๋ชจ๋ธ๊น์ง ๋ค์ํ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ ์ ์์ต๋๋ค.
- ์กฐ์ ๊ฐ๋ฅ: ๋ชจ๋ธ์ด ์ ์ฉ๋ ํ๊ฒฝ์ด๋ ์ฑ๋ฅ ์๊ตฌ ์ฌํญ์ ๋ง์ถฐ ๋์ ์ผ๋ก ํฌ๊ธฐ, ๊น์ด, ํญ์ ์กฐ์ ํ ์ ์๋ค๋ ๋ป์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณ ์ฑ๋ฅ GPU์์๋ ๋ ํฐ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ , ์ค์๊ฐ ์ฑ๋ฅ์ด ์ค์ํ ์ฅ์น์์๋ ๋ ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
-
YOLOR (2021๋ 5์)
YOLOR(You Only Learn One Representation)
๋ 2021๋
์ ๋ฐํ๋ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- YOLOR์ ๊ฐ์ฅ ํฐ ํน์ง์ ๋ค์ค ์์ ํ์ต(Multi-task Learning)์ ํตํด ๊ฐ์ฒด ํ์ง๋ฟ๋ง ์๋๋ผ ๋ถ๋ฅ, ํ๊ท, ํฌ์ฆ ์ถ์ ๋ฑ์ ์ฌ๋ฌ ์์ ์ ๋์์ ์ํํ ์ ์๋ค๋ ์ ์ ๋๋ค.
- YOLOR์ ์ ๊ฒฝ๋ง์ ์๋ฌต์ ์ง์(Implicit Knowledge)์ ํ์ตํ์ฌ, ๋ค์ํ ์์ ์ ๋ํ ์ ์ฐํ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
12.1 YOLOR์ ์ฃผ์ ํน์ง
YOLOR์ ํต์ฌ ์์ด๋์ด๋ ํ๋์ ์ ๊ฒฝ๋ง์ด ์ฌ๋ฌ ์์ ์ ๋์์ ํ์ตํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
- YOLOR์ YOLO ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ง, ๊ธฐ์กด YOLO ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ๋ช ์์ (explicit) ํ์ต๋ฟ๋ง ์๋๋ผ ์๋ฌต์ (implicit) ํ์ต๋ ํตํฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์์ต๋๋ค.
์๋ฌต์ ์ง์(Implicit Knowledge)๊ณผ ๋ช ์์ ์ง์(Explicit Knowledge)
์๋ฌต์ ์ง์
: ์ ๋ ฅ ๋ฐ์ดํฐ์์ ์ง์ ๊ด์ฐฐํ ์ ์๋ ์ ๋ณด๋ก, ์ ๊ฒฝ๋ง์ ๊น์ ์ธต์์ ํ์ต๋๋ฉฐ ๋ชจ๋ธ์ด ๋ค์ํ ์์ ์ ์ ์ํ๋ ๋ฐ ๋์์ด ๋จ. ์ฌ๋์ ๋ฌด์์์ ํ์ต๊ณผ ๋น์ทํ ๊ฐ๋ .๋ช ์์ ์ง์
: ์ ํต์ ์ธ ์ ๊ฒฝ๋ง์์ ์ป์ ํผ์ณ๋ก, ์ฃผ๋ก ์ ๋ ฅ๋ ๋ฐ์ดํฐ์์ ๋ฐ๋ก ๊ด์ฐฐํ ์ ์๋ ์ ๋ณด.
์ด๋ฏธ์ง ์ถ์ฒ. ๋์งํธ ์๋ ์๋ฌต์ ์ง์ ํ์ฉ์ ์ ๋ต์ ๊ฐ์น (๋ค์ด๋ฒ ๋ธ๋ก๊ทธ)
- ์๋ฌต์ ์ง์(Implicit Knowledge) ํ์ต
- YOLOR์ ๊ฐ์ฅ ํฐ ์ฐจ๋ณํ ์์๋ ์๋ฌต์ ํํ ํ์ต(Implicit Representation Learning)์ ๋๋ค.
- ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋ช ์์ ์ธ ํผ์ณ(์: ๊ฐ์ฒด์ ์์น, ํฌ๊ธฐ, ํด๋์ค)๋ฅผ ํ์ตํ๋ ๋ฐ๋ฉด, YOLOR์ ์ด๋ฌํ ๋ช ์์ ํ์ต ์ธ์๋ ์ ๊ฒฝ๋ง์ด ํ์ต ๊ณผ์ ์์ ์๋์ผ๋ก ํ์ตํ๋ ์๋ฌต์ ํผ์ณ(implicit features)๋ฅผ ํ์ฉํฉ๋๋ค.
- ์ด ์๋ฌต์ ์ง์์ ์ฌ๋ฌ ์์ ์์ ์ฌ์ฌ์ฉ๋ ์ ์์ผ๋ฉฐ, ๋ชจ๋ธ์ด ๋ ๋ง์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์์ ์ ์ํํ ์ ์๋๋ก ๋์์ค๋๋ค.
๐ ์๋ฌต์ ์ง์์ ์ญํ
- ์๋ฌต์ ์ง์์ ๋ค์ํ ์์ ์์ ๋ชจ๋ธ์ด ๋ ๋์ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๋๋ก ๋์์ ์ค๋๋ค. ์๋ฅผ ๋ค์ด, ํ ์์ ์์ ํ์ตํ ์๋ฌต์ ์ง์์ด ๋ค๋ฅธ ์์ ์ ์ ์ฉ๋์ด ๊ทธ ์์ ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
- YOLOR์์ ์๋ฌต์ ์ง์์ ๋ค์ํ ์์ ์ ๋์์ ํ์ตํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉํฉ๋๋ค. ๋ช ์์ ์ง์์ ํน์ ์์ ์๋ง ์ ํฉํ ์ ์์ง๋ง, ์๋ฌต์ ์ง์์ ๋ค์ํ ์์ ์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ์ ์ธ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๐ค ์๋ฌต์ ์ง์ ๊ทธ๋ผ ์ด๋ป๊ฒ ํ์ตํ๋๋ฐ
- YOLOR์์ ์๋ฌต์ ์ง์์ ๋ฒกํฐ, ์ ๊ฒฝ๋ง, ํ๋ ฌ ๋ถํด(matrix factorization) ๋ฑ์ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ๋ง๋ ์ ์์ต๋๋ค. ์ด ๋ฐฉ์๋ค์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ์๋ฌต์ ์ง์์ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
๋ฒกํฐ(Vector)
: ์๋ฌต์ ์ง์์ ๋ฒกํฐ ํํ๋ก ํํ๋๋ฉฐ, ๊ฐ ์ฐจ์์ ์๋ก ๋ ๋ฆฝ์ ์ ๋๋ค. ์ด ๋ฒกํฐ๋ ํน์ ์์ ์ ํน์ง์ ํ์ตํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.์ ๊ฒฝ๋ง(Neural Network)
: ๋ฒกํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ ๊ฒฝ๋ง์ ํตํด ๋ ๋ณต์กํ ํํ์ ์๋ฌต์ ํํ์ ํ์ตํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๊ฐ ์ฐจ์์ด ์ํธ ์์กด์ ์ ๋๋ค.ํ๋ ฌ ๋ถํด(Matrix Factorization)
: ์ฌ๋ฌ ๋ฒกํฐ์ ์กฐํฉ์ผ๋ก ์๋ฌต์ ํํ์ ํ์ตํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋ ๋ณต์กํ ์๋ฌต์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ ํ๋ถํ ํํ์ ์ป์ต๋๋ค.
-
๋ค์ค ์์ ํ์ต(Multi-task Learning)
- YOLOR์ ๊ฐ์ฒด ํ์ง, ์ด๋ฏธ์ง ๋ถ๋ฅ, ํฌ์ฆ ์ถ์ ๋ฑ ์ฌ๋ฌ ์์ ์ ๋์์ ํ์ตํ๊ณ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ค์ค ์์ ํ์ต์ ๋ชจ๋ธ์ ํจ์จ์ฑ์ ํฌ๊ฒ ๋์ฌ์ฃผ๋ฉฐ, ๋ค์ํ ์์ ์ ๋์์ ํด๊ฒฐํด์ผ ํ๋ ๋ณต์กํ ํ๊ฒฝ์์ ํนํ ์ ๋ฆฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด, YOLOR์ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํํ๋ ๋์์ ๊ฐ์ฒด์ ํฌ์ฆ๋ ๋ถ๋ฅ ์์ ๋ ํจ๊ป ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
-
YOLO ์๋ฆฌ์ฆ์ ํ์ฅ
- YOLOR์ YOLOv4 ๋ฐ YOLOv5์ ์ฑ๋ฅ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ง, ๋ ๋์๊ฐ ์ฌ๋ฌ ์์ ์ ๋์์ ํ์ตํ ์ ์๋๋ก ๊ฐ์ ๋์์ต๋๋ค. ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์ด ์ฃผ๋ก ๊ฐ์ฒด ํ์ง์ ์ง์คํ ๋ฐ๋ฉด, YOLOR์ ๊ฐ์ฒด ํ์ง ์ธ์๋ ํฌ์ฆ ์ถ์ ๊ณผ ๊ฐ์ ์ถ๊ฐ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
-
๋ช ์์ ๋ฐ ์๋ฌต์ ํ์ต ํตํฉ
- YOLOR์์ ์๋ฌต์ ์ง์(Implicit Knowledge)๊ณผ ๋ช ์์ ์ง์(Explicit Knowledge)์ ํ์ตํ๊ณ ์ด๋ฅผ ์ต์ข ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง ์ง์์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ค์ํ ์์ ์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
-
์ด๋ฅผ ์ํด YOLOR์ ๋ช ์์ ์ง์๊ณผ ์๋ฌต์ ์ง์์ ๊ตฌ๋ถํ๊ณ , ๋ ๊ฐ์ง ์ง์์ ํ์ต ๋ฐ ๊ฒฐํฉํ๋ ๊ณ ์ ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
-
๋ช ์์ ์ง์(Explicit Knowledge)
์ ํ์ต- ๋ช ์์ ์ง์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ง์ ๊ด์ฐฐํ ์ ์๋ ์ ๋ณด์ ๋๋ค. ์ด๋ ์ ๊ฒฝ๋ง์ ์์ ์ธต์์ ์ฃผ๋ก ํ์ต๋๋ฉฐ, ์ฃผ๋ก ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๊ตฌ์ฒด์ ์ด๊ณ ๋ฌผ๋ฆฌ์ ์ธ ํน์ง์ ์ถ์ถํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
-
ํ์ต ๋ฐฉ๋ฒ:
- YOLOR์์๋ YOLOv4-CSP ๊ธฐ๋ฐ์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ, ์ ๋ ฅ ๋ฐ์ดํฐ์์ ๋ช ์์ ์ธ ํน์ง์ ํ์ตํฉ๋๋ค. ์ด๋ ์์ ๋ ์ด์ด๋ฅผ ํตํด ์ฃผ๋ก ์ด๋ฏธ์ง์์์ ๋ฌผ์ฒด ๊ฒฝ๊ณ, ๋ชจ์, ํฌ๊ธฐ ๋ฑ ๋ช ํํ ๊ด์ฐฐํ ์ ์๋ ์ ๋ณด๋ฅผ ํ์ตํฉ๋๋ค.
- ๋ช ์์ ์ง์์ ์ฃผ์ด์ง ์์ ์ ๋ง๋ ํนํ๋ ์ ๋ณด๋ก์, ์๋ฅผ ๋ค์ด ๊ฐ์ฒด ํ์ง์์๋ ๋ฌผ์ฒด์ ์์น๋ ํฌ๊ธฐ์ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
-
ํ์ฉ ๋ฐฉ๋ฒ:
- ํ์ต๋ ๋ช ์์ ์ง์์ ์ฃผ๋ก ํน์ ์์ ์ ํ์ํ ๊ตฌ์ฒด์ ์ธ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ๊ฐ์ฒด ํ์ง ์์ ์์ ๋ฌผ์ฒด์ ๊ฒฝ๊ณ๋ ํด๋์ค ์ ๋ณด๋ฅผ ์ ํํ๊ฒ ์ถ๋ก ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
-
์๋ฌต์ ์ง์(Implicit Knowledge)
์ ํ์ต- ์๋ฌต์ ์ง์์ ์ ๋ ฅ ๋ฐ์ดํฐ์์ ์ง์ ์ ์ผ๋ก ๊ด์ฐฐ๋์ง ์๋ ์ ๋ณด๋ก, ๊น์ ์ธต์์ ํ์ต๋๋ฉฐ ๋ค์ํ ์์ ์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ์ ์ธ ์ ๋ณด์ ๋๋ค.
-
ํ์ต ๋ฐฉ๋ฒ:
-
YOLOR์์๋ ๋ค์ํ ๊ธฐ๋ฒ์ ํตํด ์๋ฌต์ ์ง์์ ํ์ตํฉ๋๋ค. ์ด๋ ์ฃผ๋ก Manifold space reduction๊ณผ Kernel space alignment์ ๊ฐ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ถ์์ ์ด๊ณ ๋ฒ์ฉ์ ์ธ ํน์ง์ ํ์ตํฉ๋๋ค.
-
Manifold space reduction
: YOLOR๋ ๋ด๋ถ์ ์ผ๋ก ๋งค๋ํด๋ ํ์ต์ ํตํด ๋ฐ์ดํฐ์ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ ํํํฉ๋๋ค. ์ด๋ฅผ ์ํด ์๋ฌต์ ํํ์ ๊ณ์ฐํ์ฌ ๋ฐ์ดํฐ์ ๊ณ ์ฐจ์ ํน์ฑ์ ์ ์ฐจ์ ๊ณต๊ฐ์ ํฌ์ํฉ๋๋ค. ์ด ๊ณผ์ ์์, ๋ชจ๋ธ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ๊ทธ๋ค์ ์ ์ฌ์ ์ธ ํน์ฑ๊ณผ ๊ด๊ณ์ ๋ฐ๋ผ ๊ทธ๋ฃนํํ๊ณ ๋ถ๋ฅํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋ฌ ์์ ์ ์ํํ ์ ์๋ ์ ํฉํ ์ ์ฐจ์ ํํ์ ์์ฑํฉ๋๋ค. -
Kernel space alignment
: ๋ค์ค ์์ (๋ค์ค ํค๋) ๋คํธ์ํฌ์์๋ ๊ฐ ์์ ์ ๋ํ ์ถ๋ ฅ์ ๋์ผํ ์ปค๋ ๊ณต๊ฐ์ ์ ๋ ฌํด์ผ ํฉ๋๋ค. YOLOR๋ ์ถ๋ ฅ ํผ์ณ์ ์๋ฌต์ ํํ์ ๊ฒฐํฉํ์ฌ ์ด๋ ๊ฒ ํ๋๋ฐ, ์ด๋ฅผ ํตํด ์ถ๋ ฅ์ ์ปค๋์ ์ด๋, ํ์ ๋ฐ ์ค์ผ์ผ ์กฐ์ ํฉ๋๋ค. ์ด๋ ๊ฐ ์์ ์ ์ต์ ํ๋ฅผ ์ด์งํ๋ฉฐ, ์ค์ด๋ ์ฐจ์์์ ์๋ก ๋ค๋ฅธ ์์ ๊ฐ์ ๊ธฐ๋ฅ์ ์ฝ๊ฒ ๊ณต์ ํ๊ณ ์กฐ์ ํ ์ ์์ต๋๋ค. YOLOR๋ ์ด๋ฌํ ์ ๋ ฌ ๊ณผ์ ์ ํตํด ์ปค๋ ๊ณต๊ฐ ๋ด์ ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํ์ฌ ๋ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
-
-
์๋ฌต์ ์ง์์ ์ ๊ฒฝ๋ง์ ๊น์ ์ธต์์ ํ์ต๋๋ฉฐ, ๋ฐ์ดํฐ์ ์ถ์์ ํจํด์ ํ์ตํ์ฌ ๋ค์ํ ์์ ์ ์ ์ฉํ ๋ฒ์ฉ์ ํน์ง์ ์ ๊ณตํฉ๋๋ค.
-
-
ํ์ฉ ๋ฐฉ๋ฒ:
- ์๋ฌต์ ์ง์์ ๋ค์ํ ์์ ์์ ๊ณตํต์ ์ผ๋ก ์ ์ฉ๋ ์ ์๋ ๋ฒ์ฉ์ ์ธ ์ ๋ณด๋ก ์ฌ์ฉ๋ฉ๋๋ค. ๋ชจ๋ธ์ ์๋ฌต์ ์ง์์ ํตํด ๋ค์ค ์์ ํ์ต(Multi-task Learning)์ ํ ๋, ๊ฐ ์์ ์์์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, ๊ฐ์ฒด ํ์ง๋ฟ๋ง ์๋๋ผ ๋ค์ค ๋ ์ด๋ธ ๋ถ๋ฅ๋ ์๋ฒ ๋ฉ ๋ฑ์ ๋ค๋ฅธ ์์ ์๋ ํ์ฉ๋ ์ ์๋ ๋ฒ์ฉ์ ์ธ ์๋ฒ ๋ฉ์ ์ ๊ณตํฉ๋๋ค.
-
๋ช ์์ ์ง์๊ณผ ์๋ฌต์
์ง์์ ๊ฒฐํฉ
- YOLOR์ ํต์ฌ ๊ธฐ์ฌ ์ค ํ๋๋ ๋ช ์์ ์ง์๊ณผ ์๋ฌต์ ์ง์์ ๊ฒฐํฉ์ ๋๋ค. ์ด ๊ฒฐํฉ์ ํตํด ๋ชจ๋ธ์ ํน์ ์์ ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๋ชฉํ์ ๋ค์ํ ์์ ์์ ์ฌ์ฉํ ์ ์๋ ๋ฒ์ฉ์ ์ธ ์ง์์ ํจ๊ป ์ฌ์ฉํ ์ ์๊ฒ ๋ฉ๋๋ค.
-
๊ฒฐํฉ ๋ฐฉ๋ฒ:
- YOLOR์ ๋ช
์์ ์ง์๊ณผ ์๋ฌต์ ์ง์์ ๊ฒฐํฉํ ๋, ๋ง์
(Addition), ๊ณฑ์
(Multiplication), ์ฐ๊ฒฐ(Concatenation)๊ณผ ๊ฐ์ ์ฐ์ฐ์ ์ฌ์ฉํฉ๋๋ค.
- ๋ง์ (Addition): ๋ ์ง์์ ๋ํ์ฌ ์ต์ข ์์ธก์ ๊ธฐ์ฌํ๋ ๋ฐฉ์์ผ๋ก, ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ผ๋ก ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
- ๊ณฑ์ (Multiplication): ๋ ์ง์์ ๊ณฑํ์ฌ ์ ๋ณด ๊ฐ์ ์ํธ์์ฉ์ ์ฆ๋์ํต๋๋ค.
- ์ฐ๊ฒฐ(Concatenation): ๋ ์ง์์ ์ฐ๊ฒฐํ์ฌ, ๊ฐ๊ฐ์ ์ ๋ณด๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ฉด์ ๋ ํ๋ถํ ํํ์ ์ ๊ณตํ ์ ์๊ฒ ํฉ๋๋ค.
- ์ด๋ฌํ ๊ฒฐํฉ ๋ฐฉ์์ YOLOR์์ ํน์ ์์ ์ ์ํ ๋ช ์์ ์ง์๊ณผ ์ฌ๋ฌ ์์ ์ ์ํ ์๋ฌต์ ์ง์์ด ์กฐํ๋กญ๊ฒ ์ฌ์ฉ๋๋๋ก ๋ง๋ญ๋๋ค.
- YOLOR์ ๋ช
์์ ์ง์๊ณผ ์๋ฌต์ ์ง์์ ๊ฒฐํฉํ ๋, ๋ง์
(Addition), ๊ณฑ์
(Multiplication), ์ฐ๊ฒฐ(Concatenation)๊ณผ ๊ฐ์ ์ฐ์ฐ์ ์ฌ์ฉํฉ๋๋ค.
-
์ถ๊ฐ ๊ธฐ๋ฅ (More Functions):
- YOLOR๋ ์๋ฌต์ ์ง์์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์์ธก๋ ฅ์ ๋์ด๊ธฐ ์ํ ๋ค์ํ ๊ธฐ๋ฅ์ ๊ตฌํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์์ธก ๋ณด์ (Prediction Refinement)์ ๋คํธ์ํฌ๊ฐ ์ ๊ณตํ ์์ธก์ ์์ ํ์ฌ ๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
-
ํ์ดํผํ๋ผ๋ฏธํฐ ๊ฒ์(Hyperparameter Search)์ ๋ฐ์ดํฐ์ ๋ํ ์ต์ ์ ์ค์ ์ ์๋์ผ๋ก ์ฐพ๋ ๊ณผ์ ์ผ๋ก, ๋คํธ์ํฌ ์ฑ๋ฅ์ ๋์ฑ ๊ฐ์ ํฉ๋๋ค. ๊ฐ ์์ ์ ํ์ํ ํน์ฑ์ ์ ํํ๊ณ ์กฐ์ ํ ์ ์๋ ๋ค์ค ์์ ๊ธฐ๋ฅ ์ ํ(Multi-task Feature Selection)๋ ์ง์ํฉ๋๋ค.
-
-
์ต์ข ์ฒ๋ฆฌ
๊ณผ์ -
๋ค์ํ ์์ ์์์ ์ ์ฉ:
- YOLOR์ ํ์ต๋ ๋ช
์์ ์ง์๊ณผ ์๋ฌต์ ์ง์์ ๊ฒฐํฉํ์ฌ ๋ค์ํ ์์
์์ ์ฌ์ฉํ ์ ์๋ ํตํฉ๋ ํํ์ ๋ง๋ญ๋๋ค. ์ด ํตํฉ๋ ํํ์ ๋ชจ๋ธ์ด ๋ค์ํ ์์
์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, YOLOR์ ๊ฐ์ฒด ํ์ง, ๋ค์ค ๋ ์ด๋ธ ์ด๋ฏธ์ง ๋ถ๋ฅ, ์๋ฒ ๋ฉ ํ์ต ๋ฑ ๋ค์ํ ์์ ์์ ๋์์ ์ข์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
- YOLOR์ ํ์ต๋ ๋ช
์์ ์ง์๊ณผ ์๋ฌต์ ์ง์์ ๊ฒฐํฉํ์ฌ ๋ค์ํ ์์
์์ ์ฌ์ฉํ ์ ์๋ ํตํฉ๋ ํํ์ ๋ง๋ญ๋๋ค. ์ด ํตํฉ๋ ํํ์ ๋ชจ๋ธ์ด ๋ค์ํ ์์
์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋์ต๋๋ค.
-
์ถ๋ก ๋จ๊ณ์์์ ์ฒ๋ฆฌ:
- ์ถ๋ก ๋จ๊ณ์์๋ ํ์ต๋ ๋ช ์์ ํน์ง๊ณผ ์๋ฌต์ ํน์ง์ ๋ฐํ์ผ๋ก, ์ต์ข ์์ธก์ ๋์ถํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ์๋ฌต์ ์ง์์ ๊ณ ์ ๋ ํ ์๋ก์ ๋ ์ด์ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ผ๊ธฐํ์ง ์์ผ๋ฉด์๋, ๋ค์ํ ์์ ์์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ๊ฐ ์์ ์ ๋ง๋ ๊ตฌ์ฒด์ ์ธ ์์ธก๊ฐ์ ๋ช ์์ ์ง์์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ๋์์ ๋ค์ํ ์์ ์์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ์ ์ ๋ณด๋ฅผ ์๋ฌต์ ์ง์์ผ๋ก ์ ๊ณตํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํฉ๋๋ค.
-
12.2 YOLOR์ ์ํคํ ์ฒ
YOLOR์ YOLOv4์ YOLOv5์ ๊ธฐ๋ณธ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ง, ๋ ๋์ ์ฑ๋ฅ์ ์ํด ๋ช ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ฌํญ์ ํฌํจํ๊ณ ์์ต๋๋ค:
-
Backbone
- YOLOR์ YOLOv5์์ ์ฌ์ฉ๋ CSPNet์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐฑ๋ณธ์ ์ฌ์ฉํฉ๋๋ค. CSPNet์ ํน์ง ์ถ์ถ์ ์ต์ ํํ์ฌ ๋ชจ๋ธ์ ์ฐ์ฐ ํจ์จ์ฑ์ ๋์ด๊ณ , ํน์ง ๋งต์ ์์ฑํ๋ ๊ณผ์ ์์์ ์ ๋ณด ์์ค์ ์ค์ ๋๋ค. ์ด๋ก ์ธํด YOLOR์ ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ค์ผ ์ ์์ต๋๋ค.
-
Neck
- YOLOR์ YOLOv4์์ ๋์ ๋ Path Aggregation Network (PANet) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. PANet์ ์์ ๊ณ์ธต๊ณผ ํ์ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํ์ฌ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด์ ๋ํด ๋ ๋์ ํ์ง๋ฅผ ์ ๊ณตํฉ๋๋ค. ํนํ ์์ ๊ฐ์ฒด์ ํฐ ๊ฐ์ฒด๋ฅผ ๋ชจ๋ ์ ํํ๊ฒ ํ์งํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
Head
- YOLOR์ Head๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฒ, ์ฌ๋ฌ ํด์๋์์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ฐ์ฒด์ ํด๋์ค๋ฅผ ์์ธกํฉ๋๋ค. ๋ํ, Non-Maximum Suppression (NMS)์ ์ฌ์ฉํ์ฌ ์ค๋ณต๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ๊ฑฐํฉ๋๋ค. ํ์ง๋ง YOLOR์ ๋ค์ค ์์ ํ์ต์ ์ํด Head์์ ์ถ๊ฐ์ ์ธ ์ถ๋ ฅ์ ์ง์ํ๋ฉฐ, ํฌ์ฆ ์ถ์ ๋ฑ ๋ค์ํ ์์ ์ ๋์์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
-
YOLOX (2021๋ 7์)
YOLOX๋ 2021๋ ์ ๋ฐํ๋ YOLO ์๋ฆฌ์ฆ์ ํ์ฅ ๋ชจ๋ธ๋ก, ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ ๋ช ๊ฐ์ง ์๋ก์ด ๊ธฐ์ ์ ์ ๊ทผ ๋ฐฉ์์ ๋์ ํ ๋ชจ๋ธ์ ๋๋ค.
- YOLOX๋ YOLOv3์์ ์๊ฐ์ ๋ฐ์์ง๋ง, ์ต์ปค๋ฆฌ์ค(anchor-free) ๊ฐ์ฒด ํ์ง์ ๋์ปคํ๋ ํค๋(decoupled head) ๊ตฌ์กฐ๋ฅผ ์ฑํํ์ฌ ์ด์ YOLO ๋ชจ๋ธ๋ค๊ณผ ์ฐจ๋ณํ๋ ํน์ง์ ๊ฐ์ถ๊ณ ์์ต๋๋ค.
- YOLOX๋ ๋ ์ ์ฐํ๊ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉด์๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์ ์ ํฉํ ์๋๋ฅผ ์ ์งํฉ๋๋ค.
13.1 YOLOX์ ์ฃผ์ ๊ฐ์ ์ฌํญ
YOLOX๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ๋ ๋ช ๊ฐ์ง ์ค์ํ ์ฐจ์ด์ ์ด ์์ต๋๋ค. ํนํ ์ต์ปค๋ฆฌ์ค(anchor-free) ํ์ง ๋ฐฉ์๊ณผ ๋์ปคํ๋ ํค๋(decoupled head) ๊ตฌ์กฐ๋ YOLOX๋ฅผ ๋ค๋ฅธ YOLO ๋ชจ๋ธ๋ค๊ณผ ๊ตฌ๋ณ๋๊ฒ ๋ง๋๋ ํต์ฌ ์์์ ๋๋ค.
-
์ต์ปค๋ฆฌ์ค(Anchor-free) ํ์ง
- ๊ธฐ์กด ์ต์ปค ๊ธฐ๋ฐ ๋ฐฉ์: ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์ ์ฌ์ ์ ์ ์๋ ์ต์ปค ๋ฐ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํฉ๋๋ค. ์ต์ปค ๋ฐ์ค๋ ๋ค์ํ ํฌ๊ธฐ์ ๋น์จ๋ก ๋ฏธ๋ฆฌ ์ค์ ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ค๋ก, ์ด๋ฏธ์ง์ ๊ฐ ์์น์์ ์ด ๋ฐ์ค๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฒด๊ฐ ์๋์ง ์๋์ง๋ฅผ ์์ธกํฉ๋๋ค. ์ด ๊ณผ์ ์์๋ ์ต์ปค ๋ฐ์ค์ ํฌ๊ธฐ๋ ๋น์จ์ ๋ฏธ๋ฆฌ ์ค์ ํ๊ณ ํ์ต ์ ํด๋ฌ์คํฐ๋ง์ ํตํด ์ต์ ํํด์ผ ํ์ต๋๋ค.
- ์ต์ปค๋ฆฌ์ค ๋ฐฉ์์ ๋์ : YOLOX๋ ์ด๋ฌํ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๊ฐ์ฒด์ ์ค์ฌ์ ์ ์ง์ ์์ธกํ๊ณ ๊ทธ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ๋๋ค. ์ต์ปค๋ฆฌ์ค ํ์ง ๋ฐฉ์์ ๊ฐ์ฒด์ ์ขํ์ ํฌ๊ธฐ๋ฅผ ์์ธกํ๋ ๊ณผ์ ์์ ์ง์ ์ ์ธ ์์ธก์ ์ฌ์ฉํ์ฌ, ์ฌ์ ์ ์ค์ ๋ ์ต์ปค๊ฐ ํ์ ์์ต๋๋ค.
- ์ฅ์ :
- ๋ ๊ฐ๊ฒฐํ ๊ตฌ์กฐ: ์ต์ปค ๊ธฐ๋ฐ ๋ฐฉ์์์๋ ๊ฐ ์ด๋ฏธ์ง์ ๋ชจ๋ ์์น์์ ์ฌ๋ฌ ๊ฐ์ ์ต์ปค ๋ฐ์ค๋ฅผ ์์ธกํด์ผ ํ์ง๋ง, ์ต์ปค๋ฆฌ์ค ๋ฐฉ์์์๋ ํ๋์ ์์น์์ ํ ๊ฐ์ ์์ธก๋ง์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ด ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ด ๊ฐ์ํฉ๋๋ค.
- ์ฑ๋ฅ ํฅ์: ์ต์ปค๋ฅผ ์ต์ ํํ๊ฑฐ๋ ์ธ๋ฐํ๊ฒ ์ค์ ํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์ด ๋ ๊ฐ๋จํ๊ณ ํจ์จ์ ์ด๋ฉฐ, ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํ ๋ ๋ฐ์ํ ์ ์๋ ์ค๋ฒํค๋(Anchor Clustering, Grid Sensitivity ๋ฑ)๋ฅผ ์ค์ผ ์ ์์ต๋๋ค.
- ์๋ ์ฆ๊ฐ: ์ต์ปค ๋ฐ์ค์ ์๊ฐ ์ค์ด๋ค๋ฉด์, ํ์ง ๊ณผ์ ์์ ํ์ํ ์ฐ์ฐ๋๋ ๊ฐ์ํด ์ฒ๋ฆฌ ์๋๊ฐ ๋นจ๋ผ์ง๋๋ค.
-
๋์ปคํ๋ ํค๋(Decoupled Head)
- ๊ธฐ์กด ํค๋ ๊ตฌ์กฐ: ๊ธฐ์กด YOLO ๋ชจ๋ธ์์๋ ๋ถ๋ฅ(Classification)์ ํ๊ท(Regression) ์์ ์ ํ๋์ ๋คํธ์ํฌ์์ ๋์์ ์ฒ๋ฆฌํ์ต๋๋ค. ์ฆ, ๊ฐ์ฒด๊ฐ ๋ฌด์์ธ์ง(๋ถ๋ฅ)์ ์ด๋์ ์๋์ง(์์น ์์ธก)๋ฅผ ํ๋์ ํ์ง ํค๋์์ ์ํํ๋ ๊ตฌ์กฐ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ์์ ๋ ์์ ๊ฐ์ ์ถฉ๋(conflict) ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ ํํ ๊ฐ์ฒด ์์น๋ฅผ ์์ธกํ๋ ์์ ๊ณผ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ๋ ์์ ์ ์๋ก ๋ค๋ฅธ ๋ชฉํ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ ๋ ํ์ต ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค.
-
๋์ปคํ๋ ํค๋์ ๋์ : YOLOX๋ ๋ถ๋ฅ์ ํ๊ท ์์ ์ ๋ถ๋ฆฌ๋ ๋คํธ์ํฌ(๋์ปคํ๋ ํค๋)์์ ์ฒ๋ฆฌํฉ๋๋ค. ์ฆ, ํ๋์ ์๋ธ ๋คํธ์ํฌ๋ ๊ฐ์ฒด๊ฐ ์ด๋ค ์ข ๋ฅ์ธ์ง ๋ถ๋ฅํ๋ ์์ ๋ง ๋ด๋นํ๊ณ , ๋ค๋ฅธ ์๋ธ ๋คํธ์ํฌ๋ ๊ฐ์ฒด์ ์์น์ ํฌ๊ธฐ๋ฅผ ์์ธกํ๋ ๋ฐ๋ง ์ง์คํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์์ ์ ํจ์จ์ฑ์ด ๊ทน๋ํ๋ฉ๋๋ค.
-
์ฅ์ :
- ์ฑ๋ฅ ํฅ์: ๋ถ๋ฅ์ ํ๊ท ์์ ์ด ๋ถ๋ฆฌ๋จ์ผ๋ก์จ ๋ ์์ ์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ต์ ํ๋ ์ ์์ด, ํ์ง ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. ํนํ ํ๊ท ์์ ์ด ๋ถ๋ฅ ์์ ์ ์ํฅ์ ๋ฐ์ง ์์ ๋ ์ ๋ฐํ ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก์ด ๊ฐ๋ฅํด์ง๋๋ค.
- ๋น ๋ฅธ ์๋ ด: ๋ถ๋ฆฌํ ํค๋๋ฅผ ์ฌ์ฉํ๋ฉด ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ฉฐ, ๋ ๋น ๋ฅด๊ฒ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค๋ ์๋ฏธ์ ๋๋ค.
-
๋ค์ค ๊ธ์ ์ํ(Multi-positives) ์ ๋ต
- ๊ธฐ์กด ๋ฐฉ์: ๊ธฐ์กด YOLO ๋ชจ๋ธ์์๋ ๊ฐ ๊ฐ์ฒด์ ๋ํด ํ ๊ฐ์ ์์น๋ง ๊ธ์ (positive) ์ํ๋ก ์ ํํ์ฌ ํ์ต์ ์ฌ์ฉํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ฒด์ ์ค์ฌ์ ํด๋นํ๋ ํ ์ ๋ง ๊ธ์ ์ํ๋ก ์ ํํ๊ณ ๋๋จธ์ง๋ ๋ถ์ (negative) ์ํ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ ํ์ต ์ค ๊ฐ์ฒด์ ๊ด๋ จ๋ ์ ๋ณด๊ฐ ์ถฉ๋ถํ ๋ฐ์๋์ง ์์ ์ ์์ต๋๋ค.
- ๋ค์ค ๊ธ์ ์ํ ์ ๋ต์ ๋์ : YOLOX๋ ํ ๊ฐ์ ๊ธ์ ์ํ๋ง ์ฌ์ฉํ๋ ๋์ , ์ฌ๋ฌ ๊ฐ์ ๊ธ์ ์ํ์ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, ๊ฐ์ฒด์ ์ค์ฌ์ ํฌํจํ ์ฃผ๋ณ 3x3 ์์ญ์ ๋ชจ๋ ๊ธ์ ์ํ๋ก ์ง์ ํ์ฌ ํ์ต์ ์ฌ์ฉํฉ๋๋ค.
- ์ฅ์ :
- ๋ ๋ง์ ์ ๋ณด ๋ฐ์: ๋ค์ค ๊ธ์ ์ํ์ ์ฌ์ฉํจ์ผ๋ก์จ, ๊ฐ ๊ฐ์ฒด์ ๋ํด ๋ ๋ง์ ์ ๋ณด๋ฅผ ํ์ต์ ํ์ฉํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ ํนํ ๋ณต์กํ ์ฅ๋ฉด์์ ๊ฐ์ฒด๊ฐ ์ฌ๋ฌ ๊ฐ ๊ฒน์ณ ์์ ๋ ๋ ์ข์ ํ์ง ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
- ๋ ๋์ ์ฑ๋ฅ: ๊ฐ์ฒด์ ์ฌ๋ฌ ์์น์์ ๊ธ์ ์ํ์ ์์ฑํจ์ผ๋ก์จ, ๋ชจ๋ธ์ด ๋ ๋ค์ํ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์์ผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ์ ํํ ํ์ง ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
-
SimOTA (Optimal Transport Assignment)
- ๊ธฐ์กด ๋ผ๋ฒจ ํ ๋น ๋ฐฉ์: ๊ธฐ์กด YOLO ๋ชจ๋ธ์์๋ ๊ฐ์ฒด์ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ๊ฐ์ ๋งค์นญ์ ์ํด ๊ณ ์ ๋ ๊ท์น์ ๋ฐ๋ผ ๋ผ๋ฒจ์ ํ ๋นํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ๊ฐ์ฒด์ ์ค์ฌ์ ๊ณผ ๊ฐ์ฅ ๊ฐ๊น์ด ์์ธก ๊ฐ๋ง ๊ธ์ ์ํ๋ก ํ ๋นํ๋ ๋ฐฉ์์ ๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ์์ ๊ฐ์ฒด ํฌ๊ธฐ์ ์์น์ ๋ฐ๋ผ ์ต์ ์ ํ ๋น์ด ์ด๋ฃจ์ด์ง์ง ์์ ์ ์์ต๋๋ค.
- SimOTA์ ๋์ : YOLOX๋ SimOTA๋ผ๋ ์ต์ ์ด์ก ํ ๋น(Optimal Transport Assignment) ์ ๋ต์ ์ฌ์ฉํ์ฌ ๋ผ๋ฒจ ํ ๋น ๊ณผ์ ์ ์ต์ ํํฉ๋๋ค. SimOTA๋ ๊ฐ์ฒด์ ์์ธก ๊ฐ ๊ฐ์ ๋น์ฉ(cost)์ ๊ณ์ฐํ์ฌ, ๊ฐ์ฅ ์ ์ ํ ์์ธก ๊ฐ์ ๊ธ์ ์ํ๋ก ์ ํํ๋ ๋ฐฉ์์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ฒด ํฌ๊ธฐ๋ ์์น์ ์๊ด์์ด ๋ ์ ์ฐํ๊ฒ ๋ผ๋ฒจ์ ํ ๋นํ ์ ์์ต๋๋ค.
- ์ฅ์ :
- ํจ์จ์ฑ ์ฆ๊ฐ: SimOTA๋ ํ์ต ๊ณผ์ ์์ ๊ฐ ๊ฐ์ฒด์ ๋ํด ๋ ์ ํํ ๋ผ๋ฒจ ํ ๋น์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค. ํนํ ๋์ ํ-k(Dynamic Top-k) ๋ฐฉ์์ ํตํด ๊ฐ์ฒด๋ง๋ค ๋ค๋ฅธ ์์ ๊ธ์ ์ํ์ ํ ๋นํ์ฌ ๋ ์ ๊ตํ ํ์ง๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
- ํ์ต ์๊ฐ ๋จ์ถ: SimOTA๋ ๋ผ๋ฒจ ํ ๋น ๊ณผ์ ์ ๊ฐ์ํํ์ฌ, ์ถ๊ฐ์ ์ธ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์์ด๋ ํจ๊ณผ์ ์ธ ๋ผ๋ฒจ ํ ๋น์ด ๊ฐ๋ฅํฉ๋๋ค. ๋ํ, ๊ธฐ์กด์ ๋ณต์กํ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋นํด ํ์ต ์๊ฐ์ด ๋จ์ถ๋๋ฉฐ, ์ฑ๋ฅ ์ ํ ์์ด ๋ ๋น ๋ฅด๊ฒ ๋ชจ๋ธ์ ํ์ตํ ์ ์์ต๋๋ค.
13.2 YOLOX์ ์ํคํ ์ฒ
YOLOX์ ์ํคํ ์ฒ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด์ง๋ง, ๋ช ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ฌํญ์ด ํฌํจ๋์ด ์์ต๋๋ค.
-
Backbone
- YOLOX๋ YOLOv4 ๋ฐ YOLOv5์์ ์ฌ์ฉ๋ CSPNet ๋ฐฑ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ, ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํฉ๋๋ค. CSPNet์ ์ ๊ฒฝ๋ง์ ์ฐ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํํ๊ณ ์ ๋ณด ์์ค์ ์ต์ํํ์ฌ, ๋ ๋์ ํน์ง์ ํ์ตํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
Neck
- YOLOX๋ FPN (Feature Pyramid Network)๊ณผ PANet (Path Aggregation Network)์ ์ฌ์ฉํ์ฌ ์์ ๋ฐ ํ์ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํ๊ณ , ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก ์ง์ํฉ๋๋ค. ์ด๋ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํ์งํ ์ ์๋ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
-
Head
- YOLOX์ ๋์ปคํ๋ ํค๋(decoupled head)๋ ์ธ ๊ฐ์ง ์ฃผ์ ์์ (๋ถ๋ฅ, ํ๊ท, ๊ฐ์ฒด์ฑ)์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ ์ ๋ฐํ ํ์ง ๊ฒฐ๊ณผ๋ฅผ ๋์ถํฉ๋๋ค. ์ด๋ฅผ ํตํด YOLOX๋ ๊ฐ์ฒด์ ์์น, ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ํด๋์ค์ ๋ํ ์์ธก์ ๋ ์ ํํ๊ฒ ์ํํ ์ ์์ต๋๋ค.
-
YOLOv6 (2022๋ 9์)
YOLOv6
๋ Meituan Vision AI ํ์ด 2022๋
์ ๋ฐํํ ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ์ต์ ๋ฐ์ ์ค ํ๋์
๋๋ค. YOLOv6๋ ๊ณ ์ฑ๋ฅ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ์ ํต์ ์ธ ์๋์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์๋ ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ํนํ YOLOv6๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ๋ก๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ๋ค์ํ ํ๋์จ์ด ํ๋ซํผ์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
- YOLOv6๋ YOLO ์๋ฆฌ์ฆ์ ๋น ๋ฅธ ์๋๋ฅผ ์ ์งํ๋ฉด์๋ ์ต์ ๊ธฐ์ ์ ํตํฉํ์ฌ ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํค๊ธฐ ์ํ ๋ค์ํ ์ต์ ํ ๊ธฐ๋ฒ์ ๋์ ํ์์ต๋๋ค.
- ์ด ๋ชจ๋ธ์ ํนํ ์ฐ์ ์ฉ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ํฉํ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ์ ์ฐจ๋ณํ๋ฅผ ์ํด ๋ช ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ฌํญ์ ์ ์ฉํ์์ต๋๋ค.
14.1 YOLOv6์ ์ฃผ์ ํน์ง
-
Efficient Backbone: RepVGG
- YOLOv6๋ ๋ฐฑ๋ณธ ๋คํธ์ํฌ๋ก RepVGG ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. RepVGG๋ ๊ธฐ์กด์ VGG ๋คํธ์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ํจ์จ์ ์ธ ๊ตฌ์กฐ๋ก, ํ์ต ์ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๋จ์ํํ๊ณ ์ถ๋ก ์ ๋งค์ฐ ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค. RepVGG๋ ํ์ต ๋จ๊ณ์์ ์ฌ๋ฌ ๊ฐ์ง ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ํตํฉํด ํ์ตํ ๋ค, ์ถ๋ก ์ ์ด๋ฅผ ๊ฐ์ํ๋ ๊ตฌ์กฐ๋ก ๋ณํํด ๋น ๋ฅธ ์ฐ์ฐ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ฅผ ํตํด YOLOv6๋ ๋์ ์ ํ๋์ ํจ๊ป ์ค์๊ฐ ์ถ๋ก ์ฑ๋ฅ์ ์ ์งํ ์ ์์ต๋๋ค.
-
์์ํ ์ง์ (Quantization Support)
- YOLOv6๋ ์์ํ ๊ธฐ๋ฒ์ ์ง์ํ์ฌ ๊ฒฝ๋ํ๋ ๋๋ฐ์ด์ค์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์์ํ๋ ๋ชจ๋ธ์ ์ ๋ฐ๋๋ฅผ ์ค์ฌ์ ์ฐ์ฐ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ผ๋ก, YOLOv6๋ 8๋นํธ ์์ํ๋ฅผ ์ง์ํ์ฌ ์ฑ๋ฅ ์ ํ ์์ด ๋งค์ฐ ๋์ ์ฐ์ฐ ํจ์จ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ ํนํ ์๋ฒ ๋๋ ์์คํ ์ด๋ ๋ชจ๋ฐ์ผ ํ๊ฒฝ์์์ ๊ฐ์ฒด ํ์ง์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
-
๊ณ ์ฑ๋ฅ ๊ฐ์ฒด ํ์ง
- YOLOv6๋ ํนํ ์ํ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์ ํํ๊ฒ ํ์งํ ์ ์๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ๋์ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค. YOLOv6๋ ๋จ์ผ GPU์์ ๋งค์ฐ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํ๋ฉด์๋, MS COCO์ ๊ฐ์ ๋ํ ๋ฐ์ดํฐ์ ์์ ๋์ ์ ํ๋๋ฅผ ์๋ํฉ๋๋ค.
-
์ฑ๋ ๊ธฐ๋ฐ ์ง์ ์ฆ๋ฅ (Channel-based Knowledge Distillation)
- YOLOv6๋ ํ์ต ๊ณผ์ ์์ ์ฑ๋ ๊ธฐ๋ฐ ์ง์ ์ฆ๋ฅ ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์ด ๊ธฐ๋ฒ์ ๊ณ ์ฑ๋ฅ์ ๊ต์ฌ ๋ชจ๋ธ(teacher model)์์ ํ์ต๋ ํน์ง์ ๊ฒฝ๋ํ๋ ํ์ ๋ชจ๋ธ(student model)์ ์ ๋ฌํ์ฌ, ๊ฒฝ๋ ๋ชจ๋ธ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ๋์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ฒฝ๋ํ๋ YOLOv6 ๋ชจ๋ธ๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์์ต๋๋ค.
-
๋์ ํจ์จ์ฑ์ ์ต์ ํ ๊ธฐ๋ฒ
- YOLOv6๋ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ์ต์ ์ต์ ํ ๊ธฐ๋ฒ์ ๋์ ํ์ต๋๋ค. ํนํ, RepOptimizer์ ๊ฐ์ ์๋ก์ด ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ์ฌ, ๋ชจ๋ธ์ ์๋ ด ์๋๋ฅผ ๋์ด๊ณ , ๋ ์ ์ ํ์ต ๋จ๊ณ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๊ฒ ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ ํ์ต ์๊ฐ์ด ๋จ์ถ๋๊ณ , ๋ ์ ์ ์์์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์ต๋๋ค.
14.2 YOLOv6์ ์ํคํ ์ฒ
YOLOv6์ ์ํคํ ์ฒ๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ ์ ์ฌํ์ง๋ง, ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํ ๋ช ๊ฐ์ง ์ค์ํ ๋ณ๊ฒฝ ์ฌํญ์ด ์ ์ฉ๋์์ต๋๋ค:
-
Backbone: RepVGG
- YOLOv6๋ RepVGG ๊ธฐ๋ฐ์ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํฉ๋๋ค. RepVGG๋ ๋ณต์กํ ์ฐ์ฐ์ ๋จ์ํํ๋ ๋์์ ๊ฐ๋ ฅํ ํน์ง ์ถ์ถ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด ๋ฐฑ๋ณธ์ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ๋งค์ฐ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฅํฉ๋๋ค.
-
Neck: PANet (Path Aggregation Network)
- YOLOv6๋ PANet์ ์ฌ์ฉํ์ฌ ์์ ๊ณ์ธต์ ๊ณ ์์ค ์ ๋ณด์ ํ์ ๊ณ์ธต์ ์ ์์ค ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค. PANet์ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก ์ค๊ณ๋์ด, YOLOv6๋ ์์ ๊ฐ์ฒด๋ถํฐ ํฐ ๊ฐ์ฒด๊น์ง ๋ชจ๋ ์ ํํ๊ฒ ํ์งํ ์ ์์ต๋๋ค.
-
Head
- YOLOv6๋ ๊ฐ์ฒด์ ์์น์ ํฌ๊ธฐ๋ฅผ ์์ธกํ๊ธฐ ์ํ Dense Prediction Head๋ฅผ ์ฌ์ฉํฉ๋๋ค. YOLOv6๋ ์ฌ๋ฌ ํด์๋์์ ์์ธก์ ์ํํ๋ฉฐ, ๋ค์ค ์ค์ผ์ผ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์์ต๋๋ค. ๋ํ, YOLOv6๋ Non-Maximum Suppression (NMS) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ค๋ณต๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ๊ฑฐํ๊ณ ๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
YOLOv7 (2022๋ 7์)
YOLOv7
์ 2022๋
YOLO ๋ชจ๋ธ์ ๊ฐ๋ฐ์๋ค์ด ๋ฐํํ ์ต์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์ ์ฅ์ ์ ๊ณ์นํ๋ฉด์๋ ์๋์ ์ ํ๋์์ ์ค์ํ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค.
- ํนํ, YOLOv7์ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ, ๋์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๋ชจ๋ธ์ ๋๋ค.
- ์ด ๋ชจ๋ธ์ ๋จ์ผ GPU์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ฌ๋ฌ ๊ฐ์ง ์๋ก์ด ๊ธฐ์ ์ ๊ฐ์ ์ด ์ ์ฉ๋์์ต๋๋ค.
15.1 YOLOv7์ ์ฃผ์ ํน์ง
-
Extended Efficient Layer Aggregation Network (ELAN)
- YOLOv7์ Extended Efficient Layer Aggregation Network (ELAN) ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ, ์ด์ YOLO ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ํจ์จ์ ์ธ ํน์ง ์ถ์ถ์ด ๊ฐ๋ฅํฉ๋๋ค. ELAN์ ์ฌ๋ฌ ๊ณ์ธต์ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ, ๋คํธ์ํฌ์ ํ์ต ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ๋ ๋์ ํน์ง ํํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ฅผ ํตํด YOLOv7์ ๋ ๊น์ ๋คํธ์ํฌ ๊ตฌ์กฐ์์๋ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋์์ต๋๋ค.
-
Dense Detection Head
- YOLOv7์ Dense Detection Head ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๋ ์ ๋ฐํ ๊ฐ์ฒด ํ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์ด ์ฌ์ฉํ ํ์ง ํค๋๋ณด๋ค ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ์์ ๊ฐ์ฒด๋ถํฐ ํฐ ๊ฐ์ฒด๊น์ง ๋ ์ ํํ๊ฒ ํ์งํ ์ ์์ต๋๋ค. Dense Detection Head๋ ํนํ ์์ ๊ฐ์ฒด ํ์ง์์ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์์ต๋๋ค.
-
Re-parameterization Techniques (RepConv)
- YOLOv7์ Re-parameterization ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํ์ต ์ ๋ณต์กํ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋จ์ํํ๊ณ , ์ถ๋ก ์์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค. ํนํ, YOLOv7์ RepConv ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ๋จ์ผ ๊ณ์ธต์ผ๋ก ๋ณํฉํ์ฌ ์ถ๋ก ์๋๋ฅผ ๋์ ๋๋ค. ์ด๋ก ์ธํด, YOLOv7์ ํ์ต ๋จ๊ณ์์๋ ๋ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ถ๋ก ๋จ๊ณ์์๋ ๊ฐ์ํ๋ ๊ตฌ์กฐ๋ก ๋น ๋ฅด๊ฒ ๋์ํ ์ ์์ต๋๋ค.
-
์ค์ผ์ผ ํจ์จ์ฑ (Scale Efficiency)
- YOLOv7์ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ณด๋ค ์ค์ผ์ผ ํจ์จ์ฑ์ด ๋ฐ์ด๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์์ ์ฐ์ฐ๋์ ํฌ๊ฒ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ๊ทน๋ํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. YOLOv7์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ ์ฌ์ ํ๋์จ์ด์์๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
-
๋ ์ ์ ์ฐ์ฐ๋์ผ๋ก ๋ ๋์ ์ฑ๋ฅ
- YOLOv7์ ์ด์ YOLOv4 ๋ฐ YOLOv5์ ๋น๊ตํ์ ๋, 75% ์ ์ ํ๋ผ๋ฏธํฐ์ 36% ์ ์ ์ฐ์ฐ๋์ผ๋ก๋ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ต์ ํ ๊ธฐ๋ฒ ๋๋ถ์ ๊ฐ๋ฅํ๋ฉฐ, ๋จ์ผ GPU์์ ์ต๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
15.2 YOLOv7์ ์ํคํ ์ฒ
YOLOv7์ ์ํคํ ์ฒ๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ ์ ์ฌํ์ง๋ง, ๋ช ๊ฐ์ง ์ค์ํ ์ต์ ํ๊ฐ ์ถ๊ฐ๋์์ต๋๋ค:
-
Backbone: ELAN
- YOLOv7์ ๋ฐฑ๋ณธ์ Extended ELAN ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ELAN์ ํน์ง ์ถ์ถ์ ๋์ฑ ํจ์จ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด ์ฌ๋ฌ ์ธต์์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ ๊ฒฝ๋ง์ด ํ์ตํ ์ ์๋ ํํ์ ๋ ํ๋ถํ๊ฒ ๋ง๋ญ๋๋ค. ์ด ๋ฐฑ๋ณธ์ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์ ํํ๊ฒ ํ์งํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
Neck: PANet
- YOLOv7์ PANet (Path Aggregation Network)์ ์ฌ์ฉํ์ฌ ์์ ๊ณ์ธต๊ณผ ํ์ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํ๊ณ , ์์ ๊ฐ์ฒด๋ถํฐ ํฐ ๊ฐ์ฒด๊น์ง ๋ชจ๋ ํ์งํ ์ ์๊ฒ ํฉ๋๋ค. PANet์ ํนํ ์์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํํ๊ฒ ํ์งํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
-
Head: Dense Detection Head
- YOLOv7์ Dense Detection Head๋ ๊ฐ ํน์ง ๋งต์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ , ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์์น, ํฌ๊ธฐ, ํด๋์ค ํ๋ฅ ์ ์์ธกํฉ๋๋ค. Dense Detection Head๋ ๊ธฐ์กด YOLO ํค๋๋ณด๋ค ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ์ฌ ํ์ง ์ ํ๋๋ฅผ ๋์ด๋ฉฐ, ํนํ ์์ ๊ฐ์ฒด์ ๋ํ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค.
-
DAMO-YOLO (2022๋ 12์)
DAMO-YOLO
๋ 2022๋
์๋ฆฌ๋ฐ๋ฐ์ DAMO Academy์์ ๊ฐ๋ฐํ ์ต์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ๋น ๋ฅธ ์๋์ ๋์ ์ ํ๋๋ฅผ ๊ณ์นํ๋ฉด์๋ ์ฌ๋ฌ ๊ธฐ์ ์ ํ์ ์ ํตํด ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํจ ๋ชจ๋ธ์
๋๋ค.
- DAMO-YOLO๋ ์ฃผ๋ก ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์ ๊ณ ์ฑ๋ฅ์ ๋ชฉํ๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ํนํ ๊ฒฝ๋ ๋ชจ๋ธ์์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ๋ฐ ์ค์ ์ ๋๊ณ ์์ต๋๋ค.
16.1 DAMO-YOLO์ ์ฃผ์ ํน์ง
- Neural Architecture Search (NAS) ๊ธฐ๋ฐ ์ค๊ณ
- DAMO-YOLO๋ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ ํ์(Neural Architecture Search, NAS) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ต์ ์ ์ํคํ ์ฒ๋ฅผ ์๋์ผ๋ก ์ค๊ณํฉ๋๋ค. NAS๋ ๋ค์ํ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์คํํ๊ณ ์ต์ ์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ์ฐพ์๋ด๋ ๊ธฐ๋ฒ์ผ๋ก, DAMO-YOLO๋ ์ด ๊ธฐ๋ฒ์ ํตํด ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ๊ฐ๋ฐํ ์ ์์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํน์ ํ๋์จ์ด ํ๊ฒฝ์ ์ต์ ํ๋๋ฉฐ, ํนํ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
NAS(Neural Architecture Search)๋?
- Neural Architecture Search(NAS)๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์๋์ผ๋ก ์ค๊ณํ๋ ๊ธฐ์ ์ ๋๋ค. ์ ํต์ ์ผ๋ก ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ค๊ณํ ๋๋ ์ฌ๋ ์ ๋ฌธ๊ฐ๊ฐ ์ง์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์ ์ํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ์์ ์ ์ํํ์ต๋๋ค. ํ์ง๋ง NAS๋ ์ด ๊ณผ์ ์ ์๋ํํ์ฌ ์ต์ ์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ํ์ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- NAS๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์๋ก ๋๋ ์ ์์ต๋๋ค:
- ํ์ ๊ณต๊ฐ(Search Space): NAS์์ ๊ฐ๋ฅํ ๋ชจ๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ์งํฉ์ ์ ์ํ๋ ๊ณต๊ฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋คํธ์ํฌ ๊น์ด, ๊ฐ ์ธต์ ํฌ๊ธฐ, ํ์ฑํ ํจ์, ํฉ์ฑ๊ณฑ ํํฐ ํฌ๊ธฐ ๋ฑ์ด ํ์ ๋์์ด ๋ ์ ์์ต๋๋ค.
- ํ์ ์ ๋ต(Search Strategy): ์ด ์ ๋ต์ ํ์ ๊ณต๊ฐ์์ ์ต์ ์ ์ํคํ ์ฒ๋ฅผ ์ฐพ๊ธฐ ์ํด ์ฌ์ฉ๋ฉ๋๋ค. ์ฌ๊ธฐ์๋ ๋ฌด์์ ํ์, ์งํ ์๊ณ ๋ฆฌ์ฆ, ๊ฐํํ์ต ๋๋ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ ๋ฑ์ด ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ํ์ ์ ๋ต์ ๋ฐ๋ผ ์ํคํ ์ฒ์ ํ๊ฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๋ ๋ฐฉ์์ด ๊ฒฐ์ ๋ฉ๋๋ค.
ํ๊ฐ ๋ฐฉ๋ฒ(Evaluation Strategy): ๊ฐ ์ํคํ ์ฒ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ผ๋ฐ์ ์ผ๋ก ์ํคํ ์ฒ๋ฅผ ํ๋ จ์ํค๊ณ ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. ํ์ง๋ง ๋ชจ๋ ์ํคํ ์ฒ๋ฅผ ์ง์ ํ๋ จํ๋ ๊ฒ์ ๋งค์ฐ ๋น์ฉ์ด ํฌ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ์์ ํ๊ฒ ํ๋ จํ์ง ์๊ณ ์ฑ๋ฅ์ ์์ธกํ๋ ๊ธฐ์ ๋ค์ด ์ฌ์ฉ๋๊ธฐ๋ ํฉ๋๋ค(์: proxy ๋ชจ๋ธ, weight sharing ๋ฑ).
-
Anchor-free ๊ตฌ์กฐ
- DAMO-YOLO๋ ์ต์ปค๋ฆฌ์ค(anchor-free) ๊ตฌ์กฐ๋ฅผ ์ฑํํ์ฌ, ๊ธฐ์กด ์ต์ปค ๊ธฐ๋ฐ YOLO ๋ชจ๋ธ๋ค์์ ํ์ํ๋ ์ต์ปค ๋ฐ์ค ์ค์ ๊ณผ์ ์ ์๋ตํ๊ณ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ต์ปค๋ฆฌ์ค ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ , ํ์ต๊ณผ ์ถ๋ก ์ ๋ ๊ฐ๊ฒฐํ๊ฒ ๋ง๋ค๋ฉฐ, ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด์ ๋ํด ๋ ๋์ ํ์ง ์ ํ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
Efficient Backbone
- DAMO-YOLO๋ ํจ์จ์ ์ธ ๋ฐฑ๋ณธ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์ฐ์ฐ๋์ ํฌ๊ฒ ์ค์์ต๋๋ค. CSPNet๊ณผ ์ ์ฌํ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ์ฐ์ฐ๋์ ์ค์ด๋ฉด์๋ ๋ค์ํ ํด์๋์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ๋ํ, ์ด ๋ฐฑ๋ณธ์ ๊ฒฝ๋ํ๋ ํ๊ฒฝ์์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
-
Dynamic Head
- DAMO-YOLO๋ Dynamic Head ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ, ๊ฐ์ฒด ํ์ง ํค๋์์ ๋ค์ํ ํฌ๊ธฐ์ ์์น์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํํ๊ฒ ํ์งํ ์ ์์ต๋๋ค. Dynamic Head๋ ๊ณ ์ ๋ ํค๋ ๊ตฌ์กฐ ๋์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ ๋์ ์ผ๋ก ๋ณํ๋๋ฉฐ, ๋ค์ํ ํ๊ฒฝ์์ ๋ ๋์ ํ์ง ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
FP16 ๋ฐ INT8 ์์ํ ์ง์
- DAMO-YOLO๋ FP16 ๋ฐ INT8 ์์ํ๋ฅผ ์ง์ํ์ฌ ๊ฒฝ๋ํ๋ ๋๋ฐ์ด์ค์์ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค. ์์ํ๋ ๋ชจ๋ธ์ ์ ๋ฐ๋๋ฅผ ์ค์ฌ ์ฐ์ฐ์ ์ต์ ํํ๋ฉด์๋ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. DAMO-YOLO๋ ์ด๋ฅผ ํตํด ๋ชจ๋ฐ์ผ ํ๊ฒฝ์ด๋ ์๋ฒ ๋๋ ์์คํ ์์ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํํ ์ ์์ต๋๋ค.
16.2 DAMO-YOLO์ ์ํคํ ์ฒ
DAMO-YOLO์ ์ํคํ ์ฒ๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ ๋ช ๊ฐ์ง ์ ์ฌํ ์ ์ด ์์ง๋ง, NAS ๊ธฐ๋ฒ์ ํตํด ์๋์ผ๋ก ์ค๊ณ๋ ์ต์ ํ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ์ํคํ ์ฒ๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค:
-
Backbone: Lightweight Efficient Backbone
- DAMO-YOLO๋ CSPNet ๊ธฐ๋ฐ์ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ๊ฒฝ๋ํ์ ์ฑ๋ฅ์ ๋ชจ๋ ๊ทน๋ํํ์ต๋๋ค. ์ด ๋ฐฑ๋ณธ์ ๋ค์ํ ํฌ๊ธฐ์ ํน์ง ๋งต์ ํจ์จ์ ์ผ๋ก ์ถ์ถํ์ฌ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๋์ด๋ฉฐ, ์ฐ์ฐ๋์ ์ค์ฌ ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
Neck: PANet
- YOLO ๋ชจ๋ธ์์ ์์ฃผ ์ฌ์ฉ๋๋ PANet (Path Aggregation Network) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ์์ ๊ณ์ธต๊ณผ ํ์ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํ์ฌ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์์ต๋๋ค. ํนํ, PANet์ ์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํฉ๋๋ค.
-
Head: Dynamic Head
- DAMO-YOLO์ Dynamic Head๋ ๊ธฐ์กด ๊ณ ์ ๋ ๊ตฌ์กฐ์ ํ์ง ํค๋ ๋์ , ์ ๋ ฅ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ง์ถฐ ์ ์ฐํ๊ฒ ์กฐ์ ๋๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ํฌ๊ธฐ์ ๋ณต์กํ ์ฅ๋ฉด์์ ๊ฐ์ฒด๋ฅผ ๋ ์ ํํ๊ฒ ํ์งํ ์ ์์ผ๋ฉฐ, ๋ค์ํ ํ๊ฒฝ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
-
YOLOv8 (2023๋ 1์)
YOLOv8
์ 2023๋
1์ Ultralytics์ ์ํด ๋ฐํ๋ ์ต์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ๊ฐ์ฅ ์ต๊ทผ ๋ฒ์ ์
๋๋ค. YOLOv8์ ์ด์ ๋ฒ์ ์ธ YOLOv5์ ๊ฐ์ ๋ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ํนํ ๊ฒฝ๋ํ์ ์ ํ๋ ๋ชจ๋์์ ํฐ ์ฑ์ฅ์ ์ด๋ฃจ์์ต๋๋ค.
- YOLOv8์ ๊ฐ์ฒด ํ์ง๋ฟ๋ง ์๋๋ผ ์ธ๊ทธ๋ฉํ ์ด์ , ๋ถ๋ฅ, ํฌ์ฆ ์ถ์ ๋ฑ ๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์ ์ ํฉํ๊ฒ ์ค๊ณ๋์์ต๋๋ค.
- YOLOv8์ PyTorch ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋์ด ์์ผ๋ฉฐ, ์ฌ์ฉ์๋ค์ด ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ์ต์ ํ๋์์ต๋๋ค.
- YOLOv8์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ๊ฐ์ํ, ์ฑ๋ฅ ์ต์ ํ, ๋ ๋์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ ์ ์ฉ์ ํตํด ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
17.1 YOLOv8์ ์ฃผ์ ํน์ง
-
Anchor-free ๊ตฌ์กฐ
- YOLOv8์ ์ต์ปค๋ฆฌ์ค(anchor-free) ํ์ง ๋ฐฉ์์ ์ฑํํ์์ต๋๋ค. ์ด ๋ฐฉ์์ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค์์ ์ฌ์ฉ๋์๋ ์ต์ปค ๋ฐ์ค(anchor boxes) ์ค์ ์ด ๋ถํ์ํ๋ฉฐ, ๊ฐ์ฒด์ ์ค์ฌ์ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ๊ฐ์ํ๋๊ณ ํ์ต ์๋๊ฐ ๋นจ๋ผ์ก์ผ๋ฉฐ, ์ต์ปค ๋ฐ์ค ์กฐ์ ์ ๋ํ ๋ณต์ก์ฑ์ด ์ฌ๋ผ์ก์ต๋๋ค.
-
Improved Backbone: C2f ๋ชจ๋
- YOLOv8์ YOLOv5์์ ์ฌ์ฉ๋ CSPNet ๋ฐฑ๋ณธ ๋์ C2f (Cross Stage Partial with Focus) ๋ชจ๋์ ๋์ ํ์ฌ ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.
C2f ๋ชจ๋
์ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ๋ก, ๋ชจ๋ธ์ ์ฐ์ฐ๋์ ์ค์ด๋ฉด์๋ ๋ ๊ฐ๋ ฅํ ํน์ง ์ถ์ถ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ก ์ธํด YOLOv8์ YOLOv5๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
-
Decoupled Head ๊ตฌ์กฐ
- YOLOv8์ ๋์ปคํ๋ ํค๋(Decoupled Head) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฐ์ฒด์ฑ(objectness), ํ๊ท(regression), ๋ถ๋ฅ(classification) ์์ ์ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค.
- ๊ธฐ์กด์ YOLO ๋ชจ๋ธ๋ค์ด ๋ชจ๋ ์์ ์ ํ๋์ ํค๋์์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, YOLOv8์ ๊ฐ๊ฐ์ ์์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ํ์ง ์ฑ๋ฅ์ ๋์ฑ ๊ฐ์ ํ์ต๋๋ค. ์ด ๋ฐฉ์์ ํนํ ๊ฐ์ฒด์ ํฌ๊ธฐ์ ์์น ์์ธก์ ๋์ฑ ์ ํํ๊ฒ ๋ง๋ญ๋๋ค.
-
๋์ ํ์ฅ์ฑ: ๋ค์ํ ๋ชจ๋ธ ํฌ๊ธฐ ์ ๊ณต
- YOLOv8์ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ ์ฌ์ฉ์๊ฐ ์์ ์ ์ฉ๋์ ๋ง๊ฒ ์ ํํ ์ ์์ต๋๋ค. ๊ฒฝ๋ํ๋ ๋ชจ๋ธ๋ถํฐ ๋ํ ๋ชจ๋ธ๊น์ง ์ ํํ ์ ์์ด, ์์ ๋๋ฐ์ด์ค์์๋ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ ๊ณ ์ฑ๋ฅ ์์คํ
์์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
- YOLOv8n (nano): ๋งค์ฐ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ๋ก, ์๋ฒ ๋๋ ์์คํ ๋ฐ ๋ชจ๋ฐ์ผ ์ฅ์น์ ์ ํฉ.
- YOLOv8s (small): ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๋ชจ๋ธ๋ก, ์ค๊ฐ ์์ค์ ์์ ์ ์ ํฉ.
- YOLOv8m (medium): ๋ ๋ณต์กํ ์์ ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋ชจ๋ธ.
- YOLOv8l (large) ๋ฐ YOLOv8x (extra-large): ๊ณ ์ฑ๋ฅ์ ํ์๋ก ํ๋ ์์ ์ ์ ํฉํ๋ฉฐ, ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
- YOLOv8์ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ ์ฌ์ฉ์๊ฐ ์์ ์ ์ฉ๋์ ๋ง๊ฒ ์ ํํ ์ ์์ต๋๋ค. ๊ฒฝ๋ํ๋ ๋ชจ๋ธ๋ถํฐ ๋ํ ๋ชจ๋ธ๊น์ง ์ ํํ ์ ์์ด, ์์ ๋๋ฐ์ด์ค์์๋ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ ๊ณ ์ฑ๋ฅ ์์คํ
์์๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
-
์ธ๊ทธ๋ฉํ ์ด์ ๋ฐ ํฌ์ฆ ์ถ์ ์ง์
- YOLOv8์ ๊ฐ์ฒด ํ์ง ์ธ์๋ ์ธ๊ทธ๋ฉํ ์ด์ , ํฌ์ฆ ์ถ์ , ์ถ์ , ๋ถ๋ฅ ์์ ์ ์ง์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋จ์ผ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ์์ ์ ๋์์ ์ํํ ์ ์์ผ๋ฉฐ, ์ปดํจํฐ ๋น์ ๋ถ์ผ์์์ ํ์ฉ๋๋ฅผ ๋์ฑ ๋ํ์ต๋๋ค.
-
์์ค ํจ์: DFL ๋ฐ CIoU
- YOLOv8์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก์ ๋ํด CIoU (Complete Intersection over Union) ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์์น ์์ธก์ ์ ํ๋๋ฅผ ๋์์ต๋๋ค. ๋ํ, DFL (Distribution Focal Loss)์ ์ฌ์ฉํ์ฌ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ฒฝ๊ณ ์์ธก ์ฑ๋ฅ์ ๋์ฑ ํฅ์์์ผฐ์ต๋๋ค.
17.2 YOLOv8์ ์ํคํ ์ฒ
- YOLOv8์ ์ํคํ ์ฒ๋ ๊ธฐ์กด YOLOv5์ ์ ์ฌํ์ง๋ง, ์ฌ๋ฌ ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ฌํญ์ด ํฌํจ๋์ด ์์ต๋๋ค:
-
Backbone: C2f ๋ชจ๋
- YOLOv8์ YOLOv5์์ ์ฌ์ฉ๋ CSPNet ๋์ C2f (Cross Stage Partial with Focus) ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ๋ ํจ์จ์ ์ธ ํน์ง ์ถ์ถ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. C2f ๋ชจ๋์ ์ฐ์ฐ๋์ ์ค์ด๋ฉด์๋ ๊ณ ์ฑ๋ฅ์ ์ ์งํ ์ ์๊ฒ ๋์์ค๋๋ค.
-
Neck: PANet
- YOLOv8์ PANet (Path Aggregation Network) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๊ณ์ธต๊ณผ ํ์ ๊ณ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๊ฒฐํฉํ๊ณ , ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก ์ง์ํฉ๋๋ค.
-
Head: Decoupled Head
- YOLOv8์ ํค๋๋ ๋์ปคํ๋ ํค๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด์ฑ, ๋ถ๋ฅ, ํ๊ท ์์ ์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์์ ์ ์ ํ๋๊ฐ ๋์ฑ ํฅ์๋๋ฉฐ, ํนํ ๊ฐ์ฒด์ ์์น ์์ธก๊ณผ ํฌ๊ธฐ ์์ธก์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค.
-
PP-YOLO, PP-YOLOv2, PP-YOLOE
PP-YOLO
์๋ฆฌ์ฆ๋ PaddlePaddle ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, Baidu์ AI ์ฐ๊ตฌ์์์ ๊ฐ๋ฐ๋์์ต๋๋ค.
- PP-YOLO๋ ๊ธฐ์กด YOLOv3 ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์ต์ ํ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํจ ๋ชจ๋ธ์ด๋ฉฐ, ์ดํ PP-YOLOv2์ PP-YOLOE๋ก ๋ฐ์ ํด ์์ต๋๋ค.
- PP-YOLO ์๋ฆฌ์ฆ๋ YOLO์ ๊ฐ๋ ฅํ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์ ํ๋์ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ์์ต๋๋ค.
ํจ๋คํจ๋ค(PaddlePaddle)์ด๋?
ํจ๋คํจ๋ค(PaddlePaddle)์ ๋ฐ์ด๋์์ ๊ฐ๋ฐํ ์คํ์์ค ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ์ ๋๋ค. ์ด ํ๋ ์์ํฌ์ ์ด๋ฆ์ โPArallel Distributed Deep LEarningโ์ ์๊ธ์๋ฅผ ๋ฐ์ ๋ง๋ค์ด์ก์ต๋๋ค.
- C++๋ก ์์ฑ๋์์ผ๋ฉฐ ํ์ด์ฌ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ์ํ ์ฐ์ฐ ์ฑ๋ฅ, ๋ถ์ฐ ํ๊ฒฝ, ๊ทธ๋ฆฌ๊ณ ์ํ ์ ๊ฒฝ๋ง์ ๋ํด ์ต์ ํ๋์์ต๋๋ค.
- ๋ฐ์ด๋์ ์ฌ๋ฌ ์ ํ์ ์ด๋ฏธ ๋๋ฆฌ ์ ์ฉ๋๊ณ ์์ต๋๋ค.
18.1 PP-YOLO (2020)
- PP-YOLO๋ 2020๋ ์ ๋ฐํ๋ ๋ชจ๋ธ๋ก, YOLOv3๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ง ์ต์ ํ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๋๋ค.
- PP-YOLO๋ PaddlePaddle์ด๋ผ๋ ์คํ์์ค ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ์์ ๊ตฌํ๋์์ผ๋ฉฐ, ๊ธฐ์กด YOLOv3๋ณด๋ค ๋์ ์ฑ๋ฅ์ ์๋ํฉ๋๋ค.
-
PP-YOLO์ ์ฃผ์ ์ต์ ํ ๊ธฐ๋ฒ
- PP-YOLO๋ YOLOv3์ ์ฌ๋ฌ ๊ฐ์ง Bag of Tricks ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ๋์์ต๋๋ค:
- ResNet50-vd ๋ฐฑ๋ณธ: YOLOv3์ Darknet ๋ฐฑ๋ณธ ๋์ ResNet50-vd๋ฅผ ์ฌ์ฉํ์ฌ ํน์ง ์ถ์ถ ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค. ResNet50-vd๋ ๋ ๊น์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ ์ ๊ตํ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค.
- DropBlock: ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด DropBlock์ ๋์ ํ์ฌ, ์ ๊ฒฝ๋ง์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.
- IoU-Aware Loss: ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก ์ IoU ๊ธฐ๋ฐ ์์ค ํจ์(IoU-Aware Loss)๋ฅผ ์ ์ฉํ์ฌ, ์์น ์์ธก์ ์ ํ๋๋ฅผ ํฅ์์์ผฐ์ต๋๋ค.
- Grid Sensitive: ๊ทธ๋ฆฌ๋ ์ ์ ์ค์ฌ ์์น๋ฅผ ๊ณ ๋ คํ์ฌ ์์น ์์ธก ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.
- Matrix NMS: ๊ธฐ์กด์ NMS(Non-Maximum Suppression) ๋ฐฉ์๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋ Matrix NMS ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ค๋ณต๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํฉ๋๋ค.
- CoordConv: ๊ฐ์ฒด์ ์์น์ ์ขํ ์ ๋ณด๋ฅผ ๋ ์ ํ์ตํ ์ ์๋๋ก CoordConv๋ฅผ ์ ์ฉํ์์ต๋๋ค.
- PP-YOLO๋ YOLOv3์ ์ฌ๋ฌ ๊ฐ์ง Bag of Tricks ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ๋์์ต๋๋ค:
-
PP-YOLO ์ฑ๋ฅ
- PP-YOLO๋ MS COCO ๋ฐ์ดํฐ์ ์์ AP50 45.2%๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ๊ธฐ์กด YOLOv3์ ๋นํด ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค.
- ํนํ, PP-YOLO๋ YOLOv3๋ณด๋ค ๋ ๋์ ์ ํ๋์ ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
18.2 PP-YOLOv2 (2021)
- PP-YOLOv2๋ 2021๋ ์ ๋ฐํ๋ PP-YOLO์ ์ ๊ทธ๋ ์ด๋ ๋ฒ์ ์ผ๋ก, ๊ธฐ์กด PP-YOLO์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด ๋ช ๊ฐ์ง ์ถ๊ฐ์ ์ธ ์ต์ ํ ๊ธฐ๋ฒ์ ๋์ ํ์์ต๋๋ค.
-
PP-YOLOv2์ ์ฃผ์ ๊ฐ์ ์ฌํญ
- ResNet101-vd ๋ฐฑ๋ณธ: PP-YOLOv2๋ ResNet50-vd ๋์ ResNet101-vd ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ๋ ๊น์ ๋คํธ์ํฌ๋ฅผ ํตํด ํน์ง ์ถ์ถ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
- Path Aggregation Network (PANet): PP-YOLOv2๋ Neck ๊ตฌ์กฐ๋ก PANet์ ๋์ ํ์ฌ ์ํ์ ๊ณ์ธต์ ํน์ง์ ๊ฒฐํฉํ๊ณ , ์์ ๊ฐ์ฒด๋ถํฐ ํฐ ๊ฐ์ฒด๊น์ง ๋ ์ ํํ๊ฒ ํ์งํ ์ ์๊ฒ ํ์์ต๋๋ค.
- Deformable Convolution (DCNv2): ํน์ง ์ถ์ถ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด DCNv2๋ฅผ ๋์ ํ์ฌ, ๊ฐ์ฒด์ ํฌ๊ธฐ์ ์์น์ ๋ฐ๋ผ ๋ ์ ์ฐํ ํน์ง ๋งต์ ์์ฑํ ์ ์๊ฒ ํ์์ต๋๋ค.
- IoU Loss & GIoU Loss: PP-YOLOv2๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด IoU Loss ๋ฐ GIoU (Generalized IoU) Loss๋ฅผ ์ฌ์ฉํ์ฌ ์์ธก ์ ํ๋๋ฅผ ๋์ฑ ๊ฐ์ ํ์ต๋๋ค.
-
PP-YOLOv2 ์ฑ๋ฅ
- PP-YOLOv2๋ MS COCO ๋ฐ์ดํฐ์ ์์ AP50 49.5%๋ฅผ ๊ธฐ๋กํ๋ฉฐ, PP-YOLO๋ณด๋ค ์ฝ 4%์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.
- ๋ํ, PP-YOLOv2๋ ๋ ๋์ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ๋ณต์กํ ์ฅ๋ฉด์์๋ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
18.3 PP-YOLOE (2022)
- PP-YOLOE๋ PP-YOLO ์๋ฆฌ์ฆ์ ์ต์ ๋ชจ๋ธ๋ก, 2022๋ ์ ๋ฐํ๋์์ต๋๋ค.
- PP-YOLOE๋ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ์ต์ปค๋ฆฌ์ค ํ์ง ๋ฐฉ์์ ๋์ ํ์์ผ๋ฉฐ, ๊ฒฝ๋ํ๋ ๋ชจ๋ธ๋ถํฐ ๋ํ ๋ชจ๋ธ๊น์ง ๋ค์ํ ํฌ๊ธฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
- PP-YOLOE๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ์ต์์ ์ฑ๋ฅ์ ์ ๊ณตํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค.
-
PP-YOLOE์ ์ฃผ์ ๊ฐ์ ์ฌํญ
- Anchor-free ๊ตฌ์กฐ: PP-YOLOE๋ ์ต์ปค๋ฆฌ์ค ํ์ง ๋ฐฉ์์ ์ฑํํ์ฌ, ๊ธฐ์กด์ ์ต์ปค ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๊ฐ๋จํ ๊ตฌ์กฐ๋ก ๋น ๋ฅธ ํ์ต๊ณผ ์ถ๋ก ์ด ๊ฐ๋ฅํฉ๋๋ค. ์ต์ปค๋ฆฌ์ค ๋ฐฉ์์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ , ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- TAL (Task Alignment Learning): PP-YOLOE๋ TAL(Task Alignment Learning) ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ๊ฐ์ฒด ํ์ง์ ํ๊ท ์์ ๊ฐ์ ์ํธ์์ฉ์ ์ต์ ํํ์์ต๋๋ค. TAL์ ๊ฐ์ฒด ํ์ง์์ ์์น์ ํด๋์ค ์์ธก์ ๊ท ํ์ ๋ง์ถ์ด ํ์ง ์ฑ๋ฅ์ ๋์ ๋๋ค.
- Decoupled Head: YOLOv8๊ณผ ์ ์ฌํ๊ฒ, PP-YOLOE๋ ๋์ปคํ๋ ํค๋(Decoupled Head) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฐ์ฒด ํ์ง ์์ ์ ๋ถ๋ฆฌํ์ฌ ๋ ์ ํํ๊ฒ ์ฒ๋ฆฌํฉ๋๋ค.
- Advanced Data Augmentation: PP-YOLOE๋ Mosaic, Copy-paste์ ๊ฐ์ ์ต์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๊ทน๋ํํ๊ณ , ๋ ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
PP-YOLOE ์ฑ๋ฅ
- PP-YOLOE๋ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ ๊ฒฝ๋ ๋ชจ๋ธ๋ถํฐ ๋ํ ๋ชจ๋ธ๊น์ง ์ ํํ ์ ์์ต๋๋ค.
- MS COCO ๋ฐ์ดํฐ์ ์์ AP50 50.0% ์ด์์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ, ํนํ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์์ ์ฐ์ํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- PP-YOLOE๋ ๊ฒฝ๋ํ๋ ํ๊ฒฝ์์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
YOLO-NAS
YOLO-NAS
๋ 2023๋
5์์ Deci๋ผ๋ AI ์คํํธ์
์์ ๋ฐํํ ์ต์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, YOLO ์๋ฆฌ์ฆ์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ ์ ๊ฒฝ๋ง ์ํคํ
์ฒ ํ์(NAS: Neural Architecture Search)์ ํตํด ์ฑ๋ฅ์ ์ต์ ํํ ๋ชจ๋ธ์
๋๋ค.
- YOLO-NAS๋ YOLOv8๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉด์๋, ๋ ๋์ ์ ํ๋์ ํจ์จ์ฑ์ ๋ชฉํ๋ก ์ค๊ณ๋์์ต๋๋ค.
- ํนํ YOLO-NAS๋ ์ค์๊ฐ ๊ฐ์ฒด ํ์ง์ ์ ํฉํ๋๋ก ์ต์ ํ๋์์ผ๋ฉฐ, ๋ค์ํ ํฌ๊ธฐ์ ์ฐ์ฐ ์์์ ๊ณ ๋ คํ์ฌ ํจ์จ์ฑ์ ๊ทน๋ํํ ๊ฒ์ด ํน์ง์ ๋๋ค.
19.1 YOLO-NAS์ ์ฃผ์ ํน์ง
-
Neural Architecture Search (NAS) ๊ธฐ๋ฐ ์ค๊ณ
- YOLO-NAS๋ ์๋ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ ํ์(NAS) ๊ธฐ๋ฒ์ ํตํด ๊ฐ๋ฐ๋์์ต๋๋ค.
- NAS๋ ๋จธ์ ๋ฌ๋์ ์ฌ์ฉํด ์ต์ ์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์๋์ผ๋ก ์ค๊ณํ๋ ๋ฐฉ๋ฒ์ผ๋ก, YOLO-NAS๋ ์ด ๊ธฐ๋ฒ์ ํตํด ์ต์ ํ๋ ์ํคํ ์ฒ๋ฅผ ๊ตฌ์ถํ์ฌ ์ฐ์ฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ทน๋ํํ์ต๋๋ค.
- NAS๋ฅผ ํตํด YOLO-NAS๋ ๋ค์ํ ํ๋์จ์ด ํ๊ฒฝ์์๋ ์ต์ ์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์์ต๋๋ค.
-
Anchor-free ๊ตฌ์กฐ
- YOLO-NAS๋ ๊ธฐ์กด์ ์ต์ปค ๋ฐ์ค(anchor boxes)๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์ ๋์ , ์ต์ปค๋ฆฌ์ค(anchor-free) ๊ฐ์ฒด ํ์ง ๋ฐฉ์์ ์ฑํํ์ต๋๋ค.
- ์ด๋ ๊ฐ์ฒด ์ค์ฌ์ ์์ ์ง์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก, ์ต์ปค ๋ฐ์ค ์ค์ ์ ๋ณต์ก์ฑ์ ์ ๊ฑฐํ๊ณ ๋ ๋น ๋ฅด๊ณ ์ ํํ ํ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ์ต์ปค๋ฆฌ์ค ๋ฐฉ์์ ํ์ต ์๋๋ฅผ ๊ฐ์ํํ๊ณ , ๋ชจ๋ธ์ ๊ฐ์ํ๋ฅผ ๋์ต๋๋ค.
-
Decoupled Head
- YOLO-NAS๋ ๋์ปคํ๋ ํค๋(Decoupled Head) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฐ์ฒด ํ์ง์ ์ธ ๊ฐ์ง ์ฃผ์ ์์ ์ธ ๊ฐ์ฒด์ฑ(objectness), ํ๊ท(regression), ๋ถ๋ฅ(classification)๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์์ ์ ํจ์จ์ฑ์ ์ต์ ํํ๊ณ , ๋ ๋์ ํ์ง ์ ํ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
์ถ๋ก ์๋ ๋ฐ ์ ํ๋ ์ต์ ํ
- YOLO-NAS๋ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๊ทน๋ํํ๋ฉด์๋ ์ถ๋ก ์๋๋ฅผ ์ต์ ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ ํนํ ์ฃ์ง ๋๋ฐ์ด์ค๋ ์๋ฒ ๋๋ ์์คํ ๊ณผ ๊ฐ์ ์ ํ๋ ์์ ํ๊ฒฝ์์ ๋งค์ฐ ์ค์ํ ํน์ง์ ๋๋ค. YOLO-NAS๋ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉด์๋ ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉฐ, ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์๋ํฉ๋๋ค.
-
์์ํ ์ง์
- YOLO-NAS๋ ์์ํ(quantization)๋ฅผ ์ง์ํ์ฌ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ , ๋ ์ ์ ์ฐ์ฐ ์์์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค. ํนํ 8๋นํธ ์์ํ๋ฅผ ์ง์ํ์ฌ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ์ฐ์ฐ ์๊ฐ์ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ ์ ํ ์์ด ํจ์จ์ ์ธ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํํ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ฐ์ผ ์ฅ์น๋ ์ฃ์ง ๋๋ฐ์ด์ค์ ๊ฐ์ ๊ฒฝ๋ํ๋ ํ๋์จ์ด์์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
-
Task-aware Attention (TAA) ๊ธฐ๋ฒ
- YOLO-NAS๋ Task-aware Attention (TAA) ๋ฉ์ปค๋์ฆ์ ํตํด ๊ฐ์ฒด ํ์ง ์์ ์์ ์ค์ํ ํน์ง์ ์๋์ผ๋ก ํ์ตํ๊ณ , ์ฌ๋ฌ ์์ ๊ฐ์ ์ํธ์์ฉ์ ์ต์ ํํ์ฌ ์ฑ๋ฅ์ ๊ทน๋ํํฉ๋๋ค. TAA๋ ๋ชจ๋ธ์ด ๊ฐ ์์ (๋ถ๋ฅ, ์์น ์์ธก ๋ฑ)์์ ์ค์ํ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ๋์ต๋๋ค.
19.2 YOLO-NAS์ ์ํคํ ์ฒ
- YOLO-NAS์ ์ํคํ ์ฒ๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ ์ ์ฌํ์ง๋ง, NAS ๊ธฐ๋ฒ์ ํตํด ์ต์ ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, ๋ ๋์ ํจ์จ์ฑ์ ์ ๊ณตํฉ๋๋ค:
-
Backbone
- YOLO-NAS๋ EfficientNet์ด๋ CSPNet๊ณผ ์ ์ฌํ ๊ฒฝ๋ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ, ์ฐ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ฉด์๋ ํน์ง ์ถ์ถ ์ฑ๋ฅ์ ๋์์ต๋๋ค. ์ด ๋ฐฑ๋ณธ์ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ์ด๋ฉด์๋ ๊ฐ๋ ฅํ ํน์ง ํ์ต ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
-
Neck
- YOLO-NAS๋ Path Aggregation Network (PANet)๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๋ฐ ํ์ ๊ณ์ธต์ ํน์ง์ ๊ฒฐํฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก ์ง์ํฉ๋๋ค.
-
Head: Decoupled Head
- YOLO-NAS์ ๋์ปคํ๋ ํค๋(Decoupled Head)๋ ๋ถ๋ฅ, ํ๊ท, ๊ฐ์ฒด์ฑ ์์ ์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ ๋์ ํ์ง ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด ๊ตฌ์กฐ๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ์ ๊ตํ ํ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ํนํ ์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
-
YOLO with Transformers
YOLO with Transformers๋ YOLO ๋ชจ๋ธ๊ณผ ํธ๋์คํฌ๋จธ(Transformers) ์ํคํ ์ฒ๋ฅผ ๊ฒฐํฉํ ์๋ก์ด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๋ถ์ผ์์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ๋ฅผ ์ปดํจํฐ ๋น์ ์ ์ ์ฉํ์ฌ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๊ทน๋ํํ ๋ชจ๋ธ์ ๋๋ค.
- ํธ๋์คํฌ๋จธ๋ ๊ธฐ์กด ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN) ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ด ๊ฐ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ๊ธด ๋ฒ์์ ์ข ์์ฑ์ ํ์ตํ ์ ์๋ ์ฅ์ ์ ์ ๊ณตํ์ฌ, ์ปดํจํฐ ๋น์ ๋ถ์ผ์์๋ ์๊ธฐ ์ฃผ์ ๋ฉ์ปค๋์ฆ(Self-Attention Mechanism)์ ํตํด ํ์ํ ์ฑ๋ฅ์ ๋ฐํํ๊ณ ์์ต๋๋ค.
- ์ด๋ฅผ YOLO์ ๊ฒฐํฉํจ์ผ๋ก์จ, ํธ๋์คํฌ๋จธ์ ์ฅ์ ๊ณผ YOLO์ ์ค์๊ฐ ํ์ง ์ฑ๋ฅ์ ๊ฒฐํฉํ ์๋ก์ด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๋ง๋ค์์ต๋๋ค.
20.1 ํธ๋์คํฌ๋จธ(Transformers) ๊ฐ์
- ํธ๋์คํฌ๋จธ๋ ์๋ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ๋ฌธ์ฅ์ ๊ฐ ๋จ์ด ๊ฐ์ ์ข ์์ฑ์ ํ์ตํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ ๋ชจ๋ธ์ ๋๋ค.
- ํธ๋์คํฌ๋จธ๋ ์๊ธฐ ์ฃผ์ ๋ฉ์ปค๋์ฆ(Self-Attention)์ ํตํด, ์ ๋ ฅ์ ๊ฐ ์์๊ฐ ๋ค๋ฅธ ๋ชจ๋ ์์์์ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
- ์ด ๋ฉ์ปค๋์ฆ์ ์ด๋ฏธ์ง์ ๊ฐ์ ๋น์ ํ ๋ฐ์ดํฐ์์๋ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ๋ด์ ๋ชจ๋ ํฝ์ ๊ฐ ์ํธ์์ฉ์ ํ์ตํ ์ ์์ต๋๋ค.
20.2 YOLO์ ํธ๋์คํฌ๋จธ ๊ฒฐํฉ์ ํ์์ฑ
- ๊ธฐ์กด YOLO ๋ชจ๋ธ์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๊ตญ์์ ์ธ ํน์ง์ ์ถ์ถํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํฉ๋๋ค.
- CNN์ ์ธ์ ํ ํฝ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ํ์ตํ ์ ์๋ ๋ฐ๋ฉด, ์ฅ๊ฑฐ๋ฆฌ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฐ๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
- ์ด๋ฏธ์ง ๋ด์์ ์ฅ๊ฑฐ๋ฆฌ ์ข ์์ฑ(Long-Range Dependency)์ ํ์ตํ๋ ๋ฐ ํธ๋์คํฌ๋จธ๊ฐ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํ๊ธฐ ๋๋ฌธ์, YOLO์ ํธ๋์คํฌ๋จธ๋ฅผ ๊ฒฐํฉํ๋ฉด ์ด๋ฏธ์ง ๋ด์ ๋ชจ๋ ํฝ์ ๊ฐ์ ์ํธ์์ฉ์ ํ์ตํ ์ ์์ด, ๋ ์ ๋ฐํ ๊ฐ์ฒด ํ์ง๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
20.3 YOLO with Transformers์ ์ฃผ์ ํน์ง
-
Self-Attention Mechanism
- ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ ์๊ธฐ ์ฃผ์(Self-Attention) ๋ฉ์ปค๋์ฆ์ ํตํด ์ด๋ฏธ์ง ๋ด์ ๋ชจ๋ ์์ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
- ์ด๋ ์ด๋ฏธ์ง์ ํน์ ๋ถ๋ถ์ด ๋ค๋ฅธ ๋ถ๋ถ๊ณผ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋์ด ์๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋์ฑ ์ ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ํนํ ๋ณต์กํ ์ฅ๋ฉด์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
-
Global Context Learning
- YOLO์ ํธ๋์คํฌ๋จธ์ ๊ฒฐํฉ์ ์ด๋ฏธ์ง์ ์ ์ญ ์ ๋ณด(Global Context)๋ฅผ ํ์ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
- CNN์ ๊ตญ์์ ํํฐ๋ก ์ธํด ์ด๋ฏธ์ง์ ์์ ๋ถ๋ถ์๋ง ์ง์คํ๋ ๊ฒฝํฅ์ด ์์ง๋ง, ํธ๋์คํฌ๋จธ๋ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ๋์์ ๋ถ์ํ๋ฏ๋ก ๋ ๋์ ๋ฌธ๋งฅ์ ํ์ตํ ์ ์์ต๋๋ค.
- ์ด๋ฅผ ํตํด, ๋ ์ ํํ ๊ฐ์ฒด ํ์ง ๋ฐ ์์น ์์ธก์ด ๊ฐ๋ฅํฉ๋๋ค.
-
Hierarchical Feature Learning
- YOLO with Transformers๋ ํธ๋์คํฌ๋จธ์ ์ ์ญ ์ ๋ณด ํ์ต ๋ฅ๋ ฅ๊ณผ YOLO์ ๊ณ์ธต์ ํน์ง ํ์ต(Hierarchical Feature Learning)์ ๊ฒฐํฉํฉ๋๋ค.
- YOLO๋ ๋ค์ํ ํฌ๊ธฐ์ ํน์ง ๋งต์ ์์ฑํ์ฌ ์ฌ๋ฌ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์์ง๋ง, ํธ๋์คํฌ๋จธ๋ ์ด๋ฌํ ํน์ง ๋งต ๋ด์์ ํฝ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ ์ ํ์ตํ ์ ์์ต๋๋ค.
- ์ด๋ฅผ ํตํด ๋ค์ค ์ค์ผ์ผ ํ์ง ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
-
Spatial and Channel Attention
- ํธ๋์คํฌ๋จธ๋ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ํน์ง(Spatial Features)๊ณผ ์ฑ๋ ๊ฐ ์ํธ์์ฉ(Channel Interaction)์ ๋์์ ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ด ์์ต๋๋ค.
- YOLO with Transformers๋ ์ด๋ฌํ ํธ๋์คํฌ๋จธ์ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ, ์ด๋ฏธ์ง ๋ด์ ์ค์ํ ์์ญ๊ณผ ์ฑ๋ ๊ฐ์ ์ํธ์์ฉ์ ํ์ตํ์ฌ ํ์ง ์ฑ๋ฅ์ ๊ทน๋ํํฉ๋๋ค.
20.4 ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ YOLO ๋ชจ๋ธ๋ค
-
DETR (Detection Transformer)
- DETR๋ ํธ๋์คํฌ๋จธ๋ฅผ ์ฒ์์ผ๋ก ๊ฐ์ฒด ํ์ง์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ ๋ชจ๋ธ๋ก, ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ญ์ ์ธ ๊ด๊ณ๋ฅผ ํ์ตํ๊ณ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ์ ๊ทน๋ํํ์์ต๋๋ค.
- DETR์ YOLO์ ๊ฒฐํฉํ์ฌ ์ฅ๊ฑฐ๋ฆฌ ์ ๋ณด์ ๊ตญ์์ ์ ๋ณด๋ฅผ ๋์์ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ๋ ๋ณต์กํ ์ฅ๋ฉด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
-
Swin Transformer ๊ธฐ๋ฐ YOLO
- Swin Transformer๋ ํธ๋์คํฌ๋จธ๋ฅผ ์ปดํจํฐ ๋น์ ์ ๋ ์ ํฉํ๊ฒ ๊ฐ์ ํ ๋ชจ๋ธ๋ก, ์๋์ฐ ๊ธฐ๋ฐ(Self-Attention) ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ๊ฐ ์์ญ์ ๊ตญ์์ ์ผ๋ก ํ์ตํ๋ฉด์๋ ์ ์ญ์ ์ธ ๋ฌธ๋งฅ์ ์ ์งํฉ๋๋ค.
- Swin Transformer์ YOLO์ ๊ฒฐํฉ์ ๋ ํจ์จ์ ์ธ ์ ์ญ ํน์ง ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๊ณ ํด์๋ ์ด๋ฏธ์ง์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
YOLO-ViT (Vision Transformer)
- YOLO-ViT๋ YOLO ๋ชจ๋ธ๊ณผ ๋น์ ํธ๋์คํฌ๋จธ(ViT: Vision Transformer)๋ฅผ ๊ฒฐํฉํ ๋ชจ๋ธ์ ๋๋ค.
- ViT๋ ์์ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ด์ ๋ชจ๋ ํจ์น(patch) ๊ฐ์ ์ํธ์์ฉ์ ํ์ตํ ์ ์์ต๋๋ค.
- YOLO-ViT๋ ViT์ ์ฅ์ ์ธ ์ ์ญ ์ํธ์์ฉ ํ์ต์ ํ์ฉํ์ฌ, ๋ ์ ํํ ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก๊ณผ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํํฉ๋๋ค.
Discussion
- YOLO ๋ฒ์ ๋ถ์: 16๊ฐ์ YOLO ๋ฒ์ ์ ๋ถ์ํ๊ณ , ๊ฐ๊ฐ์ ์ฃผ์ ํจํด์ ์๋ณํฉ๋๋ค.
- ์ต์ปค(Anchors): ์๋ YOLO ๋ชจ๋ธ์ ์ต์ปค๋ฅผ ์ฌ์ฉํ์ง ์์์ผ๋, ์ดํ YOLOv2์์ ์ต์ปค๊ฐ ๋์ ๋์ด ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก ์ ํ๋ ๊ฐ์ ์ ๊ธฐ์ฌํ์์ต๋๋ค. ์ดํ YOLOX๋ ์ต์ปค ์๋ ์ ๊ทผ ๋ฐฉ์์ ๋์ ํด ์ํ์์์ ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
- ํ๋ ์์ํฌ: ์ด๊ธฐ YOLO ๋ฒ์ ์ Darknet ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์์ผ๋, YOLOv3๋ถํฐ PyTorch๋ก ํฌํ ๋๋ฉด์ ์ดํ ๋ฒ์ ๋ค์ PyTorch ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ ํ์์ต๋๋ค.
- ๋ฐฑ๋ณธ(Backbone): YOLO ๋ชจ๋ธ์ ๋ฐฑ๋ณธ ์ํคํ ์ฒ๋ Darknet์์ ์์ํ์ฌ, ์ดํ CSP, ์ฌํ๋ผ๋ฏธํฐํ ๋ฐ Neural Architecture Search๋ฅผ ํฌํจํ ๋ค์ํ ๊ตฌ์กฐ๋ก ๋ฐ์ ํ์์ต๋๋ค.
- ์ฑ๋ฅ: YOLO ๋ชจ๋ธ์ ์๋์ ์ ํ์ฑ ๊ฐ์ ๊ท ํ์ ์ง์์ ์ผ๋ก ์ถ๊ตฌํ์ฌ, ๋ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ค์๊ฐ ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
The Future of YOLO
- ์ต์ ๊ธฐ์ ์ ์ฉ: YOLO ์ํคํ ์ฒ๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์ ํ์ฌ ๋ชจ๋ธ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋์ด๋ ์ต์ ๋ฅ๋ฌ๋ ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ฑํํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
- ๋ฒค์น๋งํฌ์ ์งํ: ํ์ฌ์ COCO 2017 ๋ฒค์น๋งํฌ๋ ๋ ๋์ ์ ์ธ ๊ธฐ์ค์ผ๋ก ํฅํ ๋์ฒด๋ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ์ด๋ YOLO ๋ชจ๋ธ์ ๋ฐ์ ๊ณผ ํจ๊ป ๋์ฑ ์ ๊ตํ ๊ธฐ์ค์ ์๊ตฌํ๋ ํ์์ฑ์ ๋ฐ์ํฉ๋๋ค.
- YOLO ๋ชจ๋ธ ๋ฐ ์์ฉ์ ํ์ฐ: ๋งค๋ ๋ ๋ง์ YOLO ๋ชจ๋ธ์ด ์ถ์๋๊ณ ๋ค์ํ ๋ถ์ผ์์์ ์์ฉ์ด ํ๋๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
- ์๋ก์ด ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ: YOLO ๋ชจ๋ธ์ด ๊ฐ์ฒด ๊ฐ์ง ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ ์ ๋์ด ๋น๋์ค์์ ๊ฐ์ฒด ์ถ์ , 3D ํคํฌ์ธํธ ์ถ์ ๊ณผ ๊ฐ์ ์๋ก์ด ๋ถ์ผ๋ก ํ์ฅ๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- ๋ค์ํ ํ๋์จ์ด์ ๋ํ ์ ์์ฑ: YOLO ๋ชจ๋ธ์ IoT ์ฅ์น์์ ๊ณ ์ฑ๋ฅ ์ปดํจํ ํด๋ฌ์คํฐ๊น์ง ๋ค์ํ ํ๋์จ์ด ํ๋ซํผ์ ์ ์ํ ์ ์์ ๊ฒ์ผ๋ก ์์๋๋ฉฐ, ์ด๋ ์ฌ์ฉ์ ๋ฐ ์ฐ์ ์ ์๊ตฌ์ ์ ์ฝ์ ๋ฐ๋ผ ๋ง์ถคํ์ผ๋ก ๋ฐฐํฌ๋ ์ ์๋๋ก ํฉ๋๋ค.
์ด์์ผ๋ก YOLO Survey ๋ ผ๋ฌธ์ ๋ค๋ฃจ์ด๋ดค๋๋ฐ์. YOLO ๋ฒ์ ๋ค์ด ๋๋ฌด ๋ง์์ ์ ๋ฆฌํ ์๋๊ฐ ์๋๋ค๊ฐ Survey Paper๋ฅผ ๋ฐ๊ฒฌํ ๊น์ ์ ๋ฆฌํด๋ณด์์ต๋๋ค ๐ค