[Paper Review] A COMPREHENSIVE REVIEW OF YOLO ARCHITECTURES IN COMPUTER VISION: FROM YOLOV1 TO YOLOV8 AND YOLO-NAS

Posted by Euisuk's Dev Log on October 2, 2024

[Paper Review] A COMPREHENSIVE REVIEW OF YOLO ARCHITECTURES IN COMPUTER VISION: FROM YOLOV1 TO YOLOV8 AND

YOLO-NAS

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Paper-Review-A-COMPREHENSIVE-REVIEW-OF-YOLO-ARCHITECTURES-IN-COMPUTER-VISION-FROM-YOLOV1-TO-YOLOV8-ANDYOLO-NAS

YOLO ๋ชจ๋ธ ์„œ๋ฒ ์ด ํŽ˜์ดํผ

๐Ÿ“– (์ฐธ๊ณ ) YOLO ๋ฒ„์ „์˜ ๋ฐœ์ „

๐Ÿ’ก ๊ณต์‹ ๋ฒ„์ „: YOLO์˜ ์› ๊ฐœ๋ฐœ์ž์ธ Joseph Redmon์€ YOLOv3๊นŒ์ง€ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดํ›„ ๊ทธ๋Š” ์œค๋ฆฌ์  ์ด์œ ๋กœ ๊ฐ์ฒด ํƒ์ง€ ์—ฐ๊ตฌ๋ฅผ ์ค‘๋‹จํ–ˆ์Šต๋‹ˆ๋‹ค. Joseph Redmon์ด ๊ฐ์ฒด ํƒ์ง€ ์—ฐ๊ตฌ๋ฅผ ์ค‘๋‹จํ•œ ์œค๋ฆฌ์  ์ด์œ ๋Š” ์ฃผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๊ตฐ์‚ฌ์  ๋ชฉ์ ์œผ๋กœ์˜ ํ™œ์šฉ ์šฐ๋ ค: Redmon์€ ์ž์‹ ์ด ๊ฐœ๋ฐœํ•œ ๊ธฐ์ˆ ์ด ๊ตฐ์‚ฌ์  ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ฒƒ์„ ์›์น˜ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

  • ๊ฐ์‹œ ๊ธฐ์ˆ ๋กœ์˜ ์•…์šฉ ๊ฐ€๋Šฅ์„ฑ: ๊ฐ์ฒด ํƒ์ง€ ๊ธฐ์ˆ ์ด ๊ฐœ์ธ์˜ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ์นจํ•ดํ•˜๋Š” ๊ฐ์‹œ ์‹œ์Šคํ…œ์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์šฐ๋ ค๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  • ์œค๋ฆฌ์  ์ฑ…์ž„๊ฐ: YOLO v3 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ์—์„œ๋„ Redmon์€ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ์œค๋ฆฌ์  ์ฑ…์ž„๊ฐ์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค1.

  • ๊ธฐ์ˆ ์˜ ์–‘๋ฉด์„ฑ: ๊ฐ์ฒด ํƒ์ง€ ๊ธฐ์ˆ ์ด ๊ธ์ •์ ์ธ ์šฉ๋„๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋™์‹œ์— ๋ถ€์ •์ ์ธ ๋ชฉ์ ์œผ๋กœ๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ์ธ์‹ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์‚ฌํšŒ์  ์˜ํ–ฅ์— ๋Œ€ํ•œ ๊ณ ๋ ค: ์ž์‹ ์˜ ์—ฐ๊ตฌ๊ฐ€ ์‚ฌํšŒ์— ๋ฏธ์น  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ์ ์ธ ๋ถ€์ •์  ์˜ํ–ฅ์„ ๊ณ ๋ คํ•œ ๊ฒฐ์ •์ด์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ’ก ๋น„๊ณต์‹ ๋ฒ„์ „: YOLOv4๋ถ€ํ„ฐ๋Š” ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌํŒ€๊ณผ ๊ฐœ๋ฐœ์ž๋“ค์ด YOLO๋ผ๋Š” ์ด๋ฆ„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž์ฒด์ ์œผ๋กœ ๊ฐœ๋ฐœ์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋ฒ„์ „ ๋ฒˆํ˜ธ์˜ ์˜๋ฏธ: YOLOv4 ์ดํ›„์˜ ๋ฒ„์ „ ๋ฒˆํ˜ธ๋Š” ์—„๋ฐ€ํžˆ ๋งํ•ด ์—ฐ์†์„ฑ์ด ์—†์Šต๋‹ˆ๋‹ค. ๊ฐ ๊ฐœ๋ฐœํŒ€์ด ๋…๋ฆฝ์ ์œผ๋กœ ๋ฒˆํ˜ธ๋ฅผ ๋ถ€์—ฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • ์—ฐ๊ตฌ์™€ ๊ฐœ๋ฐœ์˜ ์ฐจ์ด: YOLOv5์™€ YOLOv8์„ ๊ฐœ๋ฐœํ•œ Ultralytics๋Š” ์ฃผ๋กœ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ํ•™์ˆ  ๋…ผ๋ฌธ ์—†์ด ์ฝ”๋“œ๋ฅผ ๊ณต๊ฐœํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ YOLO ๋ณ€ํ˜•: YOLOv4, Scaled-YOLOv4, YOLO-R, YOLOv7 ๋“ฑ์€ YOLO์˜ ์›๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ๋” ๊ฐ€๊น๊ฒŒ ๋”ฐ๋ฅด๋Š” ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

(์ฐธ๊ณ ) ๊ฐ Header์— ์ ์€ ๋…ผ๋ฌธ์˜ ๋…„๋„๋Š” ๊ฐ ๋…ผ๋ฌธ(๋ฒ„์ „)์˜ ๋ฐœํ‘œ ์‹œ๊ธฐ๋ฅผ ์ ์€ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ฒ„์ „ ์ฐจ์ด ๋“ฑ์œผ๋กœ ์ธํ•ด์„œ ์ž๋ฃŒ ์กฐ์‚ฌ๋ฅผ ํ•˜๋ฉด์„œ ๋…„๋„๋Š” ์กฐ๊ธˆ์”ฉ ์ƒ์ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. Abstract

YOLO(You Only Look Once) ๋ชจ๋ธ์€ ๊ฐ์ฒด ํƒ์ง€ ๋ถ„์•ผ์—์„œ ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ๊ณผ ๋†’์€ ์ •ํ™•์„ฑ์„ ๊ฐ–์ถ˜ ๋ชจ๋ธ๋กœ, ์ตœ์‹  YOLO-NAS๊นŒ์ง€ ๋ฐœ์ „ํ•ด ์™”์Šต๋‹ˆ๋‹ค. ์ด ์„œ๋ฒ ์ด ํŽ˜์ดํผ๋Š” YOLO์˜ ์ง„ํ™”๋ฅผ ์š”์•ฝํ•˜๊ณ , YOLOv1๋ถ€ํ„ฐ YOLOv8๊นŒ์ง€์˜ ๋ฐœ์ „์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. YOLO-NAS, YOLO with Transformers ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ํฌํ•จํ•˜์—ฌ, ๊ฐ ๋ฒ„์ „์ด ๋„์ž…ํ•œ ๊ธฐ์ˆ ์  ํ˜์‹ ๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.


  1. Introduction

YOLO๋Š” ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์˜ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•๋„์—์„œ ์ค‘๋Œ€ํ•œ ์—ญํ• ์„ ๋‹ด๋‹นํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ YOLO์˜ ๋ฐœ์ „ ๊ณผ์ •๊ณผ ๊ฐ ๋ชจ๋ธ์˜ ํ•ต์‹ฌ์ ์ธ ํŠน์ง•๋“ค์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. YOLOv1๋ถ€ํ„ฐ YOLOv8, ๊ทธ๋ฆฌ๊ณ  YOLO-NAS๊นŒ์ง€์˜ ๋ณ€ํ™”์™€ ๊ฐœ์„ ์ ์„ ํƒ๊ตฌํ•˜๋ฉฐ, YOLO ๋ชจ๋ธ์ด ๋น ๋ฅด๊ฒŒ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋ฉด์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๋น„๊ฒฐ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.


  1. YOLO Applications across Diverse Fields

YOLO๋Š” ์ž์œจ์ฃผํ–‰, ๋†์—…, ์˜๋ฃŒ, ์›๊ฒฉ ํƒ์‚ฌ, ๋น„๋””์˜ค ๊ฐ์‹œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ์ž์œจ์ฃผํ–‰: ์ฐจ๋Ÿ‰, ๋ณดํ–‰์ž, ์ž์ „๊ฑฐ ๋“ฑ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜์—ฌ ์•ˆ์ „ํ•˜๊ณ  ํšจ์œจ์ ์ธ ์ฃผํ–‰์„ ๋•์Šต๋‹ˆ๋‹ค.
  • ๋†์—…: ๋†์ž‘๋ฌผ์˜ ์ƒํƒœ๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ๋ณ‘ํ•ด์ถฉ์„ ํƒ์ง€ํ•˜์—ฌ ๋†์—… ์ž๋™ํ™”๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  • ์˜๋ฃŒ: ์•” ์ง„๋‹จ, ํ”ผ๋ถ€ ์„ธ๋ถ„ํ™” ๋“ฑ์˜ ์˜๋ฃŒ ๋ถ„์•ผ์—์„œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ํ†ตํ•ด ์ง„๋‹จ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  • ์›๊ฒฉ ํƒ์‚ฌ: ์œ„์„ฑ ๋ฐ ํ•ญ๊ณต ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜์—ฌ ํ™˜๊ฒฝ ๋ชจ๋‹ˆํ„ฐ๋ง, ๋„์‹œ ๊ณ„ํš ๋“ฑ์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

  1. Object Detection Metrics and Non-Maximum Suppression (NMS)

์ด ์ฑ•ํ„ฐ์—์„œ๋Š” ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ฃผ์š” ๋ฉ”ํŠธ๋ฆญ๊ณผ ๊ฐ์ฒด ํƒ์ง€ ํ›„์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์ธ NMS(Non-Maximum Suppression)์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  • ๊ฐ์ฒด ํƒ์ง€์˜ ๋ชฉํ‘œ๋Š” ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํƒ์ง€ํ•˜๊ณ  ํ•ด๋‹น ๊ฐ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์ด๋•Œ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฉ”ํŠธ๋ฆญ์œผ๋กœ ํ‰๊ท  ์ •ํ™•๋„(mean Average Precision, mAP)๊ฐ€ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋ฉฐ, NMS๋Š” ๊ฐ์ฒด ํƒ์ง€ ๊ฒฐ๊ณผ์—์„œ ์ค‘๋ณต๋œ ์ƒ์ž๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

4.1 Average Precision (AP)์™€ Mean Average Precision (mAP)

ํ‰๊ท  ์ •ํ™•๋„(AP)๋Š” ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. AP๋Š” ํ•œ ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฐ์ฒด์˜ ์œ„์น˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๋ชจ๋ธ์˜ ์ •๋ฐ€๋„(precision)์™€ ์žฌํ˜„์œจ(recall)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

  • ์ •๋ฐ€๋„(Precision): ๋ชจ๋ธ์ด ํƒ์ง€ํ•œ ๊ฐ์ฒด ์ค‘ ์‹ค์ œ๋กœ ๋งž๋Š” ๊ฐ์ฒด์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. (์˜ˆ์ธก์„ Positive๋กœ ํ•œ ์• ๋“ค ์ค‘์—์„œ, ์˜ˆ์ธก๊ณผ ์‹ค์ œ ๊ฐ’์ด ์ผ์น˜ํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋น„์œจ)

    • ์ฆ‰, ๋ชจ๋ธ์ด ํƒ์ง€ํ•œ ๊ฐ์ฒด๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์žฌํ˜„์œจ(Recall): ์‹ค์ œ ๊ฐ์ฒด ์ค‘์—์„œ ๋ชจ๋ธ์ด ๋งž๊ฒŒ ํƒ์ง€ํ•œ ๊ฐ์ฒด์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. (์‹ค์ œ ๊ฐ’์ด Positive์ธ ๋Œ€์ƒ๋“ค ์ค‘์—์„œ, ์˜ˆ์ธก๊ณผ ์‹ค์ œ ๊ฐ’์ด Positive๋กœ ์ผ์น˜ํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋น„์œจ)

    • ์ฆ‰, ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ–ˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

  • ์‹ ๋ขฐ๋„ (Confidence) : ๋ชจ๋ธ๋งˆ๋‹ค ์ฃผ๋กœ CCC๋กœ ๋“ฑ์žฅํ•˜๋Š”, ํ•ด๋‹น ์˜ˆ์ธก์ด ์–ผ๋งˆ๋งŒํผ์˜ ์‹ ๋ขฐ๋„๋ฅผ ๊ฐ€์ง€๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  Confidence Threshold๋ž€, ๋ง ๊ทธ๋Œ€๋กœ Confidence์˜ ์ž„๊ณ„๊ฐ’์œผ๋กœ, Confidence๊ฐ€ ๋ช‡ ์ด์ƒ์ธ ์˜ˆ์ธก๋“ค๋งŒ ์˜ˆ์ธก์œผ๋กœ ๋ณผ ๊ฒƒ์ธ๊ฐ€ ํ•˜๋Š” ์ˆ˜์น˜๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • Confidence Threshold๊ฐ€ ๋‚ฎ์œผ๋ฉด โ†’ Bbox ์˜ˆ์ธก์ด ๋งŽ์•„์ง€๊ณ  โ†’ Precision ๊ฐ์†Œ, Recall ์ฆ๊ฐ€.
    • Confidence Threshold๊ฐ€ ๋†’์œผ๋ฉด โ†’ Bbox ์˜ˆ์ธก์ด ์ ์–ด์ง€๊ณ  โ†’ Precision ์ฆ๊ฐ€, Recall ๊ฐ์†Œ.
  • AP (Average Precision) : ์ •๋ฐ€๋„-์žฌํ˜„์œจ ๊ณก์„ (precision-recall curve) ์•„๋ž˜์˜ ๋ฉด์ ์œผ๋กœ ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ฃผ์–ด์ง„ ์ž„๊ณ„๊ฐ’์—์„œ ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด ๊ณก์„ ์€ ๋ชจ๋ธ์˜ ํƒ์ง€ ์ž„๊ณ„๊ฐ’์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋Š” ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

    • ์ •๋ฐ€๋„-์žฌํ˜„์œจ ๊ณก์„ (precision-recall curve): ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ์‹œ๊ฐํ™” ๋„๊ตฌ์ž…๋‹ˆ๋‹ค. x์ถ•์— ์žฌํ˜„์œจ(Recall), y์ถ•์— ์ •๋ฐ€๋„(Precision)๋ฅผ ํ‘œ์‹œํ•œ ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋ถ„๋ฅ˜ ์ž„๊ณ„๊ฐ’(threshold)์— ๋”ฐ๋ฅธ ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ๋ณ€ํ™”๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • mAP (Mean Average Precision): mAP๋Š” ๋ชจ๋“  ๊ฐ์ฒด ํด๋ž˜์Šค์— ๋Œ€ํ•œ AP์˜ ํ‰๊ท ๊ฐ’์„ ์˜๋ฏธํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ํด๋ž˜์Šค๊ฐ€ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ชจ๋ธ์˜ ์ „์ฒด์ ์ธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, MS COCO์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” 80๊ฐœ์˜ ๊ฐ์ฒด ํด๋ž˜์Šค๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฉฐ, mAP๋Š” ์ด๋“ค ๊ฐ์ฒด์— ๋Œ€ํ•œ ํ‰๊ท  ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

4.2 Intersection over Union (IoU)

  • Intersection over Union (IoU)๋Š” ์˜ˆ์ธก๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ์‹ค์ œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์‚ฌ์ด์˜ ๊ฒน์นจ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฉ”ํŠธ๋ฆญ์ž…๋‹ˆ๋‹ค.
    • IoU๋Š” ๋‘ ๋ฐ•์Šค๊ฐ€ ๊ฒน์น˜๋Š” ์˜์—ญ์˜ ํฌ๊ธฐ๋ฅผ ๋‘ ๋ฐ•์Šค๊ฐ€ ์ฐจ์ง€ํ•˜๋Š” ์ด ๋ฉด์ ์œผ๋กœ ๋‚˜๋ˆ„์–ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

IoU์˜ ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • IoU = (์˜ˆ์ธก๋œ ๋ฐ•์Šค โˆฉ ์‹ค์ œ ๋ฐ•์Šค) / (์˜ˆ์ธก๋œ ๋ฐ•์Šค โˆช ์‹ค์ œ ๋ฐ•์Šค)

IoU๋Š” ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋ฉฐ, IoU ์ž„๊ณ„๊ฐ’์„ ๋†’๊ฒŒ ์„ค์ •ํ• ์ˆ˜๋ก ๋” ์ •ํ™•ํ•œ ์œ„์น˜ ์˜ˆ์ธก์„ ์š”๊ตฌํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • ์ผ๋ฐ˜์ ์œผ๋กœ COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ์—ฌ๋Ÿฌ IoU ์ž„๊ณ„๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, AP50(IoU 0.5 ์ด์ƒ์ธ ๊ฒฝ์šฐ) ๋ฐ AP75(IoU 0.75 ์ด์ƒ์ธ ๊ฒฝ์šฐ)์™€ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฒ”์œ„: 0 ~ 1
  • ํŠน์ง•: ๋‘ ์ƒ์ž๊ฐ€ ๊ฒน์น˜์ง€ ์•Š์œผ๋ฉด ํ•ญ์ƒ 0

IoU (Intersection over Union) ๊ฐœ๋…์„ ํ™•์žฅํ•˜์—ฌ, GIoU, DIoU, ๊ทธ๋ฆฌ๊ณ  CIoU๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์œ„์น˜ ์ •ํ™•๋„๋ฅผ ๊ฐœ์„ ํ•˜๊ณ ์ž ๋‹ค์–‘ํ•œ ์ถ”๊ฐ€ ์š”์†Œ๋ฅผ ๊ณ ๋ คํ•œ ๋ฉ”ํŠธ๋ฆญ์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ฉ”ํŠธ๋ฆญ์€ IoU์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋‘ ๊ฐ์ฒด๊ฐ€ ๋งŽ์ด ๊ฒน์น˜์ง€ ์•Š์„ ๋•Œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.


  • Generalized Intersection over Union (GIoU)๋Š” IoU๋ฅผ ํ™•์žฅํ•˜์—ฌ ๋‘ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์‚ฌ์ด์˜ ์ฐจ์ด๊ฐ€ ํฌ๋”๋ผ๋„, ํ•ด๋‹น ๋ฐ•์Šค์˜ ๊ฒน์นจ์„ ๋” ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณ ์•ˆ๋œ ๋ฉ”ํŠธ๋ฆญ์ž…๋‹ˆ๋‹ค.
    • IoU๋Š” ๋ฐ•์Šค๊ฐ€ ์ „ํ˜€ ๊ฒน์น˜์ง€ ์•Š์œผ๋ฉด 0์„ ๋ฐ˜ํ™˜ํ•˜์ง€๋งŒ, GIoU๋Š” ๋‘ ๋ฐ•์Šค๊ฐ€ ๊ฒน์น˜์ง€ ์•Š๋Š” ์ƒํ™ฉ์—์„œ๋„ ๋” ๋‚˜์€ ์ธก์ •๊ฐ’์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

GIoU๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค:

  • **GIoU=IoUโˆ’(โˆฃCโˆ’(AโˆชB)โˆฃ/โˆฃCโˆฃ)GIoU = IoU - ( C - (A โˆช B) / C )GIoU=IoUโˆ’(โˆฃCโˆ’(AโˆชB)โˆฃ/โˆฃCโˆฃ)**

์—ฌ๊ธฐ์„œ C๋Š” ๋‘ ๋ฐ•์Šค๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ์ตœ์†Œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์˜์—ญ์ž…๋‹ˆ๋‹ค. ์ด ์ˆ˜์‹์—์„œ ๋‘ ๋ฐ•์Šค๊ฐ€ ๊ฒน์น˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ, ๊ฒน์น˜์ง€ ์•Š๋Š” ๊ณต๊ฐ„์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€๋กœ ๋ฐ˜์˜ํ•˜์—ฌ IoU๋ณด๋‹ค ๋” ๋‚˜์€ ์ธก์ •๊ฐ’์„ ์ œ๊ณตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • ๋‘ ๋ฐ•์Šค๊ฐ€ ์™„๋ฒฝํžˆ ์ผ์น˜ํ•˜๋ฉด GIoU๋Š” IoU์™€ ๋™์ผํ•œ ๊ฐ’์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
  • ๋ฒ”์œ„: -1 ~ 1
  • ํŠน์ง•: ๋‘ ์ƒ์ž๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ์ตœ์†Œ ์˜์—ญ์ธ C ๋ฐ•์Šค๋ฅผ ํ™œ์šฉ
  • ์žฅ์ : ๋‘ ์ƒ์ž๊ฐ€ ๊ฒน์น˜์ง€ ์•Š์•„๋„ ๊ฑฐ๋ฆฌ์— ๋”ฐ๋ฅธ ํŽ˜๋„ํ‹ฐ ๋ถ€์—ฌ ๊ฐ€๋Šฅ


  • Distance Intersection over Union (DIoU)๋Š” IoU์— ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์  ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ๋ฐ˜์˜ํ•œ ๋ฉ”ํŠธ๋ฆญ์ž…๋‹ˆ๋‹ค.
    • ์ด๋Š” ๋‹จ์ˆœํžˆ ๊ฒน์น˜๋Š” ์˜์—ญ์˜ ํฌ๊ธฐ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์  ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ ๋ คํ•จ์œผ๋กœ์จ ๋ฐ•์Šค๊ฐ€ ์–ด๋А ์ •๋„ ๊ทผ์ ‘ํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • DIoU๋Š” ๋‘ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์  ์‚ฌ์ด์˜ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ์ด๋ฅผ ์ธก์ •์‹์— ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • DIoU=IoUโˆ’(d2/c2)DIoU = IoU - (d^2 / c^2)DIoU=IoUโˆ’(d2/c2)

์—ฌ๊ธฐ์„œ:

  • d๋Š” ๋‘ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์  ๊ฐ„ ๊ฑฐ๋ฆฌ์ž…๋‹ˆ๋‹ค.
  • c๋Š” ๋‘ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ํฌํ•จํ•˜๋Š” ์ตœ์†Œ ์™ธ์ ‘ ์›์˜ ๋Œ€๊ฐ์„  ๊ธธ์ด์ž…๋‹ˆ๋‹ค.

DIoU๋Š” ๋‘ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์ด ์–ผ๋งˆ๋‚˜ ๊ฐ€๊นŒ์šด์ง€ ๊ณ ๋ คํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ์ฒด ํƒ์ง€์—์„œ ์œ„์น˜ ์˜ค๋ฅ˜๋ฅผ ์ค„์ด๋Š” ๋ฐ ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฐ•์Šค๊ฐ€ ๊ฒน์น˜์ง€ ์•Š๋”๋ผ๋„ ์ค‘์‹ฌ์ ์ด ๊ฐ€๊นŒ์šด ๊ฒฝ์šฐ ๋†’์€ ์ ์ˆ˜๋ฅผ ์ค๋‹ˆ๋‹ค.

  • ๋ฒ”์œ„: -1 ~ 1
  • ํŠน์ง•: IoU์™€ ์ค‘์‹ฌ์  ์ขŒํ‘œ๋ฅผ ํ•จ๊ป˜ ๊ณ ๋ ค
  • ์žฅ์ : GIoU๋ณด๋‹ค ๋น ๋ฅธ ์ˆ˜๋ ด ์†๋„, ์ˆ˜ํ‰/์ˆ˜์ง ๋ฐฉํ–ฅ์—์„œ๋„ ํšจ๊ณผ์ 

  • Complete Intersection over Union (CIoU)๋Š” DIoU์— ๋ฐ•์Šค์˜ ์ข…ํšก๋น„ ์ฐจ์ด๊นŒ์ง€ ๊ณ ๋ คํ•œ ๋ฉ”ํŠธ๋ฆญ์ž…๋‹ˆ๋‹ค.
    • ์ฆ‰, CIoU๋Š” IoU, ๋ฐ•์Šค ์ค‘์‹ฌ์ ์˜ ๊ฑฐ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ  ๋ฐ•์Šค์˜ ํ˜•ํƒœ๊นŒ์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ์ ์ธ ์ฒ™๋„์ž…๋‹ˆ๋‹ค.

CIoU์˜ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • CIoU=IoUโˆ’(d2/c2)โˆ’ฮฑ(v)CIoU = IoU - (d^2 / c^2) - ฮฑ(v)CIoU=IoUโˆ’(d2/c2)โˆ’ฮฑ(v)

์—ฌ๊ธฐ์„œ:

  • v๋Š” ๋‘ ๋ฐ•์Šค์˜ ์ข…ํšก๋น„ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ํ•ญ์ž…๋‹ˆ๋‹ค.
  • ฮฑ๋Š” v์— ๋น„๋ก€ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋กœ, IoU๊ฐ€ ๋‚ฎ์„ ๋•Œ๋Š” ์ข…ํšก๋น„์— ๋” ํฐ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.

์ข…ํšก๋น„ ์ฐจ์ด๋ฅผ ๊ณ ๋ คํ•จ์œผ๋กœ์จ, CIoU๋Š” ๋‹จ์ˆœํžˆ ๋‘ ๋ฐ•์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ฒน์น˜๋Š”์ง€ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋‘ ๋ฐ•์Šค์˜ ํฌ๊ธฐ์™€ ํ˜•ํƒœ๊ฐ€ ์œ ์‚ฌํ•œ์ง€๋„ ํ‰๊ฐ€ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ๊ฐ์ฒด ํƒ์ง€ ๋ฌธ์ œ์—์„œ ์œ„์น˜์™€ ํฌ๊ธฐ ๋ชจ๋‘๋ฅผ ์ตœ์ ํ™”ํ•˜๋ ค๋Š” ์ƒํ™ฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

  • ๋ฒ”์œ„: -1 ~ 1
  • ํŠน์ง•: DIoU์— ์ข…ํšก๋น„ ํŽ˜๋„ํ‹ฐ ์ถ”๊ฐ€
  • ์žฅ์ : ๊ฒน์น˜๋Š” ์˜์—ญ, ์ค‘์‹ฌ์  ๊ฑฐ๋ฆฌ, ์ข…ํšก๋น„๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ๊ฐ€์žฅ ์™„์ „ํ•œ ํ‰๊ฐ€ ๊ฐ€๋Šฅ

๐Ÿ’ก ์š”์•ฝ

  • IoU: ๋‘ ๋ฐ•์Šค์˜ ๊ฒน์น˜๋Š” ์˜์—ญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ‰๊ฐ€.
  • GIoU: IoU์— ๋‘ ๋ฐ•์Šค๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ์ตœ์†Œ ์˜์—ญ(C ๋ฐ•์Šค)์„ ๊ณ ๋ คํ•˜์—ฌ, ๋‘ ๋ฐ•์Šค๊ฐ€ ๊ฒน์น˜์ง€ ์•Š๋”๋ผ๋„ ๋” ๋‚˜์€ ํ‰๊ฐ€๋ฅผ ์ œ๊ณต.
  • DIoU: IoU์™€ ํ•จ๊ป˜ ๋‘ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์  ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ๊ทผ์ ‘์„ฑ์„ ํ‰๊ฐ€.
  • CIoU: DIoU์— ๋”ํ•ด ๋‘ ๋ฐ•์Šค์˜ ์ข…ํšก๋น„ ์ฐจ์ด๊นŒ์ง€ ํ‰๊ฐ€ํ•˜์—ฌ, ๋ฐ•์Šค์˜ ์œ„์น˜, ํฌ๊ธฐ, ํ˜•ํƒœ ๋ชจ๋‘๋ฅผ ๊ณ ๋ คํ•œ ์ข…ํ•ฉ์ ์ธ ์ฒ™๋„.

4.3 PASCAL VOC์™€ COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ AP ๊ณ„์‚ฐ

  • PASCAL VOC: ์ด ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” 20๊ฐœ์˜ ๊ฐ์ฒด ํด๋ž˜์Šค์— ๋Œ€ํ•ด AP๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•ด ์ •๋ฐ€๋„-์žฌํ˜„์œจ ๊ณก์„ ์„ ๊ทธ๋ฆฐ ํ›„, 11๊ฐœ์˜ ์ ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ‰๊ท ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ AP๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
  • COCO: COCO ๋ฐ์ดํ„ฐ์…‹์€ 80๊ฐœ์˜ ๊ฐ์ฒด ํด๋ž˜์Šค์™€ ๋” ๋ณต์žกํ•œ AP ๊ณ„์‚ฐ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. 101๊ฐœ์˜ ์ ์—์„œ ์ •๋ฐ€๋„-์žฌํ˜„์œจ ๊ณก์„ ์„ ๊ณ„์‚ฐํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ IoU ์ž„๊ณ„๊ฐ’(0.5์—์„œ 0.95๊นŒ์ง€, 0.05 ๊ฐ„๊ฒฉ)์„ ์‚ฌ์šฉํ•ด AP๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์„ ํ†ตํ•ด ๋”์šฑ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4.4 Non-Maximum Suppression (NMS)

๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€์—์„œ ์—ฌ๋Ÿฌ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•˜๋ฉฐ, ์ข…์ข… ๋™์ผํ•œ ๊ฐ์ฒด์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ์ƒ์ž๋ฅผ ์˜ˆ์ธกํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. Non-Maximum Suppression (NMS)๋Š” ์ด๋Ÿฌํ•œ ์ค‘๋ณต๋œ ์ƒ์ž๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ํ›„์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • NMS๋Š” ๊ฐ์ฒด ํƒ์ง€์˜ ์ตœ์ข… ๊ฒฐ๊ณผ๋กœ ๊ฐ€์žฅ ์‹ ๋ขฐ๋„ ๋†’์€ ์ƒ์ž๋งŒ ๋‚จ๊ธฐ๊ณ  ๋‚˜๋จธ์ง€ ์ƒ์ž๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.

NMS์˜ ๊ธฐ๋ณธ ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋ชจ๋“  ์ƒ์ž๋ฅผ ์‹ ๋ขฐ๋„(score) ๊ธฐ์ค€์œผ๋กœ ์ •๋ ฌํ•ฉ๋‹ˆ๋‹ค.
  2. ๊ฐ€์žฅ ๋†’์€ ์‹ ๋ขฐ๋„๋ฅผ ๊ฐ€์ง„ ์ƒ์ž๋ฅผ ์„ ํƒํ•˜๊ณ , ๊ทธ ์ƒ์ž์™€ ๊ฒน์น˜๋Š” ์ƒ์ž๋“ค ์ค‘์—์„œ IoU ๊ฐ’์ด ์ž„๊ณ„๊ฐ’ ์ด์ƒ์ธ ์ƒ์ž๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.
  3. ๋‚จ์€ ์ƒ์ž๋“ค์— ๋Œ€ํ•ด ๋™์ผํ•œ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜์—ฌ ์ค‘๋ณต๋œ ์˜ˆ์ธก์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.

NMS๋ฅผ ์ ์šฉํ•จ์œผ๋กœ์จ ๊ฐ์ฒด ํƒ์ง€ ๊ฒฐ๊ณผ์˜ ์ค‘๋ณต์„ ๋ฐฉ์ง€ํ•˜๊ณ , ์ตœ์ข…์ ์œผ๋กœ ์ •ํ™•ํ•œ ํƒ์ง€ ๊ฒฐ๊ณผ๋งŒ ๋‚จ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด๋Š” ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ํ›„์ฒ˜๋ฆฌ ๋‹จ๊ณ„๋กœ, ํƒ์ง€ ์ •ํ™•๋„๋ฅผ ๋†’์ด๊ณ  ๋ถˆํ•„์š”ํ•œ ์ค‘๋ณต ์˜ˆ์ธก์„ ์ค„์ด๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  1. YOLO-v1: You Only Look Once (2016๋…„)

YOLOv1์€ 2015๋…„์— Joseph Redmon์— ์˜ํ•ด ์†Œ๊ฐœ๋œ ์ตœ์ดˆ์˜ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, โ€œYou Only Look Onceโ€๋ผ๋Š” ์ด๋ฆ„์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด ๋‹จ์ผ ํŒจ์Šค๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜์‹ ์ ์ธ ๋ชจ๋ธ์ด์—ˆ์Šต๋‹ˆ๋‹ค. YOLOv1์€ ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ๋ถ„์„ํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ธฐ์กด์˜ ๊ฐ์ฒด ํƒ์ง€ ๋ฐฉ์‹๊ณผ๋Š” ํฌ๊ฒŒ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. YOLOv1์€ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€ ์‹œ์Šคํ…œ์˜ ํšจ์œจ์„ฑ๊ณผ ์†๋„๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ์œผ๋ฉฐ, ์ž์œจ์ฃผํ–‰, ๊ฐ์‹œ ์‹œ์Šคํ…œ, ๋น„๋””์˜ค ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. (CVPR 2016)

5.1 YOLOv1์˜ ์ฃผ์š” ํŠน์ง•

  • ๋‹จ์ผ ์‹ ๊ฒฝ๋ง ํŒจ์Šค:

    • YOLOv1์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • ์ด์ „์˜ ๊ฐ์ฒด ํƒ์ง€ ์‹œ์Šคํ…œ๋“ค์€ ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋งŽ์€ ํ›„๋ณด ์˜์—ญ์„ ๋งŒ๋“ค์–ด๋‚ธ ํ›„, ๊ทธ ํ›„๋ณด ์˜์—ญ์— ๋Œ€ํ•ด ๊ฐ์ฒด ์—ฌ๋ถ€๋ฅผ ํŒ๋ณ„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ์ด๋ฏธ์ง€ ์ „์ฒด์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์—ฐ์‚ฐ์„ ์š”๊ตฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์†๋„๊ฐ€ ๋А๋ฆฌ๊ณ  ๋น„ํšจ์œจ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.
    • YOLOv1์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์—ฌ๋Ÿฌ ๊ฒฉ์ž(grid)๋กœ ๋‚˜๋ˆ„๊ณ  ๊ฐ ๊ฒฉ์ž์—์„œ ๋™์‹œ์— ์—ฌ๋Ÿฌ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฒฉ์ž ๊ธฐ๋ฐ˜ ํƒ์ง€:

    • YOLOv1์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ Sร—SS \times SSร—S ํฌ๊ธฐ์˜ ๊ฒฉ์ž(grid)๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค.
    • ๊ฐ ๊ฒฉ์ž ์…€์€ ์ตœ๋Œ€ BBB๊ฐœ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ํ•ด๋‹น ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” ๊ฐ์ฒด์˜ ์ค‘์‹ฌ ์ขŒํ‘œ (x,yx, yx,y), ๋„ˆ๋น„ (www), ๋†’์ด (hhh), ๊ทธ๋ฆฌ๊ณ  ๊ทธ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์— ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ™•์‹ ๋„(PcPcPc)๋ฅผ ํฌํ•จํ•œ 5๊ฐœ์˜ ๊ฐ’(Pc, bx, by, bh, bw)์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐ ๊ฒฉ์ž ์…€์€ ํด๋ž˜์Šค๋ณ„ ํ™•๋ฅ  CCC๋„ ์˜ˆ์ธกํ•˜๋ฉฐ, ๊ฐ ํด๋ž˜์Šค์— ํ•ด๋‹นํ•˜๋Š” ์˜ˆ์ธก ํ™•๋ฅ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • ๋”ฐ๋ผ์„œ YOLOv1์˜ ์ถœ๋ ฅ์€ Sร—Sร—(Bร—5+C)S \times S \times (B \times 5 + C)Sร—Sร—(Bร—5+C) ํฌ๊ธฐ์˜ ํ…์„œ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ตฌ์กฐ๋Š” ๋ชจ๋“  ๊ฐ์ฒด ํƒ์ง€๋ฅผ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์–ด ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.

YOLOv1์—์„œ์˜ ์ถœ๋ ฅ์€ ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์— ๋Œ€ํ•ด ์˜ˆ์ธก๋œ ๊ฐ’๋“ค์˜ ๋ฐฐ์—ด๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ class๊ฐ€ 3๊ฐœ์žˆ๋Š” task์— ๋Œ€ํ•ด์„œ โ€œ3x3โ€ ๊ทธ๋ฆฌ๋“œ์— ๋Œ€ํ•ด, ์ถœ๋ ฅ์€ 3ร—3ร—8 ํ˜•ํƒœ๋กœ ๋‚˜์˜ต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฐ ์ฐจ์›์˜ ์˜๋ฏธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. 3x3 ๊ทธ๋ฆฌ๋“œ:

    • ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ 3ร—3์˜ ๊ทธ๋ฆฌ๋“œ๋กœ ๋‚˜๋ˆ„์–ด ์ด 9๊ฐœ์˜ ๊ทธ๋ฆฌ๋“œ ์…€์ด ํ˜•์„ฑ๋ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์€ ์ž๊ธฐ ์˜์—ญ ๋‚ด์—์„œ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ์˜ˆ์ธกํ•  ์ฑ…์ž„์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  2. 8๊ฐœ์˜ ๊ฐ’: ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์€ ๋‹ค์Œ์˜ 8๊ฐœ ๊ฐ’์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค:

    • 1๊ฐœ์˜ ์‹ ๋ขฐ๋„ ์ ์ˆ˜ PcP_cPcโ€‹: ํ•ด๋‹น ๊ทธ๋ฆฌ๋“œ ์…€ ๋‚ด์— ๊ฐ์ฒด๊ฐ€ ํฌํ•จ๋  ํ™•๋ฅ .
    • 4๊ฐœ์˜ ๊ฒฝ๊ณ„ ์ƒ์ž ์ขŒํ‘œ bx,by,bh,bwb_x, b_y, b_h, b_wbxโ€‹,byโ€‹,bhโ€‹,bwโ€‹: ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์˜ ์ค‘์‹ฌ ์ขŒํ‘œ ๋ฐ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ํฌ๊ธฐ.
    • 3๊ฐœ์˜ ํด๋ž˜์Šค ํ™•๋ฅ : 3๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํ™•๋ฅ  ๊ฐ’.

  1. PcP_cPcโ€‹: ๊ฐ์ฒด๊ฐ€ ํฌํ•จ๋  ํ™•๋ฅ  (Confidence Score)

    • ์ด ๊ฐ’์€ ํŠน์ • ๊ฒฝ๊ณ„ ์ƒ์ž ๋‚ด์— ๊ฐ์ฒด๊ฐ€ ์กด์žฌํ•  ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • ์ฆ‰, ๊ทธ ๊ฒฝ๊ณ„ ์ƒ์ž์— ํ•ด๋‹นํ•˜๋Š” ํด๋ž˜์Šค๊ฐ€ ์‹ค์ œ๋กœ ์กด์žฌํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ํ™•๋ฅ ์€ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฐ์ฒด์˜ ์กด์žฌ ์—ฌ๋ถ€๋ฅผ ๋ฐ˜์˜ํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
  2. bxb_xbxโ€‹: ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ์ค‘์‹ฌ x์ขŒํ‘œ

    • bxb_xbxโ€‹๋Š” ๊ทธ๋ฆฌ๋“œ ์…€์„ ๊ธฐ์ค€์œผ๋กœํ•œ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ์ค‘์‹ฌ์˜ x์ขŒํ‘œ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • ์ด๋Š” ์ด๋ฏธ์ง€์˜ ๋„ˆ๋น„์™€ ์ƒ๋Œ€์ ์œผ๋กœ ์œ„์น˜๊ฐ€ ๊ฒฐ์ •๋˜๋ฉฐ, ํ•ด๋‹น ์…€ ๋‚ด์˜ ๊ฐ์ฒด ์ค‘์‹ฌ ์ขŒํ‘œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  3. byb_ybyโ€‹: ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ์ค‘์‹ฌ y์ขŒํ‘œ

    • byb_ybyโ€‹๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ์ค‘์‹ฌ์˜ y์ขŒํ‘œ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ด ๊ฐ’์€ ํ•ด๋‹น ์…€ ๋‚ด์˜ ๊ฐ์ฒด ์ค‘์‹ฌ ์ขŒํ‘œ๋กœ์„œ, ์ด๋ฏธ์ง€์˜ ๋†’์ด์— ๋Œ€ํ•œ ์ƒ๋Œ€์ ์ธ ์œ„์น˜๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.
  4. bhb_hbhโ€‹: ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ๋†’์ด

    • bhb_hbhโ€‹๋Š” ์˜ˆ์ธก๋œ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ๋†’์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ฒฝ๊ณ„ ์ƒ์ž๊ฐ€ ์ปค๋ฒ„ํ•˜๋Š” ๊ฐ์ฒด์˜ ๋†’์ด๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฐ’์€ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์— ๋Œ€ํ•œ ์ƒ๋Œ€์ ์ธ ๊ฐ’์œผ๋กœ ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.
  5. bwb_wbwโ€‹: ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ๋„ˆ๋น„

    • bwb_wbwโ€‹๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ๋„ˆ๋น„๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ฒฝ๊ณ„ ์ƒ์ž๊ฐ€ ํฌํ•จํ•˜๋Š” ๊ฐ์ฒด์˜ ๋„ˆ๋น„๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฐ’ ์—ญ์‹œ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์— ๋Œ€ํ•œ ์ƒ๋Œ€์ ์ธ ๊ฐ’์œผ๋กœ์„œ, bhb_hbhโ€‹์™€ ํ•จ๊ป˜ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ํฌ๊ธฐ๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

5.2 YOLOv1์˜ ์•„ํ‚คํ…์ฒ˜

YOLOv1์˜ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜๋Š” 24๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ(convolutional) ๊ณ„์ธต๊ณผ 2๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ(fully connected) ๊ณ„์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. 24๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์€ ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋ฉฐ, ๋งˆ์ง€๋ง‰ 2๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ ๊ณ„์ธต์€ ํƒ์ง€๋œ ๊ฐ์ฒด์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ์™€ ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์€ Leaky ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋งˆ์ง€๋ง‰ ์ธต์—์„œ๋Š” ์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ, ๋ชจ๋ธ์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•œ Fast YOLO ๋ฒ„์ „๋„ ํ•จ๊ป˜ ๋„์ž…๋˜์—ˆ๋Š”๋ฐ, ์ด ๋ฒ„์ „์€ 9๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ YOLOv1๋ณด๋‹ค ๋” ๋น ๋ฅธ ์†๋„๋ฅผ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค.

5.3 YOLOv1์˜ ํ›ˆ๋ จ ๋ฐ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•

  • YOLOv1์€ ์ฒซ 20๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์„ ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ ์‚ฌ์ „ ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  ๋‚˜๋จธ์ง€ 4๊ฐœ์˜ ๊ณ„์ธต์„ ์ถ”๊ฐ€ํ•˜์—ฌ PASCAL VOC 2007 ๋ฐ 2012 ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ›ˆ๋ จ ์ค‘์—๋Š” ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋ฅผ ์ž„์˜๋กœ ํ™•๋Œ€ํ•˜๊ฑฐ๋‚˜ ์ถ•์†Œํ•˜๊ณ , ์ด๋ฏธ์ง€๋ฅผ ํšŒ์ „์‹œํ‚ค๊ฑฐ๋‚˜ ๋ฐ๊ธฐ ๋ฐ ์ƒ‰์ƒ์„ ๋ณ€ํ˜•ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(data augmentation) ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ ์ž˜ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • Random scaling and translations: ์ด๋ฏธ์ง€ ํฌ๊ธฐ์˜ ์ตœ๋Œ€ 20%๊นŒ์ง€ ๋ฌด์ž‘์œ„๋กœ ํ™•๋Œ€/์ถ•์†Œ ๋ฐ ์ด๋™์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 448x448 ํฌ๊ธฐ์˜ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ผ๋ฉด:
      • ์Šค์ผ€์ผ๋ง: 358x358 ~ 538x538 ์‚ฌ์ด์˜ ํฌ๊ธฐ๋กœ ๋ฌด์ž‘์œ„ ์กฐ์ •
      • ์ด๋™: ๊ฐ€๋กœ์„ธ๋กœ ๊ฐ๊ฐ -90 ~ +90 ํ”ฝ์…€ ๋ฒ”์œ„ ๋‚ด์—์„œ ๋ฌด์ž‘์œ„ ์ด๋™
    • Random exposure and saturation: HSV, ์ƒ‰์ƒ(Hue), ์ฑ„๋„(Saturation), ๋ช…๋„(Value) ์ƒ‰ ๊ณต๊ฐ„์—์„œ ๋…ธ์ถœ(๋ฐ๊ธฐ)๊ณผ ์ฑ„๋„๋ฅผ ์กฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ๋Œ€ 1.5๋ฐฐ๊นŒ์ง€ ์ฆ๊ฐ€์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
      • ์ฆ‰, ์›๋ณธ ๊ฐ’์˜ 1.0 ~ 1.5๋ฐฐ ์‚ฌ์ด์—์„œ ๋ฌด์ž‘์œ„๋กœ ์กฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

5.4 YOLOv1์˜ ์†์‹ค ํ•จ์ˆ˜

YOLOv1์—์„œ ์‚ฌ์šฉ๋œ ์†์‹ค ํ•จ์ˆ˜๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ œ๊ณฑํ•ฉ ์˜ค๋ฅ˜๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์˜ˆ์ธก๋œ ๊ฒฝ๊ณ„ ์ƒ์ž(bounding boxes)์˜ ์ •ํ™•์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ฮปcoord์™€ ฮปnoobj๋Š” YOLOv1์˜ ์†์‹ค ํ•จ์ˆ˜์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, ๋ชจ๋ธ์˜ ๋‹ค์–‘ํ•œ ์˜ˆ์ธก์— ๋Œ€ํ•œ ์ค‘์š”์„ฑ์„ ์กฐ์ ˆํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • ฮปcoord (Coordinate Scale Factor):

    • ฮปcoord๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž(bounding box) ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ์„ ๊ฐ•์กฐํ•˜๋Š” ์Šค์ผ€์ผ ํŒฉํ„ฐ์ž…๋‹ˆ๋‹ค. ๊ฐ’์ด 5๋กœ ์„ค์ •๋˜์–ด ์žˆ์–ด, ๊ฒฝ๊ณ„ ์ƒ์ž ์œ„์น˜์™€ ํฌ๊ธฐ ์˜ˆ์ธก์˜ ์†์‹ค์ด ์ „์ฒด ์†์‹ค์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค.
    • ์ฆ‰, ๋ชจ๋ธ์ด ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํฌ๊ธฐ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฐ’์ด ๋†’์„์ˆ˜๋ก ๊ฒฝ๊ณ„ ์ƒ์ž ์˜ˆ์ธก์˜ ์˜ค๋ฅ˜๊ฐ€ ๋” ํฐ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ฐ›๊ฒŒ ๋˜์–ด, ๋ชจ๋ธ์ด ์ด ๋ถ€๋ถ„์— ๋” ์ง‘์ค‘ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.
    • ์•„๋ž˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด Localization loss์— ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ณฑํ•ด์ ธ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ฮปnoobj (No Object Scale Factor):

    • ฮปnoobj๋Š” ๊ฐ์ฒด๊ฐ€ ์—†๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž์— ๋Œ€ํ•œ ์†์‹ค์˜ ์ค‘์š”์„ฑ์„ ์ค„์ด๋Š” ์Šค์ผ€์ผ ํŒฉํ„ฐ์ž…๋‹ˆ๋‹ค. ๊ฐ’์ด 0.5๋กœ ์„ค์ •๋˜์–ด ์žˆ์–ด, ์‹ค์ œ๋กœ ๊ฐ์ฒด๊ฐ€ ์—†๋Š” ๊ณณ์—์„œ ๊ฒฝ๊ณ„ ์ƒ์ž๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์†์‹ค์˜ ์˜ํ–ฅ์ด ์ค„์–ด๋“ญ๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋ถˆํ•„์š”ํ•œ ์˜ˆ์ธก์„ ์ค„์ด๊ณ , ์‹ค์ œ ๊ฐ์ฒด๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ์—๋งŒ ๋” ์ง‘์ค‘ํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
    • ์•„๋ž˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด Confidence loss์— ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ณฑํ•ด์ ธ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ ์†์‹ค ํ•จ์ˆ˜ ์„ค๊ณ„๋Š” YOLOv1์ด ๊ฐ์ฒด ํƒ์ง€์—์„œ ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š”๋ฐ, ํŠนํžˆ ๊ฐ์ฒด๊ฐ€ ์žˆ๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ๋” ์ฃผ์˜ ๊นŠ๊ฒŒ ๊ณ ๋ คํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ „์ฒด์ ์ธ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•˜๋Š” ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค.

5.5 YOLOv1์˜ ์žฅ์ ๊ณผ ํ•œ๊ณ„

YOLOv1์€ ๊ฐ„๋‹จํ•œ ์•„ํ‚คํ…์ฒ˜์™€ ๋น ๋ฅธ ์†๋„๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ๋„ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค:

  • ์†Œํ˜• ๊ฐ์ฒด ํƒ์ง€์˜ ์–ด๋ ค์›€: YOLOv1์€ ๊ฒฉ์ž ๊ธฐ๋ฐ˜์˜ ํƒ์ง€ ๋ฐฉ์‹์œผ๋กœ ์ธํ•ด, ๋™์ผํ•œ ๊ฒฉ์ž ๋‚ด์—์„œ ์—ฌ๋Ÿฌ ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋น„ํ‘œ์ค€์ ์ธ ๊ฐ์ฒด ๋น„์œจ ํƒ์ง€ ๋ฌธ์ œ: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ๋ณธ ์  ์—†๋Š” ๋น„์œจ์„ ๊ฐ€์ง„ ๊ฐ์ฒด์˜ ๊ฒฝ์šฐ ํƒ์ง€ ์„ฑ๋Šฅ์ด ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๋ฌธ์ œ: YOLOv1์€ ์ด๋ฏธ์ง€์˜ ํ•ด์ƒ๋„๋ฅผ ๋‚ฎ์ถ”์–ด ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๊ณผ์ •์—์„œ, ๊ฐ์ฒด์˜ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๋†“์น˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  1. YOLOv2: Better, Faster, and Stronger (2017๋…„)

YOLOv2๋Š” 2016๋…„ Joseph Redmon๊ณผ Ali Farhadi๊ฐ€ ๋ฐœํ‘œํ•œ ๋ชจ๋ธ๋กœ, YOLOv1์—์„œ ์„ฑ๋Šฅ๊ณผ ์ •ํ™•๋„๋ฅผ ๊ฐœ์„ ํ•˜์—ฌ โ€œ๋” ๋‚˜์€(Better), ๋” ๋น ๋ฅธ(Faster), ๋” ๊ฐ•๋ ฅํ•œ(Stronger)โ€ ๊ฐ์ฒด ํƒ์ง€ ์‹œ์Šคํ…œ์„ ๋ชฉํ‘œ๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • Better : ์ •ํ™•๋„๋ฅผ ์˜ฌ๋ฆฌ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•
  • Faster : detection ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•
  • Stronger : ๋” ๋งŽ์€ ๋ฒ”์œ„์˜ class๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•

YOLOv2๋Š” YOLOv1์˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. YOLOv2๋Š” ํŠนํžˆ ๋” ๋งŽ์€ ๊ฐ์ฒด๋ฅผ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. (CVPR2017)

6.1 YOLOv2์˜ ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ

  1. ๋ฐฐ์น˜ ์ •๊ทœํ™”(Batch Normalization) ๋„์ž…

    • YOLOv2๋Š” ๋ชจ๋“  ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์— ๋ฐฐ์น˜ ์ •๊ทœํ™”(Batch Normalization)๋ฅผ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋†’์ด๊ณ  ๊ณผ์ ํ•ฉ(overfitting)์„ ๋ฐฉ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๋ฐฐ์น˜ ์ •๊ทœํ™”๋Š” ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ํ™œ์„ฑํ™” ๊ฐ’์˜ ๋ถ„ํฌ๋ฅผ ์•ˆ์ •ํ™”์‹œ์ผœ, ๋” ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ 2%๊ฐ€๋Ÿ‰ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

      ๐Ÿ“– ๋ฐฐ์น˜ ์ •๊ทœํ™”(Batch Normalization)

      ๋ฐฐ์น˜ ์ •๊ทœํ™”(Batch Normalization)๋Š” 2015๋…„ Ioffe์™€ Szegedy๊ฐ€ ์†Œ๊ฐœํ•œ ๊ธฐ๋ฒ•์œผ๋กœ, ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ, ํŠนํžˆ CNN(Convolutional Neural Networks)์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

    ๐Ÿ’ก ๋ฐฐ์น˜ ์ •๊ทœํ™”์˜ ๋ชฉ์ 

    1. ํ•™์Šต ์†๋„ ํ–ฅ์ƒ: ๋” ๋†’์€ ํ•™์Šต๋ฅ ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
    2. ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐœ์„ : ๊ณผ์ ํ•ฉ์„ ์ค„์ด๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
    3. Internal Covariate Shift ๊ฐ์†Œ: ๊ฐ ๋ ˆ์ด์–ด์˜ ์ž…๋ ฅ ๋ถ„ํฌ ๋ณ€ํ™”๋ฅผ ์ค„์ž…๋‹ˆ๋‹ค.

    โœ๏ธ ์ž‘๋™ ์›๋ฆฌ

    1. ์ •๊ทœํ™”: ๊ฐ ๋ฐฐ์น˜์˜ ํ™œ์„ฑํ™” ๊ฐ’์— ๋Œ€ํ•ด ํ‰๊ท (ฮผB\mu_BฮผBโ€‹๋Š” ๋ฐฐ์น˜์˜ ํ‰๊ท )๊ณผ ๋ถ„์‚ฐ(ฯƒB2\sigma_B^2ฯƒB2โ€‹๋Š” ๋ฐฐ์น˜์˜ ๋ถ„์‚ฐ)์„ ๊ณ„์‚ฐํ•˜์—ฌ ์ •๊ทœํ™”ํ•ฉ๋‹ˆ๋‹ค.

      xnorm=xโˆ’ฮผBฯƒB2+ฯตx_{norm} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}xnormโ€‹=ฯƒB2โ€‹+ฯตโ€‹xโˆ’ฮผBโ€‹โ€‹

    2. ์Šค์ผ€์ผ๋ง๊ณผ ์ด๋™: ์ •๊ทœํ™”๋œ ๊ฐ’์— ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ฮณ\gammaฮณ(๊ฐ๋งˆ)์™€ ฮฒ\betaฮฒ(๋ฒ ํƒ€)๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.

      y=ฮณxnorm+ฮฒy = \gamma x_{norm} + \betay=ฮณxnormโ€‹+ฮฒ

  2. ๊ณ ํ•ด์ƒ๋„ ๋ถ„๋ฅ˜๊ธฐ(Fine-tuned High-resolution Classifier)

    • YOLOv1๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ YOLOv2๋Š” ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋จผ์ € 224ร—224 ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ(pretraining)์„ ๊ฑฐ์ณค์Šต๋‹ˆ๋‹ค.
    • ์ดํ›„ YOLOv2๋Š” ํ•ด์ƒ๋„๋ฅผ 448ร—448๋กœ ๋†’์—ฌ 10 ์—ํฌํฌ(epoch) ๋™์•ˆ ์ถ”๊ฐ€ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์—ฌ ๊ณ ํ•ด์ƒ๋„ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์ด ๋†’์€ ํ•ด์ƒ๋„์—์„œ ๋” ๋‚˜์€ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  3. ์™„์ „ ํ•ฉ์„ฑ๊ณฑ ๋„คํŠธ์›Œํฌ(Fully Convolutional Network)

    • YOLOv2๋Š” ์™„์ „ ์—ฐ๊ฒฐ ๊ณ„์ธต์„ ์ œ๊ฑฐํ•˜๊ณ  ์™„์ „ ํ•ฉ์„ฑ๊ณฑ ๋„คํŠธ์›Œํฌ(Fully Convolutional Network, FCN)๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋ชจ๋ธ์˜ ํฌ๊ธฐ์™€ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด YOLOv2๋Š” ๋” ๋น ๋ฅธ ์†๋„์™€ ๋” ์ž‘์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ์•ต์ปค ๋ฐ•์Šค(Anchor Boxes) ๋„์ž…
    • YOLOv2์—์„œ ์•ต์ปค ๋ฐ•์Šค(Anchor Boxes)๋Š” ๊ฐ์ฒด ๊ฐ์ง€ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋„์ž…๋œ ์ค‘์š”ํ•œ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.
    • ์•ต์ปค ๋ฐ•์Šค๋Š” ๋ชจ๋ธ์ด ํŠน์ • ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๋ฐ ์˜ˆ์ƒ๋˜๋Š” ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ๊ตฌ์กฐ ๋˜๋Š” ๋น„์œจ์„ ๋ฏธ๋ฆฌ ์ •์˜ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์ด ๋ฐฉ์‹์€ Faster R-CNN๊ณผ ๊ฐ™์€ ๋ชจ๋ธ์—์„œ ์ฒ˜์Œ ๋„์ž…๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ๋น„์œจ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์•ต์ปค ๋ฐ•์Šค

  • ๊ธฐ๋ณธ ์•„์ด๋””์–ด: YOLOv2๋Š” ๋„คํŠธ์›Œํฌ์˜ ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Ÿฌํ•œ ์•ต์ปค ๋ฐ•์Šค๋Š” ๋ฏธ๋ฆฌ ์ •์˜๋œ ๋น„์œจ๊ณผ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ๋‹ค์–‘ํ•œ ๊ฐ์ฒด์˜ ํฌ๊ธฐ์™€ ํ˜•ํƒœ์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค์–‘์„ฑ: ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์— ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ๋ฐฐ์น˜ํ•จ์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ๋ชจ์–‘๊ณผ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ๋ณด๋‹ค ํšจ๊ณผ์ ์œผ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ์ฒด์˜ ํฌ๊ธฐ์™€ ๋น„์œจ์ด ํฐ ์ด๋ฏธ์ง€์—์„œ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ๋žŒ์ด ์žˆ๋Š” ๊ฒฝ์šฐ์™€ ์ž๋™์ฐจ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ๋Š” ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅด๋ฏ€๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ๋น„์œจ์„ ๊ฐ€์ง„ ์•ต์ปค ๋ฐ•์Šค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”Ž Faster R-CNN์€ ๊ณ ์ •๋œ ์•ต์ปค๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Faster R-CNN์—์„œ๋Š” ๊ณ ์ •๋œ ํฌ๊ธฐ์™€ ๋น„์œจ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์‚ฌ์ „์— ์ •์˜๋œ ํŠน์ • ํฌ๊ธฐ์™€ ๋น„์œจ์˜ ๋ฐ•์Šค๋ฅผ ๋‹ค์–‘ํ•œ ์œ„์น˜์— ์ ์šฉํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•ฉ๋‹ˆ๋‹ค.

  • Faster R-CNN์€ ๋ณดํ†ต 3๊ฐœ์˜ ํฌ๊ธฐ์™€ 3๊ฐœ์˜ ๋น„์œจ์„ ์กฐํ•ฉํ•ด 9๊ฐœ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋Š” ์ด๋ฏธ์ง€๋‚˜ ๋ฐ์ดํ„ฐ์…‹์— ์ƒ๊ด€์—†์ด ๊ณ ์ •๋œ ๊ฐ’์ž…๋‹ˆ๋‹ค.
    • 2:1, 1:1, 1:2 x 3, ์ด 9๊ฐœ์˜ ์•ต์ปค๋ฐ•์Šค ํ›„๋ณด๋ฅผ ์‚ฌ์šฉ

๐Ÿ”Ž Yolo-v2๋Š” ๋ฐ์ดํ„ฐ์…‹์— ๋งž์ถ˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

YOLO v2์—์„œ๋Š” ๊ฐ ๊ฐ์ฒด์˜ ์‹ค์ œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ํฌ๊ธฐ์™€ ๋น„์œจ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ˆ˜ํ–‰ํ•˜์—ฌ, K-ํ‰๊ท  ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹์— ๋งž๋Š” ์ตœ์ ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์˜ˆ๋ฅผ ๋“ค์–ด, Pascal VOC์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ฐ์ฒด๋“ค์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค(GT, Ground Truth)๋ฅผ ๋ถ„์„ํ•œ ํ›„, K-ํ‰๊ท  ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ์ ์šฉํ•˜์—ฌ 5๊ฐœ์˜ ์ตœ์ ํ™”๋œ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๊ณผ์ •์€ ๋ฐ์ดํ„ฐ์…‹๋งˆ๋‹ค ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ ‡๊ฒŒ ์ •์˜๋œ ์•ต์ปค ๋ฐ•์Šค๋Š” ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์— ๋งž๋Š” ํฌ๊ธฐ์™€ ๋น„์œจ์„ ๋ฐ˜์˜ํ•˜์—ฌ ๋” ๋‚˜์€ ํƒ์ง€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  1. ์ฐจ์› ๊ตฐ์ง‘ํ™”(Dimensional Clustering)
    • ์ฐจ์› ๊ตฐ์ง‘ํ™”๋Š” YOLOv2์—์„œ K-ํ‰๊ท  ๊ตฐ์ง‘ํ™”(K-means clustering)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ํฌ๊ธฐ์™€ ๋น„์œจ์„ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
    • ๊ณผ์ •:
      • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๋ถ„์„: ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ๋•Œ, ๊ฐ ๊ฐ์ฒด์˜ ์‹ค์ œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ๋„ˆ๋น„์™€ ๋†’์ด(w, h)๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ˆ˜์ง‘๋œ Ground Truth(GT) ์ •๋ณด์—์„œ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • K-ํ‰๊ท  ๊ตฐ์ง‘ํ™”: YOLOv2๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ํฌ๊ธฐ์™€ ๋น„์œจ์— ๋”ฐ๋ผ K-ํ‰๊ท  ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜์—ฌ, ๊ฐ€์žฅ ์ž์ฃผ ๋‚˜ํƒ€๋‚˜๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ํฌ๊ธฐ ๋ฐ ๋น„์œจ์„ ๊ทธ๋ฃนํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฐ์ง‘ํ™” ๊ณผ์ •์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์…‹์— ๋งž๋Š” ์ตœ์ ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์•ต์ปค ๋ฐ•์Šค ์„ ํƒ: ๊ตฐ์ง‘ํ™” ๊ฒฐ๊ณผ๋กœ ๊ฐ ๊ตฐ์ง‘์˜ ์ค‘์‹ฌ(centroid)์„ ๊ธฐ์ค€์œผ๋กœ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. YOLOv2์—์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ 5๊ฐœ์˜ ์•ต์ปค ๋ฐ•์Šค๊ฐ€ ์ตœ์ ์˜ ์„ ํƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์œผ๋ฉฐ, ์ด ์•ต์ปค ๋ฐ•์Šค๋Š” ๋ชจ๋ธ์ด ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ๋•Œ ์ดˆ๊ธฐ ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. ์ง์ ‘ ์œ„์น˜ ์˜ˆ์ธก(Direct Location Prediction)
    • ์ง์ ‘ ์œ„์น˜ ์˜ˆ์ธก์€ YOLOv2๊ฐ€ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. YOLOv2๋Š” ์ด์ „ ๋ชจ๋ธ์ธ Faster R-CNN๊ณผ ๋‹ฌ๋ฆฌ, ์˜คํ”„์…‹(offset) ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ๋Œ€์‹  ๊ฐ์ฒด์˜ ์ง์ ‘์ ์ธ ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” YOLO์˜ ์ฒ ํ•™์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์œ„์น˜ ์˜ˆ์ธก์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ๊ณผ์ •:
      • YOLO์˜ ์ฒ ํ•™ ์œ ์ง€: YOLO ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋ฆฌ๋“œ ์…€๋กœ ๋‚˜๋ˆ„๊ณ , ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์ด ๊ฐ์ฒด์˜ ์กด์žฌ ์—ฌ๋ถ€์™€ ๊ฐ์ฒด์˜ ์œ„์น˜ ์ •๋ณด๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ, ๊ทธ๋ฆฌ๋“œ ์…€์—์„œ ๊ฐ์ฒด์˜ ์ค‘์‹ฌ ์ขŒํ‘œ(X, Y)๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
      • Sigmoid ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ์‚ฌ์šฉ: ์˜ˆ์ธก๋œ X, Y ์ขŒํ‘œ๋Š” ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์˜ ๊ฒฝ๊ณ„ ๋‚ด์—์„œ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด YOLOv2๋Š” Sigmoid ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ์ขŒํ‘œ ๊ฐ’์„ ๊ทธ๋ฆฌ๋“œ ์…€ ๊ฒฝ๊ณ„ ๋‚ด์— ์œ„์น˜์‹œํ‚ค๋Š” ๋ฐฉ์‹์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
      • ๊ทธ๋ฆฌ๋“œ ์…€ ๋‚ด ์ƒ๋Œ€ ์ขŒํ‘œ ์˜ˆ์ธก: YOLOv2๋Š” ๊ทธ๋ฆฌ๋“œ ์…€์„ ๊ธฐ์ค€์œผ๋กœ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋ฏ€๋กœ, ์ขŒํ‘œ์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ƒ๋Œ€์ ์ธ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. Faster R-CNN์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ ์˜คํ”„์…‹ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์€ ๋ถˆ์•ˆ์ •ํ•œ ํ›ˆ๋ จ์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋‚˜, YOLOv2์˜ ๋ฐฉ์‹์€ ์•ˆ์ •์ ์ธ ํ›ˆ๋ จ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“Š ์•„๋ž˜ ๊ทธ๋ฆผ์€ YOLOv2์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์œ„์น˜์™€ ํฌ๊ธฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์˜ˆ์ธกํ•˜๋Š”์ง€๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ์„ค๋ช…ํ•œ ๊ฒƒ์œผ๋กœ, ๊ทธ๋ฆฌ๋“œ ์…€์„ ๊ธฐ์ค€์œผ๋กœ ์˜ˆ์ธก๋œ ์ƒ๋Œ€ ์ขŒํ‘œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ตœ์ข… ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ๊ณ„์‚ฐ ๊ณผ์ •์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ค‘์‹ฌ: Sigmoid ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๊ทธ๋ฆฌ๋“œ ์…€ ๋‚ด์—์„œ ์ƒ๋Œ€์ ์ธ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ๊ทธ ๊ฐ’์„ ๊ธฐ์ค€ ๊ทธ๋ฆฌ๋“œ ์…€ ์ขŒํ‘œ์— ๋”ํ•ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ ์ขŒํ‘œ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ํฌ๊ธฐ: ๋ฏธ๋ฆฌ ์ •์˜๋œ ์•ต์ปค ๋ฐ•์Šค ํฌ๊ธฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ์ง€์ˆ˜ ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก๋œ ์Šค์ผ€์ผ ๊ฐ’์„ ๋ฐ˜์˜ํ•˜์—ฌ ์ตœ์ข… ๋„ˆ๋น„์™€ ๋†’์ด๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • ์•ต์ปค ๋ฐ•์Šค: ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ดˆ๊ธฐ ํฌ๊ธฐ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, YOLOv2์—์„œ๋Š” ๋ฐ์ดํ„ฐ์…‹์˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ†ตํ•ด ์‚ฌ์ „ ์ •์˜๋œ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  1. ๋” ์„ธ๋ฐ€ํ•œ ํŠน์ง•(Finer-grained Features)

    • YOLOv2๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ•ด์ƒ๋„๋ฅผ 416ร—416์œผ๋กœ ์„ค์ •ํ•˜๊ณ , ํ•œ ๊ณ„์ธต์˜ ํ’€๋ง(pooling)์„ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ๋” ํฐ ์ถœ๋ ฅ ๊ทธ๋ฆฌ๋“œ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋” ์„ธ๋ฐ€ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํŒจ์ŠคํŠธ์Šค๋ฃจ ๋ ˆ์ด์–ด(Passthrough Layer)๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋‚ฎ์€ ํ•ด์ƒ๋„์˜ ํŠน์ง• ๋งต์„ ๊ณ ํ•ด์ƒ๋„์˜ ํŠน์ง• ๋งต๊ณผ ์—ฐ๊ฒฐํ•จ์œผ๋กœ์จ ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•œ ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  2. ๋‹ค์ค‘ ์Šค์ผ€์ผ ํ•™์Šต(Multi-scale Training)

    • YOLOv2๋Š” ๋‹ค์–‘ํ•œ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋‹ค์ค‘ ์Šค์ผ€์ผ ํ•™์Šต ๊ธฐ๋ฒ•์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ 320ร—320์—์„œ 608ร—608๊นŒ์ง€ ๋ฌด์ž‘์œ„๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šตํ•˜๊ณ , ๋‹ค์–‘ํ•œ ํ•ด์ƒ๋„์—์„œ๋„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.

6.2 YOLO9000: ๋” ๋งŽ์€ ๊ฐ์ฒด ํƒ์ง€

YOLOv2์™€ ํ•จ๊ป˜ ๋ฐœํ‘œ๋œ YOLO9000์€ ๋ชจ๋ธ์ด ๋‹จ์ผ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๊ฐ์ฒด ํƒ์ง€์™€ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • YOLO9000์€ COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ฐ์ฒด ํƒ์ง€ ์ž‘์—…์„, ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ฐ์ฒด ๋ถ„๋ฅ˜ ์ž‘์—…์„ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋” ๋งŽ์€ ๊ฐ์ฒด ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.
  • YOLO9000์€ 9000๊ฐœ ์ด์ƒ์˜ ๊ฐ์ฒด ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํƒ์ง€ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” YOLOv2์˜ ํ™•์žฅ๋œ ๋ฒ„์ „์œผ๋กœ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  1. YOLOv3 (2018๋…„)

YOLOv3๋Š” 2018๋…„์— Joseph Redmon๊ณผ Ali Farhadi์— ์˜ํ•ด ๋ฐœํ‘œ๋œ ๋ชจ๋ธ๋กœ, YOLOv2์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ณ  ๊ฐ์ฒด ํƒ์ง€์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๋ฐ ์ค‘์ ์„ ๋‘” ๋ฒ„์ „์ž…๋‹ˆ๋‹ค.

  • YOLOv3๋Š” ๋” ํฐ ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜์™€ ํ–ฅ์ƒ๋œ ๊ธฐ๋Šฅ์„ ๋„์ž…ํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ๋” ์ž˜ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ์˜ ํƒ์ง€ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

7.1 YOLOv3์˜ ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ

  1. ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก์˜ ๊ฐœ์„ 
    • YOLO-V3๋Š” ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
      • ๊ฐ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” bxb_xbxโ€‹(X์ขŒํ‘œ), byb_ybyโ€‹(Y์ขŒํ‘œ), bwb_wbwโ€‹(ํญ), tht_hthโ€‹(๋†’์ด), ๊ฐ์ฒด์„ฑ ์ ์ˆ˜ (ํ•ด๋‹น ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์— ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ํ™•๋ฅ )์™€ ํด๋ž˜์Šค ํ™•๋ฅ  (ํ•ด๋‹น ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์—์„œ ํ™•์ธ๋œ ๊ฐ์ฒด์˜ ํด๋ž˜์Šค)์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๊ฐ’๋“ค์€ ๋„คํŠธ์›Œํฌ์—์„œ ์˜ˆ์ธก๋œ ๋ณ€ํ˜•(txt_xtxโ€‹, tyt_ytyโ€‹)์™€ ์‚ฌ์ „ ์ •์˜๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ฐจ์›(pwp_wpwโ€‹, php_hphโ€‹)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. (์•„๋ž˜ ๊ทธ๋ฆผ ์ฐธ๊ณ )
      • YOLOv3๋Š” ์ด์ „ YOLOv2์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด 4๊ฐœ์˜ ์ขŒํ‘œ ๊ฐ’์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๊ฐ์ฒด์„ฑ ์ ์ˆ˜๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐ์ฒด์„ฑ ์ ์ˆ˜(objectness score)๋Š” YOLOv3์™€ ๊ฐ™์€ ๊ฐ์ฒด ๊ฐ์ง€ ๋ชจ๋ธ์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๊ฐ€ ์‹ค์ œ ๊ฐ์ฒด๋ฅผ ํฌํ•จํ•  ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์ž…๋‹ˆ๋‹ค. ์ด ์ ์ˆ˜๋Š” ํŠน์ • ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๊ฐ€ ๊ฐ์ฒด๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  1. ํด๋ž˜์Šค ์˜ˆ์ธก์˜ ๊ฐœ์„ 

    • YOLOv3๋Š” ํด๋ž˜์Šค ์˜ˆ์ธก์—์„œ ์†Œํ”„ํŠธ๋งฅ์Šค(Softmax) ๋Œ€์‹  ์ด์ง„ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ(Binary Cross-Entropy) ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ๋…๋ฆฝ์ ์ธ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
    • ๊ตฌ์ฒด์ ์œผ๋กœ ๋งํ•˜์ž๋ฉด, YOLOv3๋Š” ๊ฐ ์˜ˆ์ธก๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์— ๋Œ€ํ•ด ๊ฐ์ฒด์˜ ์กด์žฌ ํ™•๋ฅ ์„ ์ถœ๋ ฅํ•˜๋Š”๋ฐ, ์ด ํ™•๋ฅ ์€ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
    • ์ด ๋ฐฉ์‹์€ ๊ฐ์ฒด๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ(์˜ˆ: โ€œ์‚ฌ๋žŒโ€์ด์ž โ€œ๋‚จ์žโ€์ธ ๊ฐ์ฒด)๋ฅผ ๋” ์œ ์—ฐํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  2. ์ƒˆ๋กœ์šด ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ: Darknet-53

    • YOLOv3๋Š” ํŠน์ง• ์ถ”์ถœ์„ ์œ„ํ•ด ๋” ํฐ ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ์ธ Darknet-53์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด ๋„คํŠธ์›Œํฌ๋Š” ์ด 53๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connections)์„ ๋„์ž…ํ•˜์—ฌ ํ•™์Šต์ด ๋” ์ž˜ ์ง„ํ–‰๋  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ž”์ฐจ ๋ธ”๋ก๊ณผ Leaky ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ€ ์‚ฌ์šฉ๋˜๋ฉฐ, ์˜ˆ์ธก์€ ๋ชจ๋‘ ํ•ฉ์„ฑ๊ณฑ(convolutional) ๋ ˆ์ด์–ด๋กœ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
    • ํ’€๋ง ๋ ˆ์ด์–ด ๋Œ€์‹  Stride 2๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์šด์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•˜์—ฌ, ์ •๋ณด ์†์‹ค์„ ์ค„์ด๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Darknet-53์€ ResNet-152์™€ ์œ ์‚ฌํ•œ ์ •ํ™•๋„๋ฅผ ๊ฐ€์ง€๋ฉด์„œ๋„ ๋‘ ๋ฐฐ ๋น ๋ฅธ ์†๋„๋ฅผ ์ œ๊ณตํ•˜๋Š” ํšจ์œจ์ ์ธ ๋„คํŠธ์›Œํฌ์ž…๋‹ˆ๋‹ค.

  1. ๋‹ค์ค‘ ์Šค์ผ€์ผ ์˜ˆ์ธก(Multi-Scale Predictions)
    • YOLOv3์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฐœ์„  ์ค‘ ํ•˜๋‚˜๋Š” ๋‹ค์ค‘ ์Šค์ผ€์ผ ์˜ˆ์ธก ๊ธฐ๋Šฅ์ž…๋‹ˆ๋‹ค. YOLOv3๋Š” ํ•œ ๊ฐ€์ง€ ํ•ด์ƒ๋„์—์„œ๋งŒ ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์—์„œ ํƒ์ง€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
      • ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOv3๋Š” 13ร—13, 26ร—26, 52ร—52์˜ ์„œ๋กœ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ๊ทธ๋ฆฌ๋“œ์—์„œ ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ, ์ž‘์€ ๊ฐ์ฒด๋ถ€ํ„ฐ ํฐ ๊ฐ์ฒด๊นŒ์ง€ ๋ชจ๋‘ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‹ค์ค‘ ์Šค์ผ€์ผ ์˜ˆ์ธก์€ ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ๊ณต๊ฐ„ ํ”ผ๋ผ๋ฏธ๋“œ ํ’€๋ง(Spatial Pyramid Pooling, SPP)
    • ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” ์ง์ ‘์ ์ธ ์–ธ๊ธ‰์€ ์—†์ง€๋งŒ โ€œPredicting financial distress and corporate failure: A review from the state-of-the-art definitions, modeling, sampling, and featuring approachesโ€ ๋…ผ๋ฌธ์—์„œ๋Š” YOLO-v3์— Spatial pyramid pooling (SPP)๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•œ SPPBlock์„ ์ถ”๊ฐ€ํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
    • YOLOv3์— SPP(Spatial Pyramid Pooling) ๊ธฐ๋ฒ•์„ ์ถ”๊ฐ€ํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋งฅ์Šค ํ’€๋ง ์—ฐ์‚ฐ์„ ํ†ตํ•ด ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๋” ๋„“์€ ์ˆ˜์šฉ ์˜์—ญ์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณด๋‹ค ์ •ํ™•ํ•œ ํƒ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ด์ฃผ์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ํฐ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๐Ÿ”Ž Spatial Pyramid Pooling(SPP)

๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ๊ณ ์ •๋œ ํฌ๊ธฐ๋กœ ๋ณ€ํ™˜ํ•˜์ง€ ์•Š๊ณ ๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. SPP๋Š” ํŠนํžˆ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์—์„œ ์ถ”์ถœ๋œ ํ”ผ์ฒ˜๋ฅผ ๋ณ‘ํ•ฉํ•˜์—ฌ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

  • ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ํ”ผ์ฒ˜๋งต: SPP๋Š” ์ด๋ฏธ์ง€์—์„œ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ๋กœ ํ”ผ์ฒ˜๋งต์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€๋ฅผ 1x1, 2x2, 4x4 ํฌ๊ธฐ์˜ ํ’€๋ง ์œˆ๋„์šฐ๋กœ ๋‚˜๋ˆ„์–ด ๊ฐ๊ฐ ํ’€๋ง์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ๋˜๋ฉด, ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ์™€ ์ƒ๊ด€์—†์ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํ”ผ์ฒ˜๋งต์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ž‘์€ ์œˆ๋„์šฐ๋Š” ์„ธ๋ฐ€ํ•œ ์ •๋ณด๋ฅผ, ํฐ ์œˆ๋„์šฐ๋Š” ์ „์ฒด์ ์ธ ์ •๋ณด๋ฅผ ๋‹ด์•„๋ƒ…๋‹ˆ๋‹ค.
  • SPP ๊ตฌ์กฐ: ์ด๋ฏธ์ง€๊ฐ€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์˜์—ญ์œผ๋กœ ๋‚˜๋‰˜๊ณ , ๊ฐ ์˜์—ญ์—์„œ ๋งฅ์Šค ํ’€๋ง(Max Pooling)์ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ๋กœ ์–ป์–ด์ง„ ํ”ผ์ฒ˜๋งต์€ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜๋˜์–ด ๋„คํŠธ์›Œํฌ์˜ ์ดํ›„ ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ ํฌ๊ธฐ ์ œ์•ฝ ์ œ๊ฑฐ: ์ผ๋ฐ˜์ ์ธ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN)์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๊ฐ€ ๊ณ ์ •๋˜์–ด ์žˆ์–ด์•ผ ํ•˜๋Š”๋ฐ, SPP๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋ฅผ ๊ณ ์ •ํ•  ํ•„์š” ์—†์ด, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ ๋„คํŠธ์›Œํฌ์— ์ž…๋ ฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” SPP๊ฐ€ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•ด ์ฃผ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • ๊ณ ์ •๋œ ๊ธธ์ด์˜ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ ์ƒ์„ฑ: SPP๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ, ํ›„์† ์™„์ „ ์—ฐ๊ฒฐ ์ธต(Fully Connected Layers)์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋„คํŠธ์›Œํฌ์˜ ์œ ์—ฐ์„ฑ์ด ์ฆ๊ฐ€ํ•˜๋ฉฐ, ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

(์ฐธ๊ณ ) Object Detection ์œ ํ˜•

  • ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์€ ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์œผ๋กœ ํฌ๊ฒŒ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค:
    • ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€(single-stage) ๊ฐ์ฒด ํƒ์ง€๊ธฐ
    • ํˆฌ ์Šคํ…Œ์ด์ง€(two-stage) ๊ฐ์ฒด ํƒ์ง€๊ธฐ.

์ด ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์€ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์†๋„, ์ •ํ™•์„ฑ ์ธก๋ฉด์—์„œ ์ค‘์š”ํ•œ ์ฐจ์ด๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.

1. ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€(Single-stage) ๊ฐ์ฒด ํƒ์ง€๊ธฐ

  • ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€ ๊ฐ์ฒด ํƒ์ง€๊ธฐ๋Š” ํ•œ ๋‹จ๊ณ„์—์„œ ๊ฐ์ฒด์˜ ์œ„์น˜(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค)์™€ ํด๋ž˜์Šค ์ •๋ณด๋ฅผ ๋™์‹œ์— ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

    • ๋Œ€ํ‘œ์ ์ธ ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€ ๋ชจ๋ธ๋กœ๋Š” YOLO(You Only Look Once), SSD(Single Shot MultiBox Detector) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ์š” ํŠน์ง•:

    • ์†๋„๊ฐ€ ๋น ๋ฆ„: ํ•œ ๋ฒˆ์˜ ์˜ˆ์ธก ๊ณผ์ •์—์„œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋งค์šฐ ๋น ๋ฅด๋ฉฐ, ์‹ค์‹œ๊ฐ„ ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ YOLO๋Š” ์ด ์†๋„ ๋•Œ๋ฌธ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • ๋‹จ์ผ ๋„คํŠธ์›Œํฌ: ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ๋‹จ์ผ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN)์— ํ†ต๊ณผ์‹œ์ผœ ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํด๋ž˜์Šค ์ •๋ณด๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ€์ง‘ ์˜ˆ์ธก(Dense Prediction): ์ด๋ฏธ์ง€์˜ ๊ฐ ์˜์—ญ์„ ๊ทธ๋ฆฌ๋“œ ์…€๋กœ ๋‚˜๋ˆ„๊ณ , ๊ฐ ์…€์—์„œ ๊ฐ์ฒด์˜ ์กด์žฌ ์—ฌ๋ถ€์™€ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ๊ทธ๋ฆฌ๋“œ๋กœ ๋‚˜๋ˆ„์–ด ๋ชจ๋“  ๊ทธ๋ฆฌ๋“œ ์…€์ด ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ–๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • ๋‹จ์ผ ๋‹จ๊ณ„ ์˜ˆ์ธก(One-step Prediction): ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์ถ”์ถœํ•œ ํ”ผ์ฒ˜๋งต์—์„œ ๋ฐ”๋กœ ๊ฐ์ฒด ์œ„์น˜์™€ ํด๋ž˜์Šค ์˜ˆ์ธก์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๋ฆฌ์ „ ์ œ์•ˆ(region proposals)์ด๋‚˜ ํ›„์† ๋‹จ๊ณ„๊ฐ€ ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.
  • ์žฅ์ :

    • ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ: ๋งค์šฐ ๋น ๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์ž์œจ ์ฃผํ–‰, CCTV ๋ชจ๋‹ˆํ„ฐ๋ง ๊ฐ™์€ ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋‹จ์ˆœํ•œ ์•„ํ‚คํ…์ฒ˜: ๋„คํŠธ์›Œํฌ๊ฐ€ ๋‹จ์ˆœํ•˜๋ฉฐ, ํ•™์Šต์ด ๋น ๋ฆ…๋‹ˆ๋‹ค.
  • ๋‹จ์ :

    • ์ •ํ™•๋„ ๋‚ฎ์Œ: ํˆฌ ์Šคํ…Œ์ด์ง€ ๋ฐฉ์‹์— ๋น„ํ•ด ๊ฐ์ฒด ํƒ์ง€์˜ ์ •ํ™•๋„๊ฐ€ ๋‹ค์†Œ ๋‚ฎ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด๋‚˜ ๋ณต์žกํ•œ ๋ฐฐ๊ฒฝ์—์„œ์˜ ํƒ์ง€๊ฐ€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ํˆฌ ์Šคํ…Œ์ด์ง€(Two-stage) ๊ฐ์ฒด ํƒ์ง€๊ธฐ

  • ํˆฌ ์Šคํ…Œ์ด์ง€ ๊ฐ์ฒด ํƒ์ง€๊ธฐ๋Š” ๊ฐ์ฒด ํƒ์ง€๋ฅผ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

    • ๋Œ€ํ‘œ์ ์ธ ํˆฌ ์Šคํ…Œ์ด์ง€ ๋ชจ๋ธ๋กœ๋Š” Faster R-CNN๊ณผ R-CNN ๊ณ„์—ด์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ์š” ํŠน์ง•:

    • 1๋‹จ๊ณ„ - ๋ฆฌ์ „ ์ œ์•ˆ(Region Proposal): ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ๋งŒํ•œ ์œ„์น˜๋ฅผ ์ œ์•ˆํ•˜๋Š” ์˜์—ญ(๋ฆฌ์ „)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํ›„๋ณด ์˜์—ญ์„ ์ฐพ์Šต๋‹ˆ๋‹ค.
    • 2๋‹จ๊ณ„ - ํด๋ž˜์Šค ์˜ˆ์ธก(Classification) ๋ฐ ๋ฐ•์Šค ์กฐ์ •(Bounding Box Regression): ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ ์ œ์•ˆ๋œ ์˜์—ญ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค)๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ํ•ด๋‹น ๊ฐ์ฒด๊ฐ€ ์–ด๋–ค ํด๋ž˜์Šค์ธ์ง€ ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๊ณผ์ •์—์„œ RoI Pooling(Region of Interest Pooling)๊ณผ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ œ์•ˆ๋œ ์˜์—ญ์—์„œ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ํ”ผ์ฒ˜๋งต์„ ์ถ”์ถœํ•˜๊ณ , ์ด ํ”ผ์ฒ˜๋งต์„ ํ™œ์šฉํ•ด ๊ฐ์ฒด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์œ„์น˜๋ฅผ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
  • ์žฅ์ :

    • ๋†’์€ ์ •ํ™•๋„: ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ, ์ž‘์€ ๊ฐ์ฒด๋‚˜ ๋ณต์žกํ•œ ๋ฐฐ๊ฒฝ์—์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์„ธ๋ฐ€ํ•œ ํƒ์ง€: ๋ฆฌ์ „ ์ œ์•ˆ ๋‹จ๊ณ„์—์„œ ๊ฐ์ฒด์˜ ์œ„์น˜๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ขํž ์ˆ˜ ์žˆ์–ด, ์ตœ์ข…์ ์œผ๋กœ ๋” ์ •๊ตํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹จ์ :

    • ์†๋„๊ฐ€ ๋А๋ฆผ: ๋ฆฌ์ „ ์ œ์•ˆ๊ณผ ๋ถ„๋ฅ˜ ๋‹จ๊ณ„๊ฐ€ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์–ด, ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
    • ๋ณต์žกํ•œ ์•„ํ‚คํ…์ฒ˜: ๋„คํŠธ์›Œํฌ๊ฐ€ ๋ณต์žกํ•˜๋ฉฐ, ํ›ˆ๋ จ๊ณผ ์ถ”๋ก  ์†๋„๊ฐ€ ๋А๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

(์ •๋ฆฌ) ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€์™€ ํˆฌ ์Šคํ…Œ์ด์ง€ ๋ชจ๋ธ ๋น„๊ต

ํŠน์ง• ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€ ํˆฌ ์Šคํ…Œ์ด์ง€
์˜ˆ์‹œ ๋ชจ๋ธ YOLO, SSD Faster R-CNN, Mask R-CNN
์†๋„ ๋งค์šฐ ๋น ๋ฆ„ (์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ) ๋น„๊ต์  ๋А๋ฆผ (์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋ถ€์ ํ•ฉ)
์ •ํ™•๋„ ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์Œ ๋†’์€ ์ •ํ™•๋„
๋‹จ๊ณ„ ์ˆ˜ 1๋‹จ๊ณ„๋กœ ๊ฐ์ฒด ํƒ์ง€ ๋ฐ ๋ถ„๋ฅ˜๋ฅผ ๋™์‹œ์— ์ˆ˜ํ–‰ 2๋‹จ๊ณ„๋กœ ๋ฆฌ์ „ ์ œ์•ˆ ํ›„ ๋ถ„๋ฅ˜ ๋ฐ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค
๊ตฌ์กฐ ๋‹จ์ˆœ ๋ณต์žก
์šฉ๋„ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€(์˜ˆ: ์ž์œจ ์ฃผํ–‰, ๋ณด์•ˆ) ์„ธ๋ฐ€ํ•œ ๊ฐ์ฒด ํƒ์ง€(์˜ˆ: ์˜๋ฃŒ ์ด๋ฏธ์ง€ ๋ถ„์„)
  1. Backbone, Neck, and Head

YOLO ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ์ฒด ํƒ์ง€์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ด์•ผ ํ•˜๋ฉฐ, ์ด๋Š” ํฌ๊ฒŒ Backbone(๋ฐฑ๋ณธ), Neck(๋„ฅ), Head(ํ—ค๋“œ)๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

  • ์ด ๊ตฌ์กฐ๋Š” YOLO๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ฑ๊ธ€ ์Šคํ…Œ์ด์ง€ ๊ฐ์ฒด ํƒ์ง€ ๋„คํŠธ์›Œํฌ์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.
  • ์ด ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ํ•จ๊ป˜ ์ž‘๋™ํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๊ณ  ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

Backbone, Neck, Head์˜ ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ์„œ๋กœ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์ „์ฒด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • Backbone์€ ์ด๋ฏธ์ง€์—์„œ ์œ ์šฉํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ ,
  • Neck์€ ์ด๋ฅผ ๋ณด๊ฐ•ํ•˜์—ฌ ๋‹ค์ค‘ ์Šค์ผ€์ผ์˜ ๊ฐ์ฒด์— ๋Œ€ํ•ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉฐ,
  • Head๋Š” ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํด๋ž˜์Šค๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ์ตœ์ข…์ ์ธ ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

8.1 Backbone(๋ฐฑ๋ณธ)

Backbone(๋ฐฑ๋ณธ)์€ YOLO์™€ ๊ฐ™์€ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์˜ ์ฒซ ๋ฒˆ์งธ ๋ถ€๋ถ„์œผ๋กœ, ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฑ๋ณธ์€ ์ฃผ๋กœ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN)์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ์ •๋ณด๋“ค์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

  • YOLOv1์˜ Backbone: ์ดˆ๊ธฐ YOLOv1์—์„œ๋Š” ๊ฐ„๋‹จํ•œ CNN ๊ตฌ์กฐ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ์–•๊ณ  ๋‹จ์ˆœํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ณต์žกํ•œ ์žฅ๋ฉด์ด๋‚˜ ์ž‘์€ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • Darknet Backbone: YOLOv2์™€ YOLOv3๋Š” ํŠน์ง• ์ถ”์ถœ์„ ์œ„ํ•ด Darknet์ด๋ผ๋Š” ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ YOLOv3์—์„œ๋Š” Darknet-53์ด ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ, ์ด ๋„คํŠธ์›Œํฌ๋Š” ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connections)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊นŠ์€ ๊ณ„์ธต์—์„œ๋„ ํ•™์Šต์ด ์ž˜ ์ด๋ฃจ์–ด์ง€๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Darknet-53์€ 53๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งค์šฐ ๊ฐ•๋ ฅํ•œ ํŠน์ง• ์ถ”์ถœ ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋ฏธ์ง€์˜ ๋‹ค์–‘ํ•œ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

8.2 Neck(๋„ฅ)

Neck(๋„ฅ)์€ Backbone์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ Head๋กœ ์ „๋‹ฌํ•˜๋Š” ์ค‘๊ฐ„ ์—ญํ• ์„ ํ•˜๋Š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. Neck์€ ํŠน์ง•์˜ ๊ณต๊ฐ„์  ๋ฐ ์˜๋ฏธ์  ์ •๋ณด๋ฅผ ๋ณด๊ฐ•ํ•˜๊ณ  ๊ฒฐํ•ฉํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ํ˜•ํƒœ์˜ ๊ฐ์ฒด๋ฅผ ๋” ์ž˜ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค. ์ฃผ๋กœ Feature Pyramid Networks (FPN) ๋˜๋Š” Path Aggregation Networks (PAN) ๊ฐ™์€ ๊ตฌ์กฐ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • Feature Pyramid Networks (FPN): FPN์€ ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์˜ ํŠน์ง• ๋งต์„ ๊ฒฐํ•ฉํ•˜์—ฌ, ๊ฐ์ฒด์˜ ํฌ๊ธฐ์— ์ƒ๊ด€์—†์ด ๋” ์ •ํ™•ํ•œ ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. FPN์€ ํŠนํžˆ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๊ฐ€ ํ˜ผ์žฌํ•œ ์ด๋ฏธ์ง€์—์„œ ๋งค์šฐ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

8.3 Head(ํ—ค๋“œ)

Head(ํ—ค๋“œ)๋Š” ์ตœ์ข…์ ์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๊ณ , ๊ฐ์ฒด์˜ ํด๋ž˜์Šค์™€ ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. Head๋Š” ๊ฐ ํŠน์ง• ๋งต์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ(x, y, w, h)์™€ ๊ฐ์ฒด์„ฑ(objectness) ์ ์ˆ˜, ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋น„์ตœ๋Œ€ ์–ต์ œ(Non-Maximum Suppression, NMS)์™€ ๊ฐ™์€ ํ›„์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒน์น˜๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ค‘ ๊ฐ€์žฅ ๋†’์€ ์‹ ๋ขฐ๋„๋ฅผ ๊ฐ€์ง„ ๋ฐ•์Šค๋งŒ ๋‚จ๊ธฐ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • YOLOv3์˜ Head: YOLOv3๋Š” ๋‹ค์ค‘ ์Šค์ผ€์ผ ์˜ˆ์ธก์„ ์‚ฌ์šฉํ•˜์—ฌ 13ร—13, 26ร—26, 52ร—52 ํฌ๊ธฐ์˜ ๊ทธ๋ฆฌ๋“œ์—์„œ ๊ฐ๊ฐ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํฐ ๊ฐ์ฒด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•œ ํƒ์ง€ ์„ฑ๋Šฅ๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  1. YOLOv4 (2020๋…„ 4์›”)

YOLOv4๋Š” 2020๋…„ Alexey Bochkovskiy, Chien-Yao Wang, ๊ทธ๋ฆฌ๊ณ  Hong-Yuan Mark Liao์— ์˜ํ•ด ๋ฐœํ‘œ๋œ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ๋„ค ๋ฒˆ์งธ ๋ฒ„์ „์ž…๋‹ˆ๋‹ค.

  • YOLOv4๋Š” YOLOv3์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ณ , ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ตœ์‹  ๊ธฐ์ˆ ์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ํŠนํžˆ YOLOv4๋Š” ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ์—ฐ๊ตฌ์ž๋“ค๊ณผ ์—”์ง€๋‹ˆ์–ด๋“ค์—๊ฒŒ ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค.

Bag of Freebies์™€ Bag of Specials๋Š” YOLOv4 ๋…ผ๋ฌธ์—์„œ ์†Œ๊ฐœ๋œ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ฐœ๋…์œผ๋กœ, ๊ฐ๊ฐ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•๋“ค์„ ๋ฌถ์–ด์„œ ์„ค๋ช…ํ•˜๋Š” ์šฉ์–ด์ž…๋‹ˆ๋‹ค.

์ด ๋‘ ๊ฐœ๋…์˜ ์ฐจ์ด๋Š” ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด โ€œ์ถ”๋ก  ๊ณผ์ •์—์„œ ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์–ผ๋งˆ๋‚˜ ์š”๊ตฌํ•˜๋Š”๊ฐ€์— ๋”ฐ๋ผ ๊ตฌ๋ถ„โ€๋ฉ๋‹ˆ๋‹ค.

9.1 Bag of Freebies (BoF)

  • ๊ฐœ๋…: Bag of Freebies๋Š” ์ถ”๋ก (inference) ๋‹จ๊ณ„์—์„œ ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์š”๊ตฌํ•˜์ง€ ์•Š๊ณ , ํ•™์Šต(training) ๊ณผ์ •์—์„œ๋งŒ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ธฐ๋ฒ•๋“ค์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜: https://hoya012.github.io/blog/yolov4/

  • ์ปจ์…‰: BoF๋Š” ํ•™์Šต ์ „๋žต์ด๋‚˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ํ•™์Šต ๊ณผ์ •์—์„œ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • ์ด ๊ธฐ๋ฒ•๋“ค์€ ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š” ๋™์•ˆ๋งŒ ์ถ”๊ฐ€์ ์ธ ๋น„์šฉ์ด ๋ฐœ์ƒํ•˜๊ณ , ์ถ”๋ก  ์‹œ์—๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋” ๋‚˜์€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Mosaic data augmentation: ๋„ค ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๋†’์ž„์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ์˜ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2020๋…„, YOLOv4 ๋…ผ๋ฌธ์—์„œ ์ฒ˜์Œ ์†Œ๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐœ๋…:
      • Mosaic์€ ๋„ค ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • Mosaic์€ ๋„ค ๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋ฅผ ํ•˜๋‚˜์˜ ํฐ ์ด๋ฏธ์ง€๋กœ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ฐ์ฒด๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ, ์œ„์น˜, ๋น„์œจ์—์„œ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๊ฐ€ ์—ฌ๋Ÿฌ ์ƒํ™ฉ์—์„œ๋„ ์„ฑ๋Šฅ์ด ์œ ์ง€๋˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  • Self-Adversarial Training (SAT): ๋„คํŠธ์›Œํฌ๊ฐ€ ์ž๊ธฐ ์ž์‹ ์„ ๊ณต๊ฒฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2020๋…„, YOLOv4 ๋…ผ๋ฌธ์—์„œ ์ฒ˜์Œ ์†Œ๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐœ๋…: ๋„คํŠธ์›Œํฌ๊ฐ€ ์ž๊ธฐ ์ž์‹ ์„ ๊ณต๊ฒฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • SAT๋Š” ๋„คํŠธ์›Œํฌ๊ฐ€ ์ฒ˜์Œ์—๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋ณ€ํ˜•์‹œ์ผœ ๋งˆ์น˜ ๊ฐ์ฒด๊ฐ€ ์—†๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์œ„์žฅํ•˜๊ณ , ๊ทธ๋Ÿฐ ํ›„์— ๊ทธ ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋‘ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค:
      • ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ ๋„คํŠธ์›Œํฌ๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋ณ€ํ˜•ํ•˜์—ฌ ๊ฐ์ฒด๊ฐ€ ๋ณด์ด์ง€ ์•Š๋„๋ก โ€˜์ž๊ธฐ ์ž์‹ ์„ ๊ณต๊ฒฉโ€™ํ•ฉ๋‹ˆ๋‹ค.
      • ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๋ฅผ ๋‹ค์‹œ ์ธ์‹ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๋Š” ๋” ๊ฐ•๋ ฅํ•œ ๋ฐฉ์–ด๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋˜๊ณ , ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๊ฑฐ๋‚˜ ๊ฐ์ฒด๊ฐ€ ์œ„์žฅ๋œ ์ด๋ฏธ์ง€์—์„œ๋„ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • CutMix: ์ด๋ฏธ์ง€๋ฅผ ํ•ฉ์„ฑํ•˜์—ฌ ํ•™์Šต์— ์‚ฌ์šฉ, ๊ฐ์ฒด๋ฅผ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2019๋…„, Yun, Sangdoo, et al., โ€œCutMix: Regularization Strategy to Train Strong Classifiers with Localizable Featuresโ€
    • ๊ฐœ๋…: ๋‘ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ•ฉ์„ฑํ•˜์—ฌ ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€๋กœ ๋งŒ๋“œ๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • CutMix๋Š” ๋‘ ์ด๋ฏธ์ง€๋ฅผ ์„ ํƒํ•œ ํ›„, ํ•œ ์ด๋ฏธ์ง€์˜ ํŠน์ • ๋ถ€๋ถ„์„ ์ž˜๋ผ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์— ๋ถ™์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋•Œ ์ž˜๋ ค์ง„ ๋ถ€๋ถ„์— ํ•ด๋‹นํ•˜๋Š” ๋ ˆ์ด๋ธ”๋„ ์„ž์—ฌ์„œ ํ•™์Šต๋˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ๋ชจ๋ธ์ด ๊ฐ์ฒด์˜ ์ผ๋ถ€๋ถ„๋งŒ์œผ๋กœ๋„ ํ•ด๋‹น ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
      • Mosaic๊ณผ ์ฐจ์ด์ ์€ Mosaic์€ ๋„ค ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐ˜๋ฉด, CutMix๋Š” ๋‘ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ์„ž์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ ๊ฐ์ฒด๋ฅผ ๋” ์ž˜ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ค๋‹ˆ๋‹ค.

  • CIoU loss: ๊ฐ์ฒด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ํšŒ๊ท€๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜๋กœ, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ •ํ™•์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2020๋…„, Zheng, Zhishuai, et al., โ€œDistance-IoU Loss: Faster and Better Learning for Bounding Box Regressionโ€
    • ๊ฐœ๋…: ๊ฐ์ฒด์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ํšŒ๊ท€(์˜ˆ์ธก)๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค(bounding box)๋Š” ๊ฐ์ฒด์˜ ์œ„์น˜๋ฅผ ๋„คํŠธ์›Œํฌ๊ฐ€ ์˜ˆ์ธกํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์‚ฌ๊ฐํ˜•์ž…๋‹ˆ๋‹ค.
      • CIoU Loss๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ •ํ™•์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์†์‹ค ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ IoU (Intersection over Union) ์†์‹ค ํ•จ์ˆ˜๋Š” ๋‘ ๋ฐ•์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ฒน์น˜๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•˜์ง€๋งŒ, CIoU๋Š” ๊ฒน์น˜๋Š” ๋ฉด์ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ค‘์‹ฌ์ ์˜ ๊ฑฐ๋ฆฌ์™€ ๊ฐ€๋กœ์„ธ๋กœ ๋น„์œจ๊นŒ์ง€ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.
      • ์ฆ‰, ๊ฐ์ฒด์™€ ์˜ˆ์ธก๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๊ฐ„์˜ ์ค‘์ฒฉ ์ •๋„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋‘ ์ƒ์ž์˜ ์ค‘์‹ฌ ๊ฐ„ ๊ฑฐ๋ฆฌ์™€ ์ƒ์ž์˜ ๊ฐ€๋กœ์„ธ๋กœ ๋น„์œจ๋„ ๊ณ ๋ คํ•จ์œผ๋กœ์จ ๋” ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋•์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜: An improved Tiny YOLOv3 for real-time object detection

  • DropBlock regularization: ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ์ •๊ทœํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2018๋…„, Ghiasi, Golnaz, Tsung-Yi Lin, and Quoc V. Le, โ€œDropBlock: A Regularization Method for Convolutional Networksโ€
    • ๊ฐœ๋…: ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ์ •๊ทœํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • DropBlock์€ Dropout์˜ ํ™•์žฅ๋œ ํ˜•ํƒœ๋กœ, ์—ฐ์†์ ์ธ ์˜์—ญ์„ ๋น„ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. Dropout์€ ์ž„์˜์˜ ๊ฐœ๋ณ„ ๋‰ด๋Ÿฐ์„ ๋น„ํ™œ์„ฑํ™”ํ•˜์ง€๋งŒ, DropBlock์€ ํ”ผ์ฒ˜ ๋งต์—์„œ ์—ฐ์†๋œ ์˜์—ญ(์ •์‚ฌ๊ฐํ˜• ๋ธ”๋ก)์„ ์ฐจ๋‹จํ•˜์—ฌ ๋„คํŠธ์›Œํฌ๊ฐ€ ํŠน์ • ์„ธ๋ถ€ ์ •๋ณด์— ์˜์กดํ•˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
      • DropBlock์€ ํ”ผ์ฒ˜ ๋งต์˜ ์ผ์ • ์˜์—ญ์„ ๋ฌด์ž‘์œ„๋กœ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ๊ณผ์ ํ•ฉ์„ ์ค„์ด๊ณ , ๋„คํŠธ์›Œํฌ๊ฐ€ ์ „์ฒด ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ๋” ์ผ๋ฐ˜ํ™”๋œ ํ•™์Šต์„ ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

9.2 Bag of Specials (BoS)

  • ๊ฐœ๋…: Bag of Specials๋Š” ์ถ”๋ก (inference) ๊ณผ์ •์—์„œ๋„ ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์š”๊ตฌํ•˜์ง€๋งŒ, ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•˜๋Š” ๊ธฐ๋ฒ•๋“ค์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜: https://hoya012.github.io/blog/yolov4/

  • ์ปจ์…‰: BoS๋Š” ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด์„œ ์ผ๋ถ€ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์ง€๋ถˆํ•ด์•ผ ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์ž…๋‹ˆ๋‹ค.

    • ์ด๋Ÿฌํ•œ ๊ธฐ๋ฒ•๋“ค์€ ๋ชจ๋ธ์ด ๋” ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๋„๋ก ํ•˜๊ฑฐ๋‚˜, ๋ณด๋‹ค ์„ธ๋ฐ€ํ•œ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค๋‹ˆ๋‹ค.
  • Mish activation: ์Šค๋ฌด์Šคํ•˜๊ฒŒ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ, ์„ฑ๋Šฅ์„ ๋†’์ด๋ฉด์„œ๋„ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ํฌ๊ฒŒ ๋Š˜๋ฆฌ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2019๋…„, Diganta Misra, โ€œMish: A Self Regularized Non-Monotonic Neural Activation Functionโ€
    • ๊ฐœ๋…: ์‹ ๊ฒฝ๋ง์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ์Šค๋ฌด์Šคํ•˜๊ฒŒ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • Mish๋Š” ์ตœ๊ทผ ์ œ์•ˆ๋œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ, ๊ธฐ์กด ReLU ํ•จ์ˆ˜๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.
      • Mish๋Š” tanh์™€ softplus ํ•จ์ˆ˜๊ฐ€ ๊ฒฐํ•ฉ๋œ ํ˜•ํƒœ๋กœ, ReLU์™€ ๋‹ฌ๋ฆฌ ์Œ์ˆ˜ ๊ตฌ๊ฐ„์—์„œ๋„ ์ •๋ณด๊ฐ€ ์œ ์ง€๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋” ๋ถ€๋“œ๋Ÿฌ์šด ๊ทธ๋ž˜๋””์–ธํŠธ ํ๋ฆ„์„ ๋งŒ๋“ค์–ด ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
      • Mish ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

        f(x)=xโ‹…tanhโก(softplus(x))f(x) = x \cdot \tanh(\text{softplus}(x))f(x)=xโ‹…tanh(softplus(x))

      • ์—ฌ๊ธฐ์„œ softplus ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค:

        softplus(x)=lnโก(1+ex)\text{softplus}(x) = \ln(1 + e^x)softplus(x)=ln(1+ex)

      • Mish๋Š” ๋„คํŠธ์›Œํฌ์˜ ํ•™์Šต ์†๋„๋ฅผ ํฌ๊ฒŒ ๋Šฆ์ถ”์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • Cross-Stage Partial connections (CSP): ํ”ผ์ฒ˜ ๋งต์„ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ  ์—ฐ์‚ฐํ•˜์—ฌ ์ค‘๋ณต๋œ ๊ทธ๋ผ๋””์–ธํŠธ ์ •๋ณด๋ฅผ ์ค„์ด๊ณ  ์—ฐ์‚ฐ ํšจ์œจ์„ ๋†’์ž…๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2019๋…„, Wang, Chien-Yao, et al., โ€œCSPNet: A New Backbone That Can Enhance Learning Capability of CNNโ€
    • ๊ฐœ๋…: ํ”ผ์ฒ˜ ๋งต์„ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ค‘๋ณต๋œ ๊ทธ๋ผ๋””์–ธํŠธ ์ •๋ณด๋ฅผ ์ค„์ด๊ณ  ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • CSPNet์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋™์ผํ•œ ์ •๋ณด๋กœ ์—ฌ๋Ÿฌ ๋ฒˆ ํ•™์Šตํ•˜๋Š” ๋ฌธ์ œ(์ค‘๋ณต ๊ทธ๋ผ๋””์–ธํŠธ)๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ”ผ์ฒ˜ ๋งต์„ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
      • ํ•œ ๋ถ€๋ถ„์€ Dense Block๊ณผ ๊ฐ™์€ ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜๊ณ , ๋‹ค๋ฅธ ๋ถ€๋ถ„์€ ๋ฐ”๋กœ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ „๋‹ฌ๋˜์–ด, ๋ถˆํ•„์š”ํ•œ ๊ณ„์‚ฐ์„ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
      • YOLOv4์—์„œ๋Š” CSP๋ฅผ ์ ์šฉํ•˜์—ฌ ๋„คํŠธ์›Œํฌ์˜ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ž…๋‹ˆ๋‹ค.

      • ์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด CSPDenseNet ๊ตฌ์กฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. CSPNet์ด ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ณ  ํ•™์Šต ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฃผ์š” ๊ฐœ๋…์— ๊ธฐ๋ฐ˜ํ•ฉ๋‹ˆ๋‹ค:
      • Figure 2 (a) DenseNet์—์„œ๋Š” ๊ฐ ์ธต์—์„œ ์ƒ์„ฑ๋œ ํ”ผ์ฒ˜ ๋งต(feature map)์ด ๋‹ค์Œ ์ธต์œผ๋กœ ์ „๋ถ€ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ํ”ผ์ฒ˜ ๋งต์ด ์ค‘๋ณต์ ์œผ๋กœ ๊ฒฐํ•ฉ๋˜๊ณ , ๊ทธ๋กœ ์ธํ•ด ์ค‘๋ณต๋œ ๊ทธ๋ผ๋””์–ธํŠธ ์ •๋ณด๊ฐ€ ์ƒ์„ฑ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      • Figure 2 (b) CSPDenseNet์—์„œ๋Š” ํ”ผ์ฒ˜ ๋งต์„ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๋ถ€๋ถ„์€ Dense Block์„ ํ†ตํ•ด ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜๊ณ , ๋‹ค๋ฅธ ๋ถ€๋ถ„์€ ์ด๋ฅผ ํ†ต๊ณผํ•˜์ง€ ์•Š๊ณ  ๋ฐ”๋กœ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ์ด๋กœ์จ ์ค‘๋ณต๋œ ๊ทธ๋ผ๋””์–ธํŠธ ์ •๋ณด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ  ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • Spatial Pyramid Pooling (SPP): ๊ฐ์ฒด์˜ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด, ํ”ผ์ฒ˜ ๋งต์˜ ์ˆ˜์šฉ ์˜์—ญ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2014๋…„, He, Kaiming, et al., โ€œSpatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitionโ€
    • ๊ฐœ๋…: ๊ฐ์ฒด์˜ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ๋น„์œจ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ํ”ผ์ฒ˜ ๋งต์˜ ์ˆ˜์šฉ ์˜์—ญ์„ ํ™•์žฅํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • SPP๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅผ ๋•Œ๋„ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ์ถœ๋ ฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ์ฒด๊ฐ€ ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ์ฐจ์ง€ํ•˜๋Š” ๊ณต๊ฐ„์ด ๋‹ค๋ฅผ ๊ฒฝ์šฐ์—๋„ ๋™์ผํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
      • SPP๋Š” ์—ฌ๋Ÿฌ ํฌ๊ธฐ์˜ ํ’€๋ง ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ”ผ์ฒ˜ ๋งต์˜ ๋‹ค์–‘ํ•œ ์˜์—ญ์„ ๊ณ ๋ คํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๊ฐ€ ์—ฌ๋Ÿฌ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ๋” ์ž˜ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

  • Path Aggregation Network (PAN): ํ”ผ์ฒ˜ ๋งต์„ ํšจ์œจ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2018๋…„, Liu, Shuyang, et al., โ€œPath Aggregation Network for Instance Segmentationโ€

    • ๊ฐœ๋…: ํ”ผ์ฒ˜ ๋งต์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:

      • Path Aggregation์ด๋ผ๋Š” ์ด๋ฆ„์€ ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ๋ฅผ ํ†ตํ•ด ์ „ํŒŒ๋˜๋Š” ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ, ๊ฐ์ฒด ํƒ์ง€๋‚˜ ์ธ์Šคํ„ด์Šค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๊ตฌ์กฐ๋ผ๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
      • ํŠนํžˆ, ๊ธฐ์กด์˜ ๋‹จ์ผ ๊ฒฝ๋กœ(top-down ๋ฐฉ์‹)์—์„œ ๋ฒ—์–ด๋‚˜ ๋‹ค์–‘ํ•œ ๊ฒฝ๋กœ๋“ค(์œ„์—์„œ ์•„๋ž˜๋กœ, ์•„๋ž˜์—์„œ ์œ„๋กœ)์—์„œ ์ •๋ณด๋ฅผ ๋ชจ์œผ๋Š” ๋ฐฉ์‹์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ฐ์ฒด์˜ ์„ธ๋ถ€์ ์ธ ์œ„์น˜ ์ •๋ณด๋งŒ ์•„๋‹ˆ๋ผ ํฐ ๋งฅ๋ฝ ์ •๋ณด๋„ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
      • ์ฆ‰, PANet์ด๋ผ๋Š” ์ด๋ฆ„์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋‹ค์–‘ํ•œ ์ •๋ณด ๊ฒฝ๋กœ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋” ์ •ํ™•ํ•˜๊ณ  ํ’๋ถ€ํ•œ ํ”ผ์ฒ˜๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ์‹์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์œผ๋กœ, ์ด๋Š” ์•„๋ž˜ ๊ธฐ๋ฒ•๋“ค์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

        • Bottom-up Path Augmentation: ์ €์ˆ˜์ค€ ํ”ผ์ฒ˜์—์„œ ์ƒ์œ„ ๋ ˆ๋ฒจ๋กœ ์ •๋ณด๊ฐ€ ํšจ์œจ์ ์œผ๋กœ ์ „๋‹ฌ๋˜๋„๋ก ํ•จ.
        • Adaptive Feature Pooling: ๊ฐ์ฒด ํฌ๊ธฐ์™€ ์ƒ๊ด€์—†์ด ์—ฌ๋Ÿฌ ํ”ผ์ฒ˜ ๋ ˆ๋ฒจ์—์„œ ์ •๋ณด๋ฅผ ํ†ตํ•ฉ.
        • Fully-connected Fusion: ๋งˆ์Šคํฌ ์˜ˆ์ธก ์‹œ ๋‹ค์–‘ํ•œ ๋ทฐ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜ˆ์ธก ์„ฑ๋Šฅ ํ–ฅ์ƒ.

9.2 YOLOv4์˜ ๊ตฌ์กฐ

์œ„์—์„œ ์†Œ๊ฐœํ•œ ๊ฐ๊ฐ์˜ ๊ตฌ์กฐ๋“ค์„ ํ™œ์šฉํ•˜์—ฌ Backbone, Neck, Head๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค:

  • Backbone: CSPDarknet53์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ•๋ ฅํ•œ ํ”ผ์ฒ˜ ์ถ”์ถœ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  • Neck: SPP์™€ PAN์„ ์‚ฌ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ํ”ผ์ฒ˜ ๋งต์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๊ณ  ๊ฐ์ฒด์˜ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ์œ„์น˜์— ๋Œ€์‘ํ•ฉ๋‹ˆ๋‹ค.
  • Head: ๊ธฐ์กด YOLOv3์˜ anchor ๊ธฐ๋ฐ˜ ์ถœ๋ ฅ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ์ฒด์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ํด๋ž˜์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

  1. YOLOv5 (2020๋…„ 6์›”)

YOLOv5๋Š” 2020๋…„ Ultralytics์—์„œ ๋ฐœํ‘œ๋œ YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ๋‹ค์„ฏ ๋ฒˆ์งธ ๋ฒ„์ „์ž…๋‹ˆ๋‹ค. YOLOv5๋Š” YOLOv4์—์„œ ์ด์–ด์ง€๋Š” ๋ชจ๋ธ์ด์ง€๋งŒ, YOLOv4์™€๋Š” ๋‹ฌ๋ฆฌ PyTorch ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌํ˜„๋˜์—ˆ์œผ๋ฉฐ, ๊ฐœ๋ฐœ์ž๋“ค์ด ์†์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌ์šฉ์ž ์นœํ™”์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. YOLOv5๋Š” ํŠนํžˆ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๊ตฌ์กฐ์™€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ ์„ฑ๋Šฅ๊ณผ ์‚ฌ์šฉ ํŽธ์˜์„ฑ ์ธก๋ฉด์—์„œ ํฐ ์ธ๊ธฐ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

10.1 YOLOv5์˜ ์ฃผ์š” ํŠน์ง•

  1. PyTorch ๊ธฐ๋ฐ˜ ๊ตฌํ˜„

    • YOLOv5๋Š” PyTorch ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌํ˜„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์—ฐ๊ตฌ์ž๋“ค๊ณผ ๊ฐœ๋ฐœ์ž๋“ค์ด ๋ชจ๋ธ์„ ์‰ฝ๊ฒŒ ์ˆ˜์ •ํ•˜๊ณ  ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • YOLOv4๋Š” Darknet์œผ๋กœ ๊ตฌํ˜„๋˜์—ˆ์ง€๋งŒ, YOLOv5๋Š” PyTorch์˜ ํ’๋ถ€ํ•œ ์ƒํƒœ๊ณ„๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์„ ๋” ๊ฐ„ํŽธํ•˜๊ฒŒ ๋‹ค๋ฃจ๊ณ  ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ ์ œ๊ณต

    • YOLOv5๋Š” ๋ชจ๋ธ ํฌ๊ธฐ์— ๋”ฐ๋ผ YOLOv5n (nano), YOLOv5s (small), YOLOv5m (medium), YOLOv5l (large), YOLOv5x (extra-large)์˜ ๋‹ค์„ฏ ๊ฐ€์ง€ ๋ฒ„์ „์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ์†๋„์™€ ์ •ํ™•๋„ ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ฃผ๋ฉฐ, ์ž‘์€ ๋ฒ„์ „์€ ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ์ด๋‚˜ ๋ชจ๋ฐ”์ผ ์žฅ์น˜์—์„œ๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์„ ์ •๋„๋กœ ๊ฒฝ๋Ÿ‰ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜: https://pytorch.kr/hub/ultralytics_yolov5/

  1. AutoAnchor ๋ฐ AutoBatch

    YOLOv5๋Š” AutoAnchor์™€ AutoBatch ๊ธฐ๋Šฅ์„ ๋„์ž…ํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ๋ชจ๋ธ์„ ๋” ์‰ฝ๊ฒŒ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.

AutoAnchor

  • ์ •์˜: AutoAnchor๋Š” ์ตœ์ ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
    • YOLOv5์—์„œ ์•ต์ปค ๋ฐ•์Šค๋Š” ๊ฐ์ฒด์˜ ํฌ๊ธฐ์™€ ๋น„์œจ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์ž‘๋™ ์›๋ฆฌ:
    • ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜: AutoAnchor๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹์„ ๋ถ„์„ํ•˜์—ฌ ๊ฐ์ฒด์˜ ํฌ๊ธฐ ๋ฐ ๋น„์œจ์— ๋งž๋Š” ์ตœ์ ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • K-ํ‰๊ท  ํด๋Ÿฌ์Šคํ„ฐ๋ง: AutoAnchor๋Š” K-ํ‰๊ท  ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜๊ณ , ๊ทธ์— ๋”ฐ๋ผ ์ดˆ๊ธฐ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜: ์ดํ›„, ์ด ์ดˆ๊ธฐ ์•ต์ปค ๋ฐ•์Šค๋Š” ์œ ์ „์ž ์•Œ๊ณ ๋ฆฌ์ฆ˜(GA)์„ ํ†ตํ•ด ์„ธ๋Œ€๋ฅผ ๊ฑฐ์น˜๋ฉฐ ์ง„ํ™”ํ•˜์—ฌ, ๊ฐ์ฒด ๊ฐ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

AutoBatch

  • ์ •์˜: AutoBatch๋Š” ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์ž๋™์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ ๋”์šฑ ํšจ์œจ์ ์œผ๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋•๋Š” ๊ธฐ๋Šฅ์ž…๋‹ˆ๋‹ค.
  • ์ž‘๋™ ์›๋ฆฌ:
    • ํ•˜๋“œ์›จ์–ด ๊ฐ์ง€: AutoBatch๋Š” GPU ๋ฉ”๋ชจ๋ฆฌ์˜ ์‚ฌ์šฉ ํ˜„ํ™ฉ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐ์ง€ํ•˜์—ฌ, ๊ทธ์— ๋งž๊ฒŒ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ๋™์  ์กฐ์ •: ํ›ˆ๋ จ์ค‘์— GPU ๋ฉ”๋ชจ๋ฆฌ์— ์—ฌ์œ ๊ฐ€ ๋‚จ์•„์žˆ์œผ๋ฉด ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์„ ํ†ตํ•ด, ์ตœ๋Œ€ํ•œ์˜ ์ž์›์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  1. ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(Data Augmentation)
    • YOLOv5๋Š” YOLOv4์—์„œ ๋„์ž…๋œ Mosaic, copy paste, MixUp, random affine, HSV ์ฆ๊ฐ• ๋“ฑ๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ’๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ , ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ๊ณผ ์กฐ๋ช… ์กฐ๊ฑด์—์„œ ๊ฐ์ฒด๋ฅผ ๋” ์ž˜ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • Mosaic data augmentation: ๋„ค ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๋†’์ž„์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ์˜ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2020๋…„, YOLOv4 ๋…ผ๋ฌธ์—์„œ ์ฒ˜์Œ ์†Œ๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐœ๋…:
      • Mosaic์€ ๋„ค ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • Mosaic์€ ๋„ค ๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋ฅผ ํ•˜๋‚˜์˜ ํฐ ์ด๋ฏธ์ง€๋กœ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ฐ์ฒด๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ, ์œ„์น˜, ๋น„์œจ์—์„œ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๊ฐ€ ์—ฌ๋Ÿฌ ์ƒํ™ฉ์—์„œ๋„ ์„ฑ๋Šฅ์ด ์œ ์ง€๋˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  • Mixup data augmentation: ๋‘ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ์„ ํ˜• ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ•™์Šต ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2018๋…„, Zhang, Hongyi, et al., โ€œMixup: Beyond Empirical Risk Minimizationโ€
    • ๊ฐœ๋…:
      • Mixup ๊ธฐ๋ฒ•์€ ๊ธฐ์กด ์ด๋ฏธ์ง€์™€ ๋ ˆ์ด๋ธ”์„ ์„ž์–ด ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ค๊ณ , ๋ ˆ์ด๋ธ”๋„ ๋‘ ์ด๋ฏธ์ง€์˜ ๋น„์œจ์— ๋งž๊ฒŒ ์„ž์–ด์„œ ์ƒˆ๋กœ์šด ๋ ˆ์ด๋ธ”์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • MixUp์€ ๋‹จ์ˆœํžˆ ๋‘ ์ด๋ฏธ์ง€๋ฅผ ๋”ํ•ด์„œ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋•Œ, ๋‘ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์„ค์ •ํ•˜์—ฌ ๋‘ ์ด๋ฏธ์ง€๋ฅผ ์„ ํ˜• ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋ฏธ์ง€ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ ˆ์ด๋ธ” ์—ญ์‹œ ์„ ํ˜• ๊ฒฐํ•ฉํ•˜์—ฌ, ์†Œํ”„ํŠธ ๋ผ๋ฒจ์„ ์ƒ์„ฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ๊ฐ์ฒด ๋ถ„๋ฅ˜๋‚˜ ํƒ์ง€ ์‹œ ํ•˜๋‚˜์˜ ์ •๋‹ต๋งŒ์„ ๊ณ ์ง‘ํ•˜์ง€ ์•Š๊ณ , ๋” ์ผ๋ฐ˜ํ™”๋œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
      • MixUp์€ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐ ๋…ธ์ด์ฆˆ์— ๋Œ€ํ•œ ๊ฐ•๊ฑดํ•จ ๊ฐ•ํ™” ๋“ฑ์˜ ์žฅ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • copy-paste data augmentation: ์ด๋ฏธ์ง€์—์„œ ํŠน์ • ๊ฐ์ฒด๋ฅผ ๋ณต์‚ฌํ•œ ํ›„ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์— ๋ถ™์—ฌ ๋„ฃ๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: 2021๋…„, Ghiasi, Golnaz, et al., โ€œSimple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentationโ€
    • ๊ฐœ๋…:
      • Copy-Paste๋Š” ๊ฐ์ฒด ํƒ์ง€์—์„œ ํ•œ ์ด๋ฏธ์ง€์˜ ๊ฐ์ฒด๋ฅผ ๋ณต์‚ฌํ•˜์—ฌ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์— ๋ถ™์—ฌ ๋„ฃ๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • ํ•œ ์ด๋ฏธ์ง€์—์„œ ํŠน์ • ๊ฐ์ฒด๋ฅผ ๋ณต์‚ฌํ•œ ํ›„ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์— ๋ถ™์—ฌ ๋„ฃ์Œ์œผ๋กœ์จ ๊ฐ์ฒด์˜ ์œ„์น˜, ๋ฐฐ๊ฒฝ, ๊ทธ๋ฆฌ๊ณ  ์ƒํ˜ธ์ž‘์šฉ ํ™˜๊ฒฝ์„ ๋‹ค์–‘ํ™”ํ•˜๋Š” ์ฆ๊ฐ• ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
      • CutMix์™€ ๋น„์Šทํ•œ ๊ฐœ๋…์ด์ง€๋งŒ, Copy-Paste๋Š” ํŠน์ • ๊ฐ์ฒด๋ฅผ ๋Œ€์ƒ์œผ๋กœ๋งŒ ์ˆ˜ํ–‰๋˜๋ฉฐ, ๊ฐ์ฒด๋ฅผ ๋ณต์‚ฌํ•˜์—ฌ ์›๋ž˜ ์ด๋ฏธ์ง€์™€๋Š” ๋‹ค๋ฅธ ๋งฅ๋ฝ์˜ ์ด๋ฏธ์ง€์— ์‚ฝ์ž…ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๊ธฐ๋ฒ•์€ ๋ณต์žกํ•œ ๋ฐฐ๊ฒฝ์—์„œ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๊ฑฐ๋‚˜ ๊ฐ์ฒด ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฐ์ฒด ๊ฐ„์˜ ์œ„์น˜๋‚˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋” ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.

  • Random Affine Transformation: ์ด๋ฏธ์ง€๋ฅผ ํšŒ์ „, ํ‰ํ–‰ ์ด๋™, ์Šค์ผ€์ผ ์กฐ์ •, ๋˜๋Š” ๋น„ํ‹€๊ธฐ ๋“ฑ์˜ ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ ํ›„ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: ๋žœ๋ค ์–ดํŒŒ์ธ ๋ณ€ํ™˜์€ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ์ปดํ“จํ„ฐ ๋น„์ „์—์„œ ์˜ค๋žซ๋™์•ˆ ์‚ฌ์šฉ๋˜์–ด ์˜จ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ์ถœ์ฒ˜๋ณด๋‹ค๋Š” ๊ธฐํ•˜ํ•™์  ๋ณ€ํ™˜์˜ ํ•œ ๊ธฐ๋ฒ•์œผ๋กœ ๊ณ ์ „์ ์ธ ์ฆ๊ฐ• ๋ฐฉ๋ฒ•์œผ๋กœ ์ž๋ฆฌ ์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐœ๋…:
      • Random Affine์€ ํšŒ์ „, ์ด๋™, ์Šค์ผ€์ผ ์กฐ์ •, ๊ธฐ์šธ์ž„(shear) ๋“ฑ์˜ ์–ดํŒŒ์ธ ๋ณ€ํ™˜(affine transformation)์„ ๋ฌด์ž‘์œ„๋กœ ์ ์šฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ˜•ํ•˜๋Š” ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • Affine ๋ณ€ํ™˜์€ ์ด๋ฏธ์ง€๋ฅผ ํšŒ์ „, ํ‰ํ–‰ ์ด๋™, ์Šค์ผ€์ผ ์กฐ์ •, ๋˜๋Š” ๋น„ํ‹€๊ธฐ ๋“ฑ์˜ ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ด๋ฏธ์ง€์˜ ๊ธฐํ•˜ํ•™์  ์„ฑ์งˆ์„ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ๋„ ๊ฐ์ฒด ํƒ์ง€๋‚˜ ๋ถ„๋ฅ˜์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋„๋ก ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ˜•ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
      • Random Affine ๋ณ€ํ™˜์€ ์ด๋Ÿฌํ•œ ๋ณ€ํ˜•์„ ๋ฌด์ž‘์œ„๋กœ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์ด๋ฏธ์ง€์˜ ์›๋ณธ ์ •๋ณด๊ฐ€ ํฌ๊ฒŒ ์†์‹ค๋˜์ง€ ์•Š๋„๋ก ํ•˜๋ฉด์„œ๋„ ๋‹ค์–‘ํ•œ ๋ชจ์–‘๊ณผ ์œ„์น˜์—์„œ์˜ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ๊ฐ์ฒด๊ฐ€ ๋‹ค์–‘ํ•œ ๊ฐ๋„๋‚˜ ์œ„์น˜์—์„œ ๋“ฑ์žฅํ•˜๋”๋ผ๋„ ์ œ๋Œ€๋กœ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • HSV (Hue, Saturation, Value) Augmentation: ์ƒ‰์กฐ(Hue), ์ฑ„๋„(Saturation), ๋ช…๋„(Value)๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์กฐ์ •ํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ์ƒ‰์ƒ์„ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ณ€ํ˜• ํ›„ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

    • ์†Œ๊ฐœ ์‹œ๊ธฐ: HSV ์ƒ‰ ๊ณต๊ฐ„ ์ž์ฒด๋Š” ์˜ค๋ž˜๋œ ๊ฐœ๋…์ด์ง€๋งŒ, ์ด๋ฅผ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์— ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์ปดํ“จํ„ฐ ๋น„์ „๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜์–ด ์˜จ ๊ณ ์ „์ ์ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ๊ฐœ๋…:
      • HSV ์ฆ๊ฐ•์€ ์ด๋ฏธ์ง€์˜ ์ƒ‰์กฐ(Hue), ์ฑ„๋„(Saturation), ๋ช…๋„(Value)๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์ƒ‰์ƒ ๋ณ€ํ˜•์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์„ธ๋ถ€ ์„ค๋ช…:
      • HSV ์ƒ‰ ๊ณต๊ฐ„์€ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ์ƒ‰์ƒ ์ •๋ณด๋ฅผ ์ƒ‰์กฐ(Hue), ์ฑ„๋„(Saturation), ๋ช…๋„(Value)๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
      • HSV ์ฆ๊ฐ•์€ ์ด ์„ธ ๊ฐ€์ง€ ์š”์†Œ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์กฐ์ •ํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ์ƒ‰์ƒ์„ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ณ€ํ˜•ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒ‰์กฐ๋ฅผ ๋ณ€๊ฒฝํ•˜๋ฉด ์ด๋ฏธ์ง€์˜ ์ƒ‰์ƒ์ด ๋ณ€ํ•˜๊ณ , ์ฑ„๋„๋ฅผ ์กฐ์ •ํ•˜๋ฉด ์ƒ‰์˜ ๊ฐ•๋„๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฉฐ, ๋ช…๋„๋ฅผ ๋ณ€๊ฒฝํ•˜๋ฉด ์ด๋ฏธ์ง€์˜ ๋ฐ๊ธฐ๊ฐ€ ๋ณ€ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋Ÿฌํ•œ ์ƒ‰์ƒ ๋ณ€ํ˜•์„ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๋Š” ์กฐ๋ช… ๋ณ€ํ™”๋‚˜ ์ƒ‰์ƒ ์™œ๊ณก ๋“ฑ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋ณ€ํ˜•์— ์ ์‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
      • ๊ธฐํ•˜ํ•™์  ๋ณ€ํ˜• ๋Œ€์‹  ์ƒ‰์ƒ ๊ด€๋ จ ์ •๋ณด๋ฅผ ๋ณ€ํ˜•ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ๋ชจ๋ธ์ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

  1. CSPNet Backbone

    • YOLOv5๋Š” YOLOv4์—์„œ ์‚ฌ์šฉ๋œ CSPNet ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. CSPNet์€ ์‹ ๊ฒฝ๋ง์˜ ๋ฐ˜๋ณต์ ์ธ ์ •๋ณด ํ๋ฆ„์„ ์ค„์—ฌ ์—ฐ์‚ฐ๋Ÿ‰์„ ์ตœ์ ํ™”ํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๋ฉด์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  2. ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ์ตœ์ ํ™”

    • YOLOv5๋Š” FP16 ํ˜ผํ•ฉ ์ •๋ฐ€๋„ ํ•™์Šต์„ ํ†ตํ•ด ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ๋” ๋น ๋ฅด๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ณ , GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๋„ ์ค„์–ด๋“ค์–ด ๋Œ€ํ˜• ๋ฐ์ดํ„ฐ์…‹ ํ•™์Šต ์‹œ์—๋„ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

10.2 YOLOv5์˜ ์•„ํ‚คํ…์ฒ˜

YOLOv5์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋Š” ์ด์ „ ๋ฒ„์ „์˜ YOLO์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ์ตœ์ ํ™”๋œ ์š”์†Œ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

YOLOv5์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ํฌ๊ฒŒ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค:

  1. Backbone: YOLOv5๋Š” CSPNet ๊ธฐ๋ฐ˜์˜ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฑ๋ณธ์€ YOLOv4์—์„œ ์†Œ๊ฐœ๋œ ๊ฒƒ๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, PyTorch ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๋” ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  2. Neck: YOLOv5๋Š” PANet (Path Aggregation Network) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  3. Head: YOLOv5๋Š” ์•ต์ปค ๋ฐ•์Šค ๊ธฐ๋ฐ˜์˜ ํƒ์ง€ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ๊ฐ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ขŒํ‘œ, ๊ฐ์ฒด์„ฑ(objectness) ์ ์ˆ˜, ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. YOLOv5๋Š” ํ›„์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ Non-Maximum Suppression (NMS) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘๋ณต๋œ ๋ฐ•์Šค๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.

  1. Scaled-YOLOv4 (2020๋…„ 11์›”)

Scaled-YOLOv4๋Š” YOLOv4์˜ ํ™•์žฅ ๋ฒ„์ „์œผ๋กœ, 2021๋…„ ๋ฐœํ‘œ๋œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Scaled-YOLOv4๋Š” YOLOv4์˜ ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜๊ณ , ์—ฌ๋Ÿฌ ํฌ๊ธฐ ์Šค์ผ€์ผ์—์„œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ์Šค์ผ€์ผ๋ง์„ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ณ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.

  • Scaled-YOLOv4๋Š” ์—ฌ๋Ÿฌ ๋ฒ„์ „์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ, ์ž‘์€ ํฌ๊ธฐ๋ถ€ํ„ฐ ๋Œ€ํ˜• ๋ชจ๋ธ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ์„ฑ๋Šฅ ์š”๊ตฌ์— ๋งž์ถœ ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋กœ ์ธํ•ด, Scaled-YOLOv4๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ํ™˜๊ฒฝ์—์„œ๋ถ€ํ„ฐ ๊ณ ์„ฑ๋Šฅ GPU๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํ™˜๊ฒฝ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ํญ๋„“๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

11.1 Scaled-YOLOv4์˜ ์ฃผ์š” ๋ชฉํ‘œ

Scaled-YOLOv4์˜ ๊ฐœ๋ฐœ ๋ชฉํ‘œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด ํƒ์ง€: ์ž‘์€ ๋ชจ๋ธ์€ ๋น ๋ฅด๊ณ  ๊ฒฝ๋Ÿ‰ํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ, ํฐ ๋ชจ๋ธ์€ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ํ•„์š”์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  2. ๋ฒ”์šฉ์„ฑ: ๋‹ค์–‘ํ•œ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์— ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ, ์ž„๋ฒ ๋””๋“œ ์žฅ์น˜๋‚˜ ์‹ค์‹œ๊ฐ„ ์‘์šฉ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ GPU ๊ธฐ๋ฐ˜์˜ ๊ณ ์„ฑ๋Šฅ ์‹œ์Šคํ…œ์—์„œ๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๊ณ ํšจ์œจ ์Šค์ผ€์ผ๋ง: ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ, ์ž‘์€ ๋ชจ๋ธ์€ ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ ์ตœ์ ํ™”ํ•˜๊ณ , ํฐ ๋ชจ๋ธ์€ ์ •ํ™•๋„๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ์Šค์ผ€์ผ๋ง์˜ ๊ธฐ๋ณธ ์›์น™

  • ์ •๋Ÿ‰์  ๋น„์šฉ ์ตœ์ ํ™”: ์ด๋ฏธ์ง€ ํฌ๊ธฐ, ๋„คํŠธ์›Œํฌ ๊นŠ์ด ๋ฐ ํ•„ํ„ฐ ์ˆ˜(๋„ˆ๋น„)๋ฅผ ์กฐ์ •ํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  • ์ตœ์†Œ ๊ณ„์‚ฐ ์ฃผ๋ฌธ ์œ ์ง€: ๊ณ„์‚ฐ ์ˆœ์„œ๊ฐ€ O(whkb2)๋ณด๋‹ค ์ž‘๋„๋ก ํ•˜์—ฌ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์—์„œ ํšจ์œจ์ ์ธ ๋ฉ”๋ชจ๋ฆฌ ์ด์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์Šค์ผ€์ผ๋ง ๋ณ€์ˆ˜๋ฅผ ํ†ตํ•œ ์กฐ์ •

์Šค์ผ€์ผ๋ง์€ ์ฃผ๋กœ ์„ธ ๊ฐ€์ง€ ๋ณ€์ˆ˜๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค:

  • ฮฑ (์ด๋ฏธ์ง€ ํฌ๊ธฐ): ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ•ด์ƒ๋„๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด ์ ๊ฒ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด์˜ ์–‘์ด ์ฆ๊ฐ€ํ•˜์ง€๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ๋„ ํ•จ๊ป˜ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ฮฒ (๊นŠ์ด): ๋„คํŠธ์›Œํฌ์˜ ์ธต ์ˆ˜๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ๋ณ€ํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ๊นŠ์ด๋ฅผ ๋Š˜๋ฆฌ๋ฉด ๋ชจ๋ธ์˜ ํ‘œํ˜„๋ ฅ์ด ๋†’์•„์ง€์ง€๋งŒ, ํ›ˆ๋ จ๊ณผ ์ถ”๋ก  ์†๋„๋Š” ๋А๋ ค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ฮณ (๋„ˆ๋น„): ๊ฐ ์ธต์˜ ํ•„ํ„ฐ ์ˆ˜๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ํ•„ํ„ฐ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด ๋„คํŠธ์›Œํฌ์˜ ์šฉ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•˜์—ฌ ๋” ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋™์‹œ์— ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ƒ์Šนํ•ฉ๋‹ˆ๋‹ค.

11.2 Scaled-YOLOv4์˜ ์Šค์ผ€์ผ๋ง ๊ธฐ๋ฒ•

Scaled-YOLOv4๋Š” YOLOv4์˜ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์˜ ํฌ๊ธฐ(ฮฑ), ๊นŠ์ด(ฮฒ), ํญ(ฮณ)์„ ์กฐ์ ˆํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ฒ„์ „์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (์œ„ ์ฐธ๊ณ )

์ด๋Ÿฌํ•œ ์Šค์ผ€์ผ๋ง ๊ธฐ๋ฒ•์€ ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, EfficientDet์—์„œ ์‚ฌ์šฉ๋œ ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋ชจ๋ธ์„ ์„ธ ๊ฐ€์ง€ ์ธก๋ฉด์—์„œ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ํฌ๊ธฐ ์Šค์ผ€์ผ๋ง (Resolution Scaling):

    • ๊ธฐ๋ณธ ๊ฐœ๋…: ํฌ๊ธฐ ์Šค์ผ€์ผ๋ง์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ•ด์ƒ๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ•ด์ƒ๋„๊ฐ€ ๋†’์•„์ง€๋ฉด, ๋ชจ๋ธ์€ ๋” ๋งŽ์€ ํ”ฝ์…€ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ฒŒ ๋˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋”์šฑ ์„ธ๋ฐ€ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํšจ๊ณผ: ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋Š” ๋ฌผ์ฒด์˜ ์ž‘์€ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋” ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ด๋กœ ์ธํ•ด ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  ์ฒ˜๋ฆฌ ์‹œ๊ฐ„์ด ๊ธธ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋Š” ๊ณ„์‚ฐ์ด ๋” ๋น ๋ฅด์ง€๋งŒ ๋ฌผ์ฒด์˜ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Scaled-YOLOv4์—์„œ์˜ ์‚ฌ์šฉ: Scaled-YOLOv4๋Š” ๋‹ค์–‘ํ•œ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํฐ ๋ชจ๋ธ์€ ๊ณ ํ•ด์ƒ๋„ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•ด ๋” ์ •๋ฐ€ํ•œ ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ , ์ž‘์€ ๋ชจ๋ธ์€ ์ €ํ•ด์ƒ๋„ ์ž…๋ ฅ์„ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด, Scaled-YOLOv4๋Š” ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ตœ์ ํ™”๋œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๊นŠ์ด ์Šค์ผ€์ผ๋ง (Depth Scaling):

    • ๊ธฐ๋ณธ ๊ฐœ๋…: ๊นŠ์ด ์Šค์ผ€์ผ๋ง์€ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์˜ ์ˆ˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋„คํŠธ์›Œํฌ์˜ ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜ ์ค„์—ฌ ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • ํšจ๊ณผ: ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋Š” ๋” ๋งŽ์€ ๊ณ„์ธต์„ ํ†ตํ•ด ๋”์šฑ ๋ณต์žกํ•˜๊ณ  ์ถ”์ƒ์ ์ธ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋” ์ •ํ™•ํ•œ ๊ฐ์ฒด ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ์—ฐ์‚ฐ๋Ÿ‰์ด ๋งŽ์•„์ง€๋ฉด์„œ ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋А๋ ค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ์–•์€ ๋„คํŠธ์›Œํฌ๋Š” ๋น ๋ฅด๊ฒŒ ์—ฐ์‚ฐํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ณต์žกํ•œ ๋ฌผ์ฒด์˜ ํŠน์ง•์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Scaled-YOLOv4์—์„œ์˜ ์‚ฌ์šฉ: Scaled-YOLOv4๋Š” YOLOv4์˜ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜์—์„œ ๊ฐ ๋ชจ๋ธ ๋ฒ„์ „์— ๋”ฐ๋ผ ๊นŠ์ด๋ฅผ ํ™•์žฅํ•˜๊ฑฐ๋‚˜ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOv4-tiny๋Š” ๊นŠ์ด๊ฐ€ ์–•์•„ ๊ฒฝ๋Ÿ‰ํ™”๋œ ์žฅ์น˜์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๊ณ , YOLOv4-large๋Š” ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋กœ ๋ณต์žกํ•œ ๊ฐ์ฒด๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ํญ ์Šค์ผ€์ผ๋ง (Width Scaling):

    • ๊ธฐ๋ณธ ๊ฐœ๋…: ํญ ์Šค์ผ€์ผ๋ง์€ ๊ฐ ๊ณ„์ธต์˜ ํ•„ํ„ฐ ์ˆ˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ ๋ ˆ์ด์–ด์—์„œ ์‚ฌ์šฉํ•˜๋Š” ํ•„ํ„ฐ(์ปค๋„)์˜ ๊ฐœ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜ ์ค„์ด๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • ํšจ๊ณผ: ๋” ๋„“์€ ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ ๊ณ„์ธต์—์„œ ํ•œ ๋ฒˆ์— ๋” ๋งŽ์€ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋” ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์ง€๋งŒ, ํ•„ํ„ฐ ์ˆ˜๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰๋„ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์ข์€ ๋„คํŠธ์›Œํฌ๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ ์ง€๋งŒ ํ•™์Šตํ•˜๋Š” ์ •๋ณด์˜ ์–‘์ด ์ œํ•œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Scaled-YOLOv4์—์„œ์˜ ์‚ฌ์šฉ: Scaled-YOLOv4๋Š” ํญ ์Šค์ผ€์ผ๋ง์„ ํ†ตํ•ด ๊ฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOv4-large๋Š” ๋„“์€ ํญ์„ ๊ฐ€์ง„ ๋ ˆ์ด์–ด๋“ค์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๋งŽ์€ ํ•„ํ„ฐ๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•˜๊ณ , YOLOv4-tiny๋Š” ์ข์€ ํญ์„ ์‚ฌ์šฉํ•ด ๋น ๋ฅด๊ณ  ๊ฒฝ๋Ÿ‰ํ™”๋œ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

11.3 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

Scaled-YOLOv4์˜ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜๋Š” YOLOv4์™€ ๋งค์šฐ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ CSPNet ๊ธฐ๋ฐ˜์˜ CSPDarknet53 ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, Path Aggregation Network (PANet)์„ ๋„ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์ง•์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜๋Š” ๋†’์€ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋งค์šฐ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • Backbone (CSPDarknet53): YOLOv4์—์„œ ์‚ฌ์šฉ๋œ CSPNet์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ฐฑ๋ณธ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜์—ฌ, YOLOv4์˜ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • Neck (PANet): YOLOv4์—์„œ ์‚ฌ์šฉ๋œ PANet์„ ํ†ตํ•ด ์ƒํ•˜์œ„ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜์—ฌ, ์ž‘์€ ๊ฐ์ฒด์™€ ํฐ ๊ฐ์ฒด๋ฅผ ๋ชจ๋‘ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • Head: YOLOv4์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๊ฐ ์Šค์ผ€์ผ์—์„œ ๊ฐ์ฒด์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ์™€ ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•˜๋ฉฐ, Non-Maximum Suppression (NMS) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด ์ค‘๋ณต๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก Scaled-YOLOv4์—์„œ โ€œScaledโ€๋ผ๋Š” ์˜๋ฏธ

Scaled-YOLOv4์˜ โ€œscaledโ€๋ผ๋Š” ์šฉ์–ด๋Š” ๋‹จ์ˆœํžˆ ํ•˜๋‚˜์˜ ๊ณ ์ •๋œ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ํ•„์š”์— ๋”ฐ๋ผ ์ตœ์ ํ™”๋œ ํฌ๊ธฐ๋กœ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด๋ผ๋Š” ์˜๋ฏธ์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ํ™•์žฅ ๊ฐ€๋Šฅํ•œ(Scalable): Scaled-YOLOv4๋Š” ์ƒํ™ฉ์— ๋งž๊ฒŒ ๋ชจ๋ธ์˜ ํฌ๊ธฐ(ํ•ด์ƒ๋„), ๊นŠ์ด(๋ ˆ์ด์–ด ์ˆ˜), ํญ(ํ•„ํ„ฐ ์ˆ˜)๋ฅผ ์œ ์—ฐํ•˜๊ฒŒ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ž‘์€ ๋ชจ๋ธ์—์„œ ํฐ ๋ชจ๋ธ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์š”๊ตฌ๋ฅผ ์ถฉ์กฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์กฐ์ • ๊ฐ€๋Šฅ: ๋ชจ๋ธ์ด ์ ์šฉ๋  ํ™˜๊ฒฝ์ด๋‚˜ ์„ฑ๋Šฅ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž์ถฐ ๋™์ ์œผ๋กœ ํฌ๊ธฐ, ๊นŠ์ด, ํญ์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณ ์„ฑ๋Šฅ GPU์—์„œ๋Š” ๋” ํฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ณ , ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์ด ์ค‘์š”ํ•œ ์žฅ์น˜์—์„œ๋Š” ๋” ์ž‘์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  1. YOLOR (2021๋…„ 5์›”)

YOLOR(You Only Learn One Representation)๋Š” 2021๋…„์— ๋ฐœํ‘œ๋œ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • YOLOR์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต(Multi-task Learning)์„ ํ†ตํ•ด ๊ฐ์ฒด ํƒ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ถ„๋ฅ˜, ํšŒ๊ท€, ํฌ์ฆˆ ์ถ”์ • ๋“ฑ์˜ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.
  • YOLOR์€ ์‹ ๊ฒฝ๋ง์˜ ์•”๋ฌต์  ์ง€์‹(Implicit Knowledge)์„ ํ•™์Šตํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์œ ์—ฐํ•œ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

12.1 YOLOR์˜ ์ฃผ์š” ํŠน์ง•

YOLOR์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์ด ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • YOLOR์€ YOLO ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์ง€๋งŒ, ๊ธฐ์กด YOLO ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ ๋ช…์‹œ์ (explicit) ํ•™์Šต๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์•”๋ฌต์ (implicit) ํ•™์Šต๋„ ํ†ตํ•ฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

์•”๋ฌต์  ์ง€์‹(Implicit Knowledge)๊ณผ ๋ช…์‹œ์  ์ง€์‹(Explicit Knowledge)

  • ์•”๋ฌต์  ์ง€์‹: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ์ง์ ‘ ๊ด€์ฐฐํ•  ์ˆ˜ ์—†๋Š” ์ •๋ณด๋กœ, ์‹ ๊ฒฝ๋ง์˜ ๊นŠ์€ ์ธต์—์„œ ํ•™์Šต๋˜๋ฉฐ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์‘ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋จ. ์‚ฌ๋žŒ์˜ ๋ฌด์˜์‹์  ํ•™์Šต๊ณผ ๋น„์Šทํ•œ ๊ฐœ๋….
  • ๋ช…์‹œ์  ์ง€์‹: ์ „ํ†ต์ ์ธ ์‹ ๊ฒฝ๋ง์—์„œ ์–ป์€ ํ”ผ์ณ๋กœ, ์ฃผ๋กœ ์ž…๋ ฅ๋œ ๋ฐ์ดํ„ฐ์—์„œ ๋ฐ”๋กœ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด.

์ด๋ฏธ์ง€ ์ถœ์ฒ˜. ๋””์ง€ํ„ธ ์‹œ๋Œ€ ์•”๋ฌต์  ์ง€์‹ ํ™œ์šฉ์˜ ์ „๋žต์  ๊ฐ€์น˜ (๋„ค์ด๋ฒ„ ๋ธ”๋กœ๊ทธ)

  1. ์•”๋ฌต์  ์ง€์‹(Implicit Knowledge) ํ•™์Šต
    • YOLOR์˜ ๊ฐ€์žฅ ํฐ ์ฐจ๋ณ„ํ™” ์š”์†Œ๋Š” ์•”๋ฌต์  ํ‘œํ˜„ ํ•™์Šต(Implicit Representation Learning)์ž…๋‹ˆ๋‹ค.
    • ๊ธฐ์กด์˜ ๋ชจ๋ธ๋“ค์€ ๋ช…์‹œ์ ์ธ ํ”ผ์ณ(์˜ˆ: ๊ฐ์ฒด์˜ ์œ„์น˜, ํฌ๊ธฐ, ํด๋ž˜์Šค)๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ˜๋ฉด, YOLOR์€ ์ด๋Ÿฌํ•œ ๋ช…์‹œ์  ํ•™์Šต ์™ธ์—๋„ ์‹ ๊ฒฝ๋ง์ด ํ•™์Šต ๊ณผ์ •์—์„œ ์ž๋™์œผ๋กœ ํ•™์Šตํ•˜๋Š” ์•”๋ฌต์  ํ”ผ์ณ(implicit features)๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ์•”๋ฌต์  ์ง€์‹์€ ์—ฌ๋Ÿฌ ์ž‘์—…์—์„œ ์žฌ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ์ด ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.

๐Ÿ”Ž ์•”๋ฌต์  ์ง€์‹์˜ ์—ญํ• 

  • ์•”๋ฌต์  ์ง€์‹์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋ชจ๋ธ์ด ๋” ๋‚˜์€ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋„๋ก ๋„์›€์„ ์ค๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ์ž‘์—…์—์„œ ํ•™์Šตํ•œ ์•”๋ฌต์  ์ง€์‹์ด ๋‹ค๋ฅธ ์ž‘์—…์— ์ ์šฉ๋˜์–ด ๊ทธ ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • YOLOR์—์„œ ์•”๋ฌต์  ์ง€์‹์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ช…์‹œ์  ์ง€์‹์€ ํŠน์ • ์ž‘์—…์—๋งŒ ์ ํ•ฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์•”๋ฌต์  ์ง€์‹์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ์ ์ธ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿค” ์•”๋ฌต์  ์ง€์‹ ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ ํ•™์Šตํ•˜๋Š”๋ฐ

  • YOLOR์—์„œ ์•”๋ฌต์  ์ง€์‹์€ ๋ฒกํ„ฐ, ์‹ ๊ฒฝ๋ง, ํ–‰๋ ฌ ๋ถ„ํ•ด(matrix factorization) ๋“ฑ์˜ ๋ฐฉ์‹์œผ๋กœ ๋ชจ๋ธ๋ง๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ์•”๋ฌต์  ์ง€์‹์„ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • ๋ฒกํ„ฐ(Vector): ์•”๋ฌต์  ์ง€์‹์€ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ๊ฐ ์ฐจ์›์€ ์„œ๋กœ ๋…๋ฆฝ์ ์ž…๋‹ˆ๋‹ค. ์ด ๋ฒกํ„ฐ๋Š” ํŠน์ • ์ž‘์—…์˜ ํŠน์ง•์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • ์‹ ๊ฒฝ๋ง(Neural Network): ๋ฒกํ„ฐ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ๋” ๋ณต์žกํ•œ ํ˜•ํƒœ์˜ ์•”๋ฌต์  ํ‘œํ˜„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ๊ฐ ์ฐจ์›์ด ์ƒํ˜ธ ์˜์กด์ ์ž…๋‹ˆ๋‹ค.
    • ํ–‰๋ ฌ ๋ถ„ํ•ด(Matrix Factorization): ์—ฌ๋Ÿฌ ๋ฒกํ„ฐ์˜ ์กฐํ•ฉ์œผ๋กœ ์•”๋ฌต์  ํ‘œํ˜„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๋” ๋ณต์žกํ•œ ์•”๋ฌต์  ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋” ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ์–ป์Šต๋‹ˆ๋‹ค.

  1. ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต(Multi-task Learning)

    • YOLOR์€ ๊ฐ์ฒด ํƒ์ง€, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ํฌ์ฆˆ ์ถ”์ • ๋“ฑ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต์€ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๋†’์—ฌ์ฃผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์‹œ์— ํ•ด๊ฒฐํ•ด์•ผ ํ•˜๋Š” ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ํŠนํžˆ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOR์€ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋™์‹œ์— ๊ฐ์ฒด์˜ ํฌ์ฆˆ๋‚˜ ๋ถ„๋ฅ˜ ์ž‘์—…๋„ ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  2. YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ํ™•์žฅ

    • YOLOR์€ YOLOv4 ๋ฐ YOLOv5์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์ง€๋งŒ, ๋” ๋‚˜์•„๊ฐ€ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์ด ์ฃผ๋กœ ๊ฐ์ฒด ํƒ์ง€์— ์ง‘์ค‘ํ•œ ๋ฐ˜๋ฉด, YOLOR์€ ๊ฐ์ฒด ํƒ์ง€ ์™ธ์—๋„ ํฌ์ฆˆ ์ถ”์ •๊ณผ ๊ฐ™์€ ์ถ”๊ฐ€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๋ช…์‹œ์  ๋ฐ ์•”๋ฌต์  ํ•™์Šต ํ†ตํ•ฉ

  • YOLOR์—์„œ ์•”๋ฌต์  ์ง€์‹(Implicit Knowledge)๊ณผ ๋ช…์‹œ์  ์ง€์‹(Explicit Knowledge)์„ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ์ตœ์ข…์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‘ ๊ฐ€์ง€ ์ง€์‹์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋ฅผ ์œ„ํ•ด YOLOR์€ ๋ช…์‹œ์  ์ง€์‹๊ณผ ์•”๋ฌต์  ์ง€์‹์„ ๊ตฌ๋ถ„ํ•˜๊ณ , ๋‘ ๊ฐ€์ง€ ์ง€์‹์„ ํ•™์Šต ๋ฐ ๊ฒฐํ•ฉํ•˜๋Š” ๊ณ ์œ ํ•œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

    1. ๋ช…์‹œ์  ์ง€์‹(Explicit Knowledge)์˜ ํ•™์Šต

      • ๋ช…์‹œ์  ์ง€์‹์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์‹ ๊ฒฝ๋ง์˜ ์–•์€ ์ธต์—์„œ ์ฃผ๋กœ ํ•™์Šต๋˜๋ฉฐ, ์ฃผ๋กœ ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ๊ตฌ์ฒด์ ์ด๊ณ  ๋ฌผ๋ฆฌ์ ์ธ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
      • ํ•™์Šต ๋ฐฉ๋ฒ•:

        • YOLOR์—์„œ๋Š” YOLOv4-CSP ๊ธฐ๋ฐ˜์˜ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ๋ช…์‹œ์ ์ธ ํŠน์ง•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์–•์€ ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ์ฃผ๋กœ ์ด๋ฏธ์ง€์—์„œ์˜ ๋ฌผ์ฒด ๊ฒฝ๊ณ„, ๋ชจ์–‘, ํฌ๊ธฐ ๋“ฑ ๋ช…ํ™•ํžˆ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
        • ๋ช…์‹œ์  ์ง€์‹์€ ์ฃผ์–ด์ง„ ์ž‘์—…์— ๋งž๋Š” ํŠนํ™”๋œ ์ •๋ณด๋กœ์„œ, ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ์ฒด ํƒ์ง€์—์„œ๋Š” ๋ฌผ์ฒด์˜ ์œ„์น˜๋‚˜ ํฌ๊ธฐ์™€ ๊ฐ™์€ ๊ตฌ์ฒด์ ์ธ ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
      • ํ™œ์šฉ ๋ฐฉ๋ฒ•:

        • ํ•™์Šต๋œ ๋ช…์‹œ์  ์ง€์‹์€ ์ฃผ๋กœ ํŠน์ • ์ž‘์—…์— ํ•„์š”ํ•œ ๊ตฌ์ฒด์ ์ธ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
        • ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ์ฒด ํƒ์ง€ ์ž‘์—…์—์„œ ๋ฌผ์ฒด์˜ ๊ฒฝ๊ณ„๋‚˜ ํด๋ž˜์Šค ์ •๋ณด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”๋ก ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    2. ์•”๋ฌต์  ์ง€์‹(Implicit Knowledge)์˜ ํ•™์Šต

      • ์•”๋ฌต์  ์ง€์‹์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ์ง์ ‘์ ์œผ๋กœ ๊ด€์ฐฐ๋˜์ง€ ์•Š๋Š” ์ •๋ณด๋กœ, ๊นŠ์€ ์ธต์—์„œ ํ•™์Šต๋˜๋ฉฐ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ์ ์ธ ์ •๋ณด์ž…๋‹ˆ๋‹ค.
      • ํ•™์Šต ๋ฐฉ๋ฒ•:

        • YOLOR์—์„œ๋Š” ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์•”๋ฌต์  ์ง€์‹์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ฃผ๋กœ Manifold space reduction๊ณผ Kernel space alignment์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”์ƒ์ ์ด๊ณ  ๋ฒ”์šฉ์ ์ธ ํŠน์ง•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

          • Manifold space reduction: YOLOR๋Š” ๋‚ด๋ถ€์ ์œผ๋กœ ๋งค๋‹ˆํด๋“œ ํ•™์Šต์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์•”๋ฌต์  ํ‘œํ˜„์„ ๊ณ„์‚ฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ๊ณ ์ฐจ์› ํŠน์„ฑ์„ ์ €์ฐจ์› ๊ณต๊ฐ„์— ํˆฌ์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ, ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ๊ทธ๋“ค์˜ ์ž ์žฌ์ ์ธ ํŠน์„ฑ๊ณผ ๊ด€๊ณ„์— ๋”ฐ๋ผ ๊ทธ๋ฃนํ™”ํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ ํ•ฉํ•œ ์ €์ฐจ์› ํ‘œํ˜„์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

          • Kernel space alignment: ๋‹ค์ค‘ ์ž‘์—…(๋‹ค์ค‘ ํ—ค๋“œ) ๋„คํŠธ์›Œํฌ์—์„œ๋Š” ๊ฐ ์ž‘์—…์— ๋Œ€ํ•œ ์ถœ๋ ฅ์„ ๋™์ผํ•œ ์ปค๋„ ๊ณต๊ฐ„์— ์ •๋ ฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. YOLOR๋Š” ์ถœ๋ ฅ ํ”ผ์ณ์™€ ์•”๋ฌต์  ํ‘œํ˜„์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ด๋ ‡๊ฒŒ ํ•˜๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ์ถœ๋ ฅ์˜ ์ปค๋„์„ ์ด๋™, ํšŒ์ „ ๋ฐ ์Šค์ผ€์ผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ ์ž‘์—…์˜ ์ตœ์ ํ™”๋ฅผ ์ด‰์ง„ํ•˜๋ฉฐ, ์ค„์–ด๋“  ์ฐจ์›์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์ž‘์—… ๊ฐ„์˜ ๊ธฐ๋Šฅ์„ ์‰ฝ๊ฒŒ ๊ณต์œ ํ•˜๊ณ  ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. YOLOR๋Š” ์ด๋Ÿฌํ•œ ์ •๋ ฌ ๊ณผ์ •์„ ํ†ตํ•ด ์ปค๋„ ๊ณต๊ฐ„ ๋‚ด์˜ ๋ถˆ์ผ์น˜๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ๋” ํšจ๊ณผ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

        • ์•”๋ฌต์  ์ง€์‹์€ ์‹ ๊ฒฝ๋ง์˜ ๊นŠ์€ ์ธต์—์„œ ํ•™์Šต๋˜๋ฉฐ, ๋ฐ์ดํ„ฐ์˜ ์ถ”์ƒ์  ํŒจํ„ด์„ ํ•™์Šตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์œ ์šฉํ•œ ๋ฒ”์šฉ์  ํŠน์ง•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

      • ํ™œ์šฉ ๋ฐฉ๋ฒ•:

        • ์•”๋ฌต์  ์ง€์‹์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์ ์ธ ์ •๋ณด๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์•”๋ฌต์  ์ง€์‹์„ ํ†ตํ•ด ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต(Multi-task Learning)์„ ํ•  ๋•Œ, ๊ฐ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
        • ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ์ฒด ํƒ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹ค์ค‘ ๋ ˆ์ด๋ธ” ๋ถ„๋ฅ˜๋‚˜ ์ž„๋ฒ ๋”ฉ ๋“ฑ์˜ ๋‹ค๋ฅธ ์ž‘์—…์—๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์ ์ธ ์ž„๋ฒ ๋”ฉ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    3. ๋ช…์‹œ์  ์ง€์‹๊ณผ ์•”๋ฌต์  ์ง€์‹์˜ ๊ฒฐํ•ฉ

      • YOLOR์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ค‘ ํ•˜๋‚˜๋Š” ๋ช…์‹œ์  ์ง€์‹๊ณผ ์•”๋ฌต์  ์ง€์‹์˜ ๊ฒฐํ•ฉ์ž…๋‹ˆ๋‹ค. ์ด ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๋ชจ๋ธ์€ ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ๋ชฉํ‘œ์™€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์ ์ธ ์ง€์‹์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
      • ๊ฒฐํ•ฉ ๋ฐฉ๋ฒ•:

        • YOLOR์€ ๋ช…์‹œ์  ์ง€์‹๊ณผ ์•”๋ฌต์  ์ง€์‹์„ ๊ฒฐํ•ฉํ•  ๋•Œ, ๋ง์…ˆ(Addition), ๊ณฑ์…ˆ(Multiplication), ์—ฐ๊ฒฐ(Concatenation)๊ณผ ๊ฐ™์€ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
          • ๋ง์…ˆ(Addition): ๋‘ ์ง€์‹์„ ๋”ํ•˜์—ฌ ์ตœ์ข… ์˜ˆ์ธก์— ๊ธฐ์—ฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋‹จ์ˆœํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
          • ๊ณฑ์…ˆ(Multiplication): ๋‘ ์ง€์‹์„ ๊ณฑํ•˜์—ฌ ์ •๋ณด ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ฆ๋Œ€์‹œํ‚ต๋‹ˆ๋‹ค.
          • ์—ฐ๊ฒฐ(Concatenation): ๋‘ ์ง€์‹์„ ์—ฐ๊ฒฐํ•˜์—ฌ, ๊ฐ๊ฐ์˜ ์ •๋ณด๊ฐ€ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜๋ฉด์„œ ๋” ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
        • ์ด๋Ÿฌํ•œ ๊ฒฐํ•ฉ ๋ฐฉ์‹์€ YOLOR์—์„œ ํŠน์ • ์ž‘์—…์„ ์œ„ํ•œ ๋ช…์‹œ์  ์ง€์‹๊ณผ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์œ„ํ•œ ์•”๋ฌต์  ์ง€์‹์ด ์กฐํ™”๋กญ๊ฒŒ ์‚ฌ์šฉ๋˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.
      • ์ถ”๊ฐ€ ๊ธฐ๋Šฅ (More Functions):

        • YOLOR๋Š” ์•”๋ฌต์  ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์˜ˆ์ธก๋ ฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜ˆ์ธก ๋ณด์ •(Prediction Refinement)์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ œ๊ณตํ•œ ์˜ˆ์ธก์„ ์ˆ˜์ •ํ•˜์—ฌ ๋” ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
        • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ฒ€์ƒ‰(Hyperparameter Search)์€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ตœ์ ์˜ ์„ค์ •์„ ์ž๋™์œผ๋กœ ์ฐพ๋Š” ๊ณผ์ •์œผ๋กœ, ๋„คํŠธ์›Œํฌ ์„ฑ๋Šฅ์„ ๋”์šฑ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…์— ํ•„์š”ํ•œ ํŠน์„ฑ์„ ์„ ํƒํ•˜๊ณ  ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์ค‘ ์ž‘์—… ๊ธฐ๋Šฅ ์„ ํƒ(Multi-task Feature Selection)๋„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

  1. ์ตœ์ข… ์ฒ˜๋ฆฌ ๊ณผ์ •

    • ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ์˜ ์ ์šฉ:

      • YOLOR์€ ํ•™์Šต๋œ ๋ช…์‹œ์  ์ง€์‹๊ณผ ์•”๋ฌต์  ์ง€์‹์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ๋œ ํ‘œํ˜„์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด ํ†ตํ•ฉ๋œ ํ‘œํ˜„์€ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
        • ์˜ˆ๋ฅผ ๋“ค์–ด, YOLOR์€ ๊ฐ์ฒด ํƒ์ง€, ๋‹ค์ค‘ ๋ ˆ์ด๋ธ” ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ์ž„๋ฒ ๋”ฉ ํ•™์Šต ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋™์‹œ์— ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ์˜ ์ฒ˜๋ฆฌ:

      • ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ํ•™์Šต๋œ ๋ช…์‹œ์  ํŠน์ง•๊ณผ ์•”๋ฌต์  ํŠน์ง•์„ ๋ฐ”ํƒ•์œผ๋กœ, ์ตœ์ข… ์˜ˆ์ธก์„ ๋„์ถœํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์•”๋ฌต์  ์ง€์‹์€ ๊ณ ์ •๋œ ํ…์„œ๋กœ์„œ ๋” ์ด์ƒ ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ์•ผ๊ธฐํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„, ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
      • ๊ฐ ์ž‘์—…์— ๋งž๋Š” ๊ตฌ์ฒด์ ์ธ ์˜ˆ์ธก๊ฐ’์„ ๋ช…์‹œ์  ์ง€์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , ๋™์‹œ์— ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ์  ์ •๋ณด๋ฅผ ์•”๋ฌต์  ์ง€์‹์œผ๋กœ ์ œ๊ณตํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.

12.2 YOLOR์˜ ์•„ํ‚คํ…์ฒ˜

YOLOR์€ YOLOv4์™€ YOLOv5์˜ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์ง€๋งŒ, ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐœ์„  ์‚ฌํ•ญ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

  1. Backbone

    • YOLOR์€ YOLOv5์—์„œ ์‚ฌ์šฉ๋œ CSPNet์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. CSPNet์€ ํŠน์ง• ์ถ”์ถœ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์—์„œ์˜ ์ •๋ณด ์†์‹ค์„ ์ค„์ž…๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด YOLOR์€ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. Neck

    • YOLOR์€ YOLOv4์—์„œ ๋„์ž…๋œ Path Aggregation Network (PANet) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. PANet์€ ์ƒ์œ„ ๊ณ„์ธต๊ณผ ํ•˜์œ„ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋” ๋‚˜์€ ํƒ์ง€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด์™€ ํฐ ๊ฐ์ฒด๋ฅผ ๋ชจ๋‘ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  3. Head

    • YOLOR์˜ Head๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ, ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ๊ฐ์ฒด์˜ ํด๋ž˜์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, Non-Maximum Suppression (NMS)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘๋ณต๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ YOLOR์€ ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต์„ ์œ„ํ•ด Head์—์„œ ์ถ”๊ฐ€์ ์ธ ์ถœ๋ ฅ์„ ์ง€์›ํ•˜๋ฉฐ, ํฌ์ฆˆ ์ถ”์ • ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. YOLOX (2021๋…„ 7์›”)

YOLOX๋Š” 2021๋…„์— ๋ฐœํ‘œ๋œ YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ํ™•์žฅ ๋ชจ๋ธ๋กœ, ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ณ  ๋ช‡ ๊ฐ€์ง€ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์  ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋„์ž…ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • YOLOX๋Š” YOLOv3์—์„œ ์˜๊ฐ์„ ๋ฐ›์•˜์ง€๋งŒ, ์•ต์ปค๋ฆฌ์Šค(anchor-free) ๊ฐ์ฒด ํƒ์ง€์™€ ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(decoupled head) ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•˜์—ฌ ์ด์ „ YOLO ๋ชจ๋ธ๋“ค๊ณผ ์ฐจ๋ณ„ํ™”๋œ ํŠน์ง•์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • YOLOX๋Š” ๋” ์œ ์—ฐํ•˜๊ณ  ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉด์„œ๋„ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์— ์ ํ•ฉํ•œ ์†๋„๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

13.1 YOLOX์˜ ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ

YOLOX๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๊ณผ๋Š” ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์ฐจ์ด์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์•ต์ปค๋ฆฌ์Šค(anchor-free) ํƒ์ง€ ๋ฐฉ์‹๊ณผ ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(decoupled head) ๊ตฌ์กฐ๋Š” YOLOX๋ฅผ ๋‹ค๋ฅธ YOLO ๋ชจ๋ธ๋“ค๊ณผ ๊ตฌ๋ณ„๋˜๊ฒŒ ๋งŒ๋“œ๋Š” ํ•ต์‹ฌ ์š”์†Œ์ž…๋‹ˆ๋‹ค.

  1. ์•ต์ปค๋ฆฌ์Šค(Anchor-free) ํƒ์ง€

    • ๊ธฐ์กด ์•ต์ปค ๊ธฐ๋ฐ˜ ๋ฐฉ์‹: ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์€ ์‚ฌ์ „์— ์ •์˜๋œ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์•ต์ปค ๋ฐ•์Šค๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ๋น„์œจ๋กœ ๋ฏธ๋ฆฌ ์„ค์ •๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋“ค๋กœ, ์ด๋ฏธ์ง€์˜ ๊ฐ ์œ„์น˜์—์„œ ์ด ๋ฐ•์Šค๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ์ฒด๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ๋Š” ์•ต์ปค ๋ฐ•์Šค์˜ ํฌ๊ธฐ๋‚˜ ๋น„์œจ์„ ๋ฏธ๋ฆฌ ์„ค์ •ํ•˜๊ณ  ํ•™์Šต ์ „ ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ํ†ตํ•ด ์ตœ์ ํ™”ํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์•ต์ปค๋ฆฌ์Šค ๋ฐฉ์‹์˜ ๋„์ž…: YOLOX๋Š” ์ด๋Ÿฌํ•œ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ๊ฐ์ฒด์˜ ์ค‘์‹ฌ์ ์„ ์ง์ ‘ ์˜ˆ์ธกํ•˜๊ณ  ๊ทธ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์•ต์ปค๋ฆฌ์Šค ํƒ์ง€ ๋ฐฉ์‹์€ ๊ฐ์ฒด์˜ ์ขŒํ‘œ์™€ ํฌ๊ธฐ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ •์—์„œ ์ง์ ‘์ ์ธ ์˜ˆ์ธก์„ ์‚ฌ์šฉํ•˜์—ฌ, ์‚ฌ์ „์— ์„ค์ •๋œ ์•ต์ปค๊ฐ€ ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.
    • ์žฅ์ :
      • ๋” ๊ฐ„๊ฒฐํ•œ ๊ตฌ์กฐ: ์•ต์ปค ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์—์„œ๋Š” ๊ฐ ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ์œ„์น˜์—์„œ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•ด์•ผ ํ–ˆ์ง€๋งŒ, ์•ต์ปค๋ฆฌ์Šค ๋ฐฉ์‹์—์„œ๋Š” ํ•˜๋‚˜์˜ ์œ„์น˜์—์„œ ํ•œ ๊ฐœ์˜ ์˜ˆ์ธก๋งŒ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์ด ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค.
      • ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์•ต์ปค๋ฅผ ์ตœ์ ํ™”ํ•˜๊ฑฐ๋‚˜ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์„ค์ •ํ•  ํ•„์š”๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์˜ ํ•™์Šต ๊ณผ์ •์ด ๋” ๊ฐ„๋‹จํ•˜๊ณ  ํšจ์œจ์ ์ด๋ฉฐ, ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์˜ค๋ฒ„ํ—ค๋“œ(Anchor Clustering, Grid Sensitivity ๋“ฑ)๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์†๋„ ์ฆ๊ฐ€: ์•ต์ปค ๋ฐ•์Šค์˜ ์ˆ˜๊ฐ€ ์ค„์–ด๋“ค๋ฉด์„œ, ํƒ์ง€ ๊ณผ์ •์—์„œ ํ•„์š”ํ•œ ์—ฐ์‚ฐ๋Ÿ‰๋„ ๊ฐ์†Œํ•ด ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋นจ๋ผ์ง‘๋‹ˆ๋‹ค.
  2. ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(Decoupled Head)

    • ๊ธฐ์กด ํ—ค๋“œ ๊ตฌ์กฐ: ๊ธฐ์กด YOLO ๋ชจ๋ธ์—์„œ๋Š” ๋ถ„๋ฅ˜(Classification)์™€ ํšŒ๊ท€(Regression) ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋„คํŠธ์›Œํฌ์—์„œ ๋™์‹œ์— ์ฒ˜๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ์ฒด๊ฐ€ ๋ฌด์—‡์ธ์ง€(๋ถ„๋ฅ˜)์™€ ์–ด๋””์— ์žˆ๋Š”์ง€(์œ„์น˜ ์˜ˆ์ธก)๋ฅผ ํ•˜๋‚˜์˜ ํƒ์ง€ ํ—ค๋“œ์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ์‹์€ ๋‘ ์ž‘์—… ๊ฐ„์˜ ์ถฉ๋Œ(conflict) ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ •ํ™•ํ•œ ๊ฐ์ฒด ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—…๊ณผ ๊ฐ์ฒด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž‘์—…์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฅผ ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•  ๋•Œ ํ•™์Šต ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ์˜ ๋„์ž…: YOLOX๋Š” ๋ถ„๋ฅ˜์™€ ํšŒ๊ท€ ์ž‘์—…์„ ๋ถ„๋ฆฌ๋œ ๋„คํŠธ์›Œํฌ(๋””์ปคํ”Œ๋“œ ํ—ค๋“œ)์—์„œ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ•˜๋‚˜์˜ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ์ฒด๊ฐ€ ์–ด๋–ค ์ข…๋ฅ˜์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž‘์—…๋งŒ ๋‹ด๋‹นํ•˜๊ณ , ๋‹ค๋ฅธ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํฌ๊ธฐ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ๋งŒ ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์ž‘์—…์˜ ํšจ์œจ์„ฑ์ด ๊ทน๋Œ€ํ™”๋ฉ๋‹ˆ๋‹ค.

    • ์žฅ์ :

      • ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๋ถ„๋ฅ˜์™€ ํšŒ๊ท€ ์ž‘์—…์ด ๋ถ„๋ฆฌ๋จ์œผ๋กœ์จ ๋‘ ์ž‘์—…์ด ๋…๋ฆฝ์ ์œผ๋กœ ์ตœ์ ํ™”๋  ์ˆ˜ ์žˆ์–ด, ํƒ์ง€ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ํšŒ๊ท€ ์ž‘์—…์ด ๋ถ„๋ฅ˜ ์ž‘์—…์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์•„ ๋” ์ •๋ฐ€ํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.
      • ๋น ๋ฅธ ์ˆ˜๋ ด: ๋ถ„๋ฆฌํ˜• ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๋ฉฐ, ๋” ๋น ๋ฅด๊ฒŒ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋” ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.
  3. ๋‹ค์ค‘ ๊ธ์ • ์ƒ˜ํ”Œ(Multi-positives) ์ „๋žต

    • ๊ธฐ์กด ๋ฐฉ์‹: ๊ธฐ์กด YOLO ๋ชจ๋ธ์—์„œ๋Š” ๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•ด ํ•œ ๊ฐœ์˜ ์œ„์น˜๋งŒ ๊ธ์ •(positive) ์ƒ˜ํ”Œ๋กœ ์„ ํƒํ•˜์—ฌ ํ•™์Šต์— ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ์ฒด์˜ ์ค‘์‹ฌ์— ํ•ด๋‹นํ•˜๋Š” ํ•œ ์ ๋งŒ ๊ธ์ • ์ƒ˜ํ”Œ๋กœ ์„ ํƒํ•˜๊ณ  ๋‚˜๋จธ์ง€๋Š” ๋ถ€์ •(negative) ์ƒ˜ํ”Œ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ์ค‘ ๊ฐ์ฒด์™€ ๊ด€๋ จ๋œ ์ •๋ณด๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋‹ค์ค‘ ๊ธ์ • ์ƒ˜ํ”Œ ์ „๋žต์˜ ๋„์ž…: YOLOX๋Š” ํ•œ ๊ฐœ์˜ ๊ธ์ • ์ƒ˜ํ”Œ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹ , ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ธ์ • ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š”, ๊ฐ์ฒด์˜ ์ค‘์‹ฌ์„ ํฌํ•จํ•œ ์ฃผ๋ณ€ 3x3 ์˜์—ญ์„ ๋ชจ๋‘ ๊ธ์ • ์ƒ˜ํ”Œ๋กœ ์ง€์ •ํ•˜์—ฌ ํ•™์Šต์— ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ์žฅ์ :
      • ๋” ๋งŽ์€ ์ •๋ณด ๋ฐ˜์˜: ๋‹ค์ค‘ ๊ธ์ • ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ, ๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ํ•™์Šต์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ๊ฐ์ฒด๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ ๊ฒน์ณ ์žˆ์„ ๋•Œ ๋” ์ข‹์€ ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ๋” ๋‚˜์€ ์„ฑ๋Šฅ: ๊ฐ์ฒด์˜ ์—ฌ๋Ÿฌ ์œ„์น˜์—์„œ ๊ธ์ • ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•จ์œผ๋กœ์จ, ๋ชจ๋ธ์ด ๋” ๋‹ค์–‘ํ•œ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ์ •ํ™•ํ•œ ํƒ์ง€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. SimOTA (Optimal Transport Assignment)

    • ๊ธฐ์กด ๋ผ๋ฒจ ํ• ๋‹น ๋ฐฉ์‹: ๊ธฐ์กด YOLO ๋ชจ๋ธ์—์„œ๋Š” ๊ฐ์ฒด์™€ ์˜ˆ์ธก๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๊ฐ„์˜ ๋งค์นญ์„ ์œ„ํ•ด ๊ณ ์ •๋œ ๊ทœ์น™์— ๋”ฐ๋ผ ๋ผ๋ฒจ์„ ํ• ๋‹นํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๊ฐ€ ๊ฐ์ฒด์˜ ์ค‘์‹ฌ์ ๊ณผ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์˜ˆ์ธก ๊ฐ’๋งŒ ๊ธ์ • ์ƒ˜ํ”Œ๋กœ ํ• ๋‹นํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ์‹์€ ๊ฐ์ฒด ํฌ๊ธฐ์™€ ์œ„์น˜์— ๋”ฐ๋ผ ์ตœ์ ์˜ ํ• ๋‹น์ด ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • SimOTA์˜ ๋„์ž…: YOLOX๋Š” SimOTA๋ผ๋Š” ์ตœ์  ์šด์†ก ํ• ๋‹น(Optimal Transport Assignment) ์ „๋žต์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ผ๋ฒจ ํ• ๋‹น ๊ณผ์ •์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. SimOTA๋Š” ๊ฐ์ฒด์™€ ์˜ˆ์ธก ๊ฐ’ ๊ฐ„์˜ ๋น„์šฉ(cost)์„ ๊ณ„์‚ฐํ•˜์—ฌ, ๊ฐ€์žฅ ์ ์ ˆํ•œ ์˜ˆ์ธก ๊ฐ’์„ ๊ธ์ • ์ƒ˜ํ”Œ๋กœ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ฐ์ฒด ํฌ๊ธฐ๋‚˜ ์œ„์น˜์— ์ƒ๊ด€์—†์ด ๋” ์œ ์—ฐํ•˜๊ฒŒ ๋ผ๋ฒจ์„ ํ• ๋‹นํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์žฅ์ :
      • ํšจ์œจ์„ฑ ์ฆ๊ฐ€: SimOTA๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋” ์ •ํ™•ํ•œ ๋ผ๋ฒจ ํ• ๋‹น์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ, ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ํŠนํžˆ ๋™์  ํƒ‘-k(Dynamic Top-k) ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ฐ์ฒด๋งˆ๋‹ค ๋‹ค๋ฅธ ์ˆ˜์˜ ๊ธ์ • ์ƒ˜ํ”Œ์„ ํ• ๋‹นํ•˜์—ฌ ๋” ์ •๊ตํ•œ ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
      • ํ•™์Šต ์‹œ๊ฐ„ ๋‹จ์ถ•: SimOTA๋Š” ๋ผ๋ฒจ ํ• ๋‹น ๊ณผ์ •์„ ๊ฐ„์†Œํ™”ํ•˜์—ฌ, ์ถ”๊ฐ€์ ์ธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ • ์—†์ด๋„ ํšจ๊ณผ์ ์ธ ๋ผ๋ฒจ ํ• ๋‹น์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ์กด์˜ ๋ณต์žกํ•œ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋น„ํ•ด ํ•™์Šต ์‹œ๊ฐ„์ด ๋‹จ์ถ•๋˜๋ฉฐ, ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋” ๋น ๋ฅด๊ฒŒ ๋ชจ๋ธ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

13.2 YOLOX์˜ ์•„ํ‚คํ…์ฒ˜

YOLOX์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์˜ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅด์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐœ์„  ์‚ฌํ•ญ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

  1. Backbone

    • YOLOX๋Š” YOLOv4 ๋ฐ YOLOv5์—์„œ ์‚ฌ์šฉ๋œ CSPNet ๋ฐฑ๋ณธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ, ์ด๋ฏธ์ง€์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. CSPNet์€ ์‹ ๊ฒฝ๋ง์˜ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  ์ •๋ณด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜์—ฌ, ๋” ๋‚˜์€ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  2. Neck

    • YOLOX๋Š” FPN (Feature Pyramid Network)๊ณผ PANet (Path Aggregation Network)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์œ„ ๋ฐ ํ•˜์œ„ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜๊ณ , ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ๋” ์ž˜ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  3. Head

    • YOLOX์˜ ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(decoupled head)๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์ž‘์—…(๋ถ„๋ฅ˜, ํšŒ๊ท€, ๊ฐ์ฒด์„ฑ)์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋” ์ •๋ฐ€ํ•œ ํƒ์ง€ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด YOLOX๋Š” ๊ฐ์ฒด์˜ ์œ„์น˜, ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ  ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. YOLOv6 (2022๋…„ 9์›”)

YOLOv6๋Š” Meituan Vision AI ํŒ€์ด 2022๋…„์— ๋ฐœํ‘œํ•œ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ์ตœ์‹  ๋ฐœ์ „ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. YOLOv6๋Š” ๊ณ ์„ฑ๋Šฅ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ์ „ํ†ต์ ์ธ ์†๋„์™€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ํŠนํžˆ YOLOv6๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ๋กœ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ์—์„œ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
  • YOLOv6๋Š” YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ๋น ๋ฅธ ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ตœ์‹  ๊ธฐ์ˆ ์„ ํ†ตํ•ฉํ•˜์—ฌ ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์ด ๋ชจ๋ธ์€ ํŠนํžˆ ์‚ฐ์—…์šฉ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ ํ•ฉํ•œ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๊ณผ์˜ ์ฐจ๋ณ„ํ™”๋ฅผ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐœ์„  ์‚ฌํ•ญ์„ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

14.1 YOLOv6์˜ ์ฃผ์š” ํŠน์ง•

  1. Efficient Backbone: RepVGG

    • YOLOv6๋Š” ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ๋กœ RepVGG ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. RepVGG๋Š” ๊ธฐ์กด์˜ VGG ๋„คํŠธ์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํšจ์œจ์ ์ธ ๊ตฌ์กฐ๋กœ, ํ•™์Šต ์‹œ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ๋‹จ์ˆœํ™”ํ•˜๊ณ  ์ถ”๋ก  ์‹œ ๋งค์šฐ ๋น ๋ฅธ ์†๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. RepVGG๋Š” ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์„ ํ†ตํ•ฉํ•ด ํ•™์Šตํ•œ ๋’ค, ์ถ”๋ก  ์‹œ ์ด๋ฅผ ๊ฐ„์†Œํ™”๋œ ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•ด ๋น ๋ฅธ ์—ฐ์‚ฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด YOLOv6๋Š” ๋†’์€ ์ •ํ™•๋„์™€ ํ•จ๊ป˜ ์‹ค์‹œ๊ฐ„ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ์–‘์žํ™” ์ง€์› (Quantization Support)

    • YOLOv6๋Š” ์–‘์žํ™” ๊ธฐ๋ฒ•์„ ์ง€์›ํ•˜์—ฌ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋””๋ฐ”์ด์Šค์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์–‘์žํ™”๋Š” ๋ชจ๋ธ์˜ ์ •๋ฐ€๋„๋ฅผ ์ค„์—ฌ์„œ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, YOLOv6๋Š” 8๋น„ํŠธ ์–‘์žํ™”๋ฅผ ์ง€์›ํ•˜์—ฌ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋งค์šฐ ๋†’์€ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋Šฅ์€ ํŠนํžˆ ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ์ด๋‚˜ ๋ชจ๋ฐ”์ผ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฐ์ฒด ํƒ์ง€์— ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ณ ์„ฑ๋Šฅ ๊ฐ์ฒด ํƒ์ง€

    • YOLOv6๋Š” ํŠนํžˆ ์†Œํ˜• ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. YOLOv6๋Š” ๋‹จ์ผ GPU์—์„œ ๋งค์šฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ์ œ๊ณตํ•˜๋ฉด์„œ๋„, MS COCO์™€ ๊ฐ™์€ ๋Œ€ํ˜• ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค.
  4. ์ฑ„๋„ ๊ธฐ๋ฐ˜ ์ง€์‹ ์ฆ๋ฅ˜ (Channel-based Knowledge Distillation)

    • YOLOv6๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ์ฑ„๋„ ๊ธฐ๋ฐ˜ ์ง€์‹ ์ฆ๋ฅ˜ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ๊ณ ์„ฑ๋Šฅ์˜ ๊ต์‚ฌ ๋ชจ๋ธ(teacher model)์—์„œ ํ•™์Šต๋œ ํŠน์ง•์„ ๊ฒฝ๋Ÿ‰ํ™”๋œ ํ•™์ƒ ๋ชจ๋ธ(student model)์— ์ „๋‹ฌํ•˜์—ฌ, ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์ด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฒฝ๋Ÿ‰ํ™”๋œ YOLOv6 ๋ชจ๋ธ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  5. ๋†’์€ ํšจ์œจ์„ฑ์˜ ์ตœ์ ํ™” ๊ธฐ๋ฒ•

    • YOLOv6๋Š” ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ตœ์‹  ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, RepOptimizer์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋†’์ด๊ณ , ๋” ์ ์€ ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ํ•™์Šต ์‹œ๊ฐ„์ด ๋‹จ์ถ•๋˜๊ณ , ๋” ์ ์€ ์ž์›์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

14.2 YOLOv6์˜ ์•„ํ‚คํ…์ฒ˜

YOLOv6์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์ด ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. Backbone: RepVGG

    • YOLOv6๋Š” RepVGG ๊ธฐ๋ฐ˜์˜ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. RepVGG๋Š” ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ๋‹จ์ˆœํ™”ํ•˜๋Š” ๋™์‹œ์— ๊ฐ•๋ ฅํ•œ ํŠน์ง• ์ถ”์ถœ ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฑ๋ณธ์€ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋งค์šฐ ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
  2. Neck: PANet (Path Aggregation Network)

    • YOLOv6๋Š” PANet์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์œ„ ๊ณ„์ธต์˜ ๊ณ ์ˆ˜์ค€ ์ •๋ณด์™€ ํ•˜์œ„ ๊ณ„์ธต์˜ ์ €์ˆ˜์ค€ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. PANet์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์–ด, YOLOv6๋Š” ์ž‘์€ ๊ฐ์ฒด๋ถ€ํ„ฐ ํฐ ๊ฐ์ฒด๊นŒ์ง€ ๋ชจ๋‘ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. Head

    • YOLOv6๋Š” ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํฌ๊ธฐ๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ Dense Prediction Head๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. YOLOv6๋Š” ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์—์„œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๋‹ค์ค‘ ์Šค์ผ€์ผ์—์„œ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, YOLOv6๋Š” Non-Maximum Suppression (NMS) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘๋ณต๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ๋” ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  1. YOLOv7 (2022๋…„ 7์›”)

YOLOv7์€ 2022๋…„ YOLO ๋ชจ๋ธ์˜ ๊ฐœ๋ฐœ์ž๋“ค์ด ๋ฐœํ‘œํ•œ ์ตœ์‹  ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์˜ ์žฅ์ ์„ ๊ณ„์Šนํ•˜๋ฉด์„œ๋„ ์†๋„์™€ ์ •ํ™•๋„์—์„œ ์ค‘์š”ํ•œ ๊ฐœ์„ ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

  • ํŠนํžˆ, YOLOv7์€ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์— ์ตœ์ ํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋†’์€ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ์ด ๋ชจ๋ธ์€ ๋‹จ์ผ GPU์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์  ๊ฐœ์„ ์ด ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

15.1 YOLOv7์˜ ์ฃผ์š” ํŠน์ง•

  1. Extended Efficient Layer Aggregation Network (ELAN)

    • YOLOv7์€ Extended Efficient Layer Aggregation Network (ELAN) ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ, ์ด์ „ YOLO ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ํšจ์œจ์ ์ธ ํŠน์ง• ์ถ”์ถœ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ELAN์€ ์—ฌ๋Ÿฌ ๊ณ„์ธต์˜ ํŠน์ง•์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ, ๋„คํŠธ์›Œํฌ์˜ ํ•™์Šต ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋” ๋‚˜์€ ํŠน์ง• ํ‘œํ˜„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด YOLOv7์€ ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  2. Dense Detection Head

    • YOLOv7์€ Dense Detection Head ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๋” ์ •๋ฐ€ํ•œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์ด ์‚ฌ์šฉํ•œ ํƒ์ง€ ํ—ค๋“œ๋ณด๋‹ค ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ž‘์€ ๊ฐ์ฒด๋ถ€ํ„ฐ ํฐ ๊ฐ์ฒด๊นŒ์ง€ ๋” ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Dense Detection Head๋Š” ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด ํƒ์ง€์—์„œ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  3. Re-parameterization Techniques (RepConv)

    • YOLOv7์€ Re-parameterization ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์‹œ ๋ณต์žกํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋‹จ์ˆœํ™”ํ•˜๊ณ , ์ถ”๋ก  ์‹œ์—๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, YOLOv7์€ RepConv ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์„ ๋‹จ์ผ ๊ณ„์ธต์œผ๋กœ ๋ณ‘ํ•ฉํ•˜์—ฌ ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด, YOLOv7์€ ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ๋” ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ๊ฐ„์†Œํ™”๋œ ๊ตฌ์กฐ๋กœ ๋น ๋ฅด๊ฒŒ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. ์Šค์ผ€์ผ ํšจ์œจ์„ฑ (Scale Efficiency)

    • YOLOv7์€ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ณด๋‹ค ์Šค์ผ€์ผ ํšจ์œจ์„ฑ์ด ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ์—ฐ์‚ฐ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. YOLOv7์€ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค„์ด๋ฉด์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ €์‚ฌ์–‘ ํ•˜๋“œ์›จ์–ด์—์„œ๋„ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  5. ๋” ์ ์€ ์—ฐ์‚ฐ๋Ÿ‰์œผ๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ

    • YOLOv7์€ ์ด์ „ YOLOv4 ๋ฐ YOLOv5์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, 75% ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ 36% ์ ์€ ์—ฐ์‚ฐ๋Ÿ‰์œผ๋กœ๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ์™€ ์ตœ์ ํ™” ๊ธฐ๋ฒ• ๋•๋ถ„์— ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋‹จ์ผ GPU์—์„œ ์ตœ๋Œ€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

15.2 YOLOv7์˜ ์•„ํ‚คํ…์ฒ˜

YOLOv7์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์ตœ์ ํ™”๊ฐ€ ์ถ”๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. Backbone: ELAN

    • YOLOv7์˜ ๋ฐฑ๋ณธ์€ Extended ELAN ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ELAN์€ ํŠน์ง• ์ถ”์ถœ์„ ๋”์šฑ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ์ธต์—์„œ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ํ‘œํ˜„์„ ๋” ํ’๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด ๋ฐฑ๋ณธ์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  2. Neck: PANet

    • YOLOv7์€ PANet (Path Aggregation Network)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์œ„ ๊ณ„์ธต๊ณผ ํ•˜์œ„ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜๊ณ , ์ž‘์€ ๊ฐ์ฒด๋ถ€ํ„ฐ ํฐ ๊ฐ์ฒด๊นŒ์ง€ ๋ชจ๋‘ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. PANet์€ ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  3. Head: Dense Detection Head

    • YOLOv7์˜ Dense Detection Head๋Š” ๊ฐ ํŠน์ง• ๋งต์—์„œ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๊ณ , ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์œ„์น˜, ํฌ๊ธฐ, ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. Dense Detection Head๋Š” ๊ธฐ์กด YOLO ํ—ค๋“œ๋ณด๋‹ค ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜์—ฌ ํƒ์ง€ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋ฉฐ, ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. DAMO-YOLO (2022๋…„ 12์›”)

DAMO-YOLO๋Š” 2022๋…„ ์•Œ๋ฆฌ๋ฐ”๋ฐ”์˜ DAMO Academy์—์„œ ๊ฐœ๋ฐœํ•œ ์ตœ์‹  ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ๋น ๋ฅธ ์†๋„์™€ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ณ„์Šนํ•˜๋ฉด์„œ๋„ ์—ฌ๋Ÿฌ ๊ธฐ์ˆ ์  ํ˜์‹ ์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚จ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • DAMO-YOLO๋Š” ์ฃผ๋กœ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์™€ ๊ณ ์„ฑ๋Šฅ์„ ๋ชฉํ‘œ๋กœ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์—์„œ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

16.1 DAMO-YOLO์˜ ์ฃผ์š” ํŠน์ง•

  1. Neural Architecture Search (NAS) ๊ธฐ๋ฐ˜ ์„ค๊ณ„
    • DAMO-YOLO๋Š” ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜ ํƒ์ƒ‰(Neural Architecture Search, NAS) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ž๋™์œผ๋กœ ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค. NAS๋Š” ๋‹ค์–‘ํ•œ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ์‹คํ—˜ํ•˜๊ณ  ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, DAMO-YOLO๋Š” ์ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ์„ ํšจ์œจ์ ์œผ๋กœ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ํŠน์ • ํ•˜๋“œ์›จ์–ด ํ™˜๊ฒฝ์— ์ตœ์ ํ™”๋˜๋ฉฐ, ํŠนํžˆ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

NAS(Neural Architecture Search)๋ž€?

  • Neural Architecture Search(NAS)๋Š” ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์ž๋™์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ์ „ํ†ต์ ์œผ๋กœ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ๋•Œ๋Š” ์‚ฌ๋žŒ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ง์ ‘ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์ •์˜ํ•˜๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ NAS๋Š” ์ด ๊ณผ์ •์„ ์ž๋™ํ™”ํ•˜์—ฌ ์ตœ์ ์˜ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  • NAS๋Š” ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:
    1. ํƒ์ƒ‰ ๊ณต๊ฐ„(Search Space): NAS์—์„œ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์˜ ์ง‘ํ•ฉ์„ ์ •์˜ํ•˜๋Š” ๊ณต๊ฐ„์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋„คํŠธ์›Œํฌ ๊นŠ์ด, ๊ฐ ์ธต์˜ ํฌ๊ธฐ, ํ™œ์„ฑํ™” ํ•จ์ˆ˜, ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ ํฌ๊ธฐ ๋“ฑ์ด ํƒ์ƒ‰ ๋Œ€์ƒ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    2. ํƒ์ƒ‰ ์ „๋žต(Search Strategy): ์ด ์ „๋žต์€ ํƒ์ƒ‰ ๊ณต๊ฐ„์—์„œ ์ตœ์ ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ๋ฌด์ž‘์œ„ ํƒ์ƒ‰, ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๊ฐ•ํ™”ํ•™์Šต ๋˜๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• ๋“ฑ์ด ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํƒ์ƒ‰ ์ „๋žต์— ๋”ฐ๋ผ ์•„ํ‚คํ…์ฒ˜์˜ ํ‰๊ฐ€๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์ด ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.
    3. ํ‰๊ฐ€ ๋ฐฉ๋ฒ•(Evaluation Strategy): ๊ฐ ์•„ํ‚คํ…์ฒ˜์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๊ณ  ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ชจ๋“  ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ง์ ‘ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ๋น„์šฉ์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์„ ์™„์ „ํ•˜๊ฒŒ ํ›ˆ๋ จํ•˜์ง€ ์•Š๊ณ  ์„ฑ๋Šฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ธฐ์ˆ ๋“ค์ด ์‚ฌ์šฉ๋˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค(์˜ˆ: proxy ๋ชจ๋ธ, weight sharing ๋“ฑ).

  1. Anchor-free ๊ตฌ์กฐ

    • DAMO-YOLO๋Š” ์•ต์ปค๋ฆฌ์Šค(anchor-free) ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•˜์—ฌ, ๊ธฐ์กด ์•ต์ปค ๊ธฐ๋ฐ˜ YOLO ๋ชจ๋ธ๋“ค์—์„œ ํ•„์š”ํ–ˆ๋˜ ์•ต์ปค ๋ฐ•์Šค ์„ค์ • ๊ณผ์ •์„ ์ƒ๋žตํ•˜๊ณ ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์•ต์ปค๋ฆฌ์Šค ๊ตฌ์กฐ๋Š” ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ , ํ•™์Šต๊ณผ ์ถ”๋ก ์„ ๋” ๊ฐ„๊ฒฐํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋” ๋†’์€ ํƒ์ง€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. Efficient Backbone

    • DAMO-YOLO๋Š” ํšจ์œจ์ ์ธ ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์—ฐ์‚ฐ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์˜€์Šต๋‹ˆ๋‹ค. CSPNet๊ณผ ์œ ์‚ฌํ•œ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๋ฉด์„œ๋„ ๋‹ค์–‘ํ•œ ํ•ด์ƒ๋„์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด ๋ฐฑ๋ณธ์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ํ™˜๊ฒฝ์—์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  3. Dynamic Head

    • DAMO-YOLO๋Š” Dynamic Head ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ, ๊ฐ์ฒด ํƒ์ง€ ํ—ค๋“œ์—์„œ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ์œ„์น˜์˜ ๊ฐ์ฒด๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Dynamic Head๋Š” ๊ณ ์ •๋œ ํ—ค๋“œ ๊ตฌ์กฐ ๋Œ€์‹  ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ์œ ๋™์ ์œผ๋กœ ๋ณ€ํ˜•๋˜๋ฉฐ, ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ๋” ๋†’์€ ํƒ์ง€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  4. FP16 ๋ฐ INT8 ์–‘์žํ™” ์ง€์›

    • DAMO-YOLO๋Š” FP16 ๋ฐ INT8 ์–‘์žํ™”๋ฅผ ์ง€์›ํ•˜์—ฌ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋””๋ฐ”์ด์Šค์—์„œ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์–‘์žํ™”๋Š” ๋ชจ๋ธ์˜ ์ •๋ฐ€๋„๋ฅผ ์ค„์—ฌ ์—ฐ์‚ฐ์„ ์ตœ์ ํ™”ํ•˜๋ฉด์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. DAMO-YOLO๋Š” ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ฐ”์ผ ํ™˜๊ฒฝ์ด๋‚˜ ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ์—์„œ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

16.2 DAMO-YOLO์˜ ์•„ํ‚คํ…์ฒ˜

DAMO-YOLO์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๊ณผ ๋ช‡ ๊ฐ€์ง€ ์œ ์‚ฌํ•œ ์ ์ด ์žˆ์ง€๋งŒ, NAS ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ž๋™์œผ๋กœ ์„ค๊ณ„๋œ ์ตœ์ ํ™”๋œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜๋Š” ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. Backbone: Lightweight Efficient Backbone

    • DAMO-YOLO๋Š” CSPNet ๊ธฐ๋ฐ˜์˜ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฝ๋Ÿ‰ํ™”์™€ ์„ฑ๋Šฅ์„ ๋ชจ๋‘ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฑ๋ณธ์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํŠน์ง• ๋งต์„ ํšจ์œจ์ ์œผ๋กœ ์ถ”์ถœํ•˜์—ฌ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋†’์ด๋ฉฐ, ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์—ฌ ๋” ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. Neck: PANet

    • YOLO ๋ชจ๋ธ์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” PANet (Path Aggregation Network) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์ƒ์œ„ ๊ณ„์ธต๊ณผ ํ•˜์œ„ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, PANet์€ ์ž‘์€ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.
  3. Head: Dynamic Head

    • DAMO-YOLO์˜ Dynamic Head๋Š” ๊ธฐ์กด ๊ณ ์ •๋œ ๊ตฌ์กฐ์˜ ํƒ์ง€ ํ—ค๋“œ ๋Œ€์‹ , ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋งž์ถฐ ์œ ์—ฐํ•˜๊ฒŒ ์กฐ์ •๋˜๋Š” ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ๊ฐ์ฒด๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.

  1. YOLOv8 (2023๋…„ 1์›”)

YOLOv8์€ 2023๋…„ 1์›” Ultralytics์— ์˜ํ•ด ๋ฐœํ‘œ๋œ ์ตœ์‹  ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ๊ฐ€์žฅ ์ตœ๊ทผ ๋ฒ„์ „์ž…๋‹ˆ๋‹ค. YOLOv8์€ ์ด์ „ ๋ฒ„์ „์ธ YOLOv5์˜ ๊ฐœ์„ ๋œ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ํŠนํžˆ ๊ฒฝ๋Ÿ‰ํ™”์™€ ์ •ํ™•๋„ ๋ชจ๋‘์—์„œ ํฐ ์„ฑ์žฅ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

  • YOLOv8์€ ๊ฐ์ฒด ํƒ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ๋ถ„๋ฅ˜, ํฌ์ฆˆ ์ถ”์ • ๋“ฑ ๋‹ค์–‘ํ•œ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์— ์ ํ•ฉํ•˜๊ฒŒ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • YOLOv8์€ PyTorch ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌํ˜„๋˜์–ด ์žˆ์œผ๋ฉฐ, ์‚ฌ์šฉ์ž๋“ค์ด ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • YOLOv8์€ ๋ชจ๋ธ ๊ตฌ์กฐ์˜ ๊ฐ„์†Œํ™”, ์„ฑ๋Šฅ ์ตœ์ ํ™”, ๋” ๋‚˜์€ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ• ์ ์šฉ์„ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.

17.1 YOLOv8์˜ ์ฃผ์š” ํŠน์ง•

  1. Anchor-free ๊ตฌ์กฐ

    • YOLOv8์€ ์•ต์ปค๋ฆฌ์Šค(anchor-free) ํƒ์ง€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋˜ ์•ต์ปค ๋ฐ•์Šค(anchor boxes) ์„ค์ •์ด ๋ถˆํ•„์š”ํ•˜๋ฉฐ, ๊ฐ์ฒด์˜ ์ค‘์‹ฌ์ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ๊ฐ„์†Œํ™”๋˜๊ณ  ํ•™์Šต ์†๋„๊ฐ€ ๋นจ๋ผ์กŒ์œผ๋ฉฐ, ์•ต์ปค ๋ฐ•์Šค ์กฐ์ •์— ๋Œ€ํ•œ ๋ณต์žก์„ฑ์ด ์‚ฌ๋ผ์กŒ์Šต๋‹ˆ๋‹ค.
  2. Improved Backbone: C2f ๋ชจ๋“ˆ

    • YOLOv8์€ YOLOv5์—์„œ ์‚ฌ์šฉ๋œ CSPNet ๋ฐฑ๋ณธ ๋Œ€์‹  C2f (Cross Stage Partial with Focus) ๋ชจ๋“ˆ์„ ๋„์ž…ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
    • C2f ๋ชจ๋“ˆ์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๊ตฌ์กฐ๋กœ, ๋ชจ๋ธ์˜ ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๋ฉด์„œ๋„ ๋” ๊ฐ•๋ ฅํ•œ ํŠน์ง• ์ถ”์ถœ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด YOLOv8์€ YOLOv5๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
  3. Decoupled Head ๊ตฌ์กฐ

    • YOLOv8์€ ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(Decoupled Head) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๊ฐ์ฒด์„ฑ(objectness), ํšŒ๊ท€(regression), ๋ถ„๋ฅ˜(classification) ์ž‘์—…์„ ๋ถ„๋ฆฌํ•˜์—ฌ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ๊ธฐ์กด์˜ YOLO ๋ชจ๋ธ๋“ค์ด ๋ชจ๋“  ์ž‘์—…์„ ํ•˜๋‚˜์˜ ํ—ค๋“œ์—์„œ ๋™์‹œ์— ์ฒ˜๋ฆฌํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, YOLOv8์€ ๊ฐ๊ฐ์˜ ์ž‘์—…์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋”์šฑ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ํŠนํžˆ ๊ฐ์ฒด์˜ ํฌ๊ธฐ์™€ ์œ„์น˜ ์˜ˆ์ธก์„ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  4. ๋†’์€ ํ™•์žฅ์„ฑ: ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ ์ œ๊ณต

    • YOLOv8์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ์ž์‹ ์˜ ์šฉ๋„์— ๋งž๊ฒŒ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ๋ถ€ํ„ฐ ๋Œ€ํ˜• ๋ชจ๋ธ๊นŒ์ง€ ์„ ํƒํ•  ์ˆ˜ ์žˆ์–ด, ์ž‘์€ ๋””๋ฐ”์ด์Šค์—์„œ๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๊ณ ์„ฑ๋Šฅ ์‹œ์Šคํ…œ์—์„œ๋Š” ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • YOLOv8n (nano): ๋งค์šฐ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ๋กœ, ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ ๋ฐ ๋ชจ๋ฐ”์ผ ์žฅ์น˜์— ์ ํ•ฉ.
      • YOLOv8s (small): ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์ธ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๋ชจ๋ธ๋กœ, ์ค‘๊ฐ„ ์ˆ˜์ค€์˜ ์ž‘์—…์— ์ ํ•ฉ.
      • YOLOv8m (medium): ๋” ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š” ๋ชจ๋ธ.
      • YOLOv8l (large) ๋ฐ YOLOv8x (extra-large): ๊ณ ์„ฑ๋Šฅ์„ ํ•„์š”๋กœ ํ•˜๋Š” ์ž‘์—…์— ์ ํ•ฉํ•˜๋ฉฐ, ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  5. ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ฐ ํฌ์ฆˆ ์ถ”์ • ์ง€์›

    • YOLOv8์€ ๊ฐ์ฒด ํƒ์ง€ ์™ธ์—๋„ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ํฌ์ฆˆ ์ถ”์ •, ์ถ”์ , ๋ถ„๋ฅ˜ ์ž‘์—…์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹จ์ผ ๋ชจ๋ธ๋กœ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ์˜ ํ™œ์šฉ๋„๋ฅผ ๋”์šฑ ๋„“ํ˜”์Šต๋‹ˆ๋‹ค.
  6. ์†์‹ค ํ•จ์ˆ˜: DFL ๋ฐ CIoU

    • YOLOv8์€ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก์— ๋Œ€ํ•ด CIoU (Complete Intersection over Union) ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์œ„์น˜ ์˜ˆ์ธก์˜ ์ •ํ™•๋„๋ฅผ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, DFL (Distribution Focal Loss)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ๊ฒฝ๊ณ„ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

17.2 YOLOv8์˜ ์•„ํ‚คํ…์ฒ˜

  • YOLOv8์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ์กด YOLOv5์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ, ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐœ์„  ์‚ฌํ•ญ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค:
  1. Backbone: C2f ๋ชจ๋“ˆ

    • YOLOv8์€ YOLOv5์—์„œ ์‚ฌ์šฉ๋œ CSPNet ๋Œ€์‹  C2f (Cross Stage Partial with Focus) ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์ธ ํŠน์ง• ์ถ”์ถœ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. C2f ๋ชจ๋“ˆ์€ ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๋ฉด์„œ๋„ ๊ณ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค๋‹ˆ๋‹ค.
  2. Neck: PANet

    • YOLOv8์€ PANet (Path Aggregation Network) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์œ„ ๊ณ„์ธต๊ณผ ํ•˜์œ„ ๊ณ„์ธต์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜๊ณ , ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  3. Head: Decoupled Head

    • YOLOv8์˜ ํ—ค๋“œ๋Š” ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ์ฒด์„ฑ, ๋ถ„๋ฅ˜, ํšŒ๊ท€ ์ž‘์—…์„ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์ž‘์—…์˜ ์ •ํ™•๋„๊ฐ€ ๋”์šฑ ํ–ฅ์ƒ๋˜๋ฉฐ, ํŠนํžˆ ๊ฐ์ฒด์˜ ์œ„์น˜ ์˜ˆ์ธก๊ณผ ํฌ๊ธฐ ์˜ˆ์ธก์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. PP-YOLO, PP-YOLOv2, PP-YOLOE

PP-YOLO ์‹œ๋ฆฌ์ฆˆ๋Š” PaddlePaddle ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, Baidu์˜ AI ์—ฐ๊ตฌ์†Œ์—์„œ ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • PP-YOLO๋Š” ๊ธฐ์กด YOLOv3 ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ ๋ชจ๋ธ์ด๋ฉฐ, ์ดํ›„ PP-YOLOv2์™€ PP-YOLOE๋กœ ๋ฐœ์ „ํ•ด ์™”์Šต๋‹ˆ๋‹ค.
  • PP-YOLO ์‹œ๋ฆฌ์ฆˆ๋Š” YOLO์˜ ๊ฐ•๋ ฅํ•œ ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

ํŒจ๋“คํŒจ๋“ค(PaddlePaddle)์ด๋ž€?

ํŒจ๋“คํŒจ๋“ค(PaddlePaddle)์€ ๋ฐ”์ด๋‘์—์„œ ๊ฐœ๋ฐœํ•œ ์˜คํ”ˆ์†Œ์Šค ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ฆ„์€ โ€˜PArallel Distributed Deep LEarningโ€™์˜ ์•ž๊ธ€์ž๋ฅผ ๋”ฐ์„œ ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค.

  • C++๋กœ ์ž‘์„ฑ๋˜์—ˆ์œผ๋ฉฐ ํŒŒ์ด์ฌ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ์ˆ˜ํ•™ ์—ฐ์‚ฐ ์„ฑ๋Šฅ, ๋ถ„์‚ฐ ํ™˜๊ฒฝ, ๊ทธ๋ฆฌ๊ณ  ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์— ๋Œ€ํ•ด ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ”์ด๋‘์˜ ์—ฌ๋Ÿฌ ์ œํ’ˆ์— ์ด๋ฏธ ๋„๋ฆฌ ์ ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

18.1 PP-YOLO (2020)

  • PP-YOLO๋Š” 2020๋…„์— ๋ฐœํ‘œ๋œ ๋ชจ๋ธ๋กœ, YOLOv3๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • PP-YOLO๋Š” PaddlePaddle์ด๋ผ๋Š” ์˜คํ”ˆ์†Œ์Šค ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๊ตฌํ˜„๋˜์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด YOLOv3๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค.
  1. PP-YOLO์˜ ์ฃผ์š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•

    • PP-YOLO๋Š” YOLOv3์— ์—ฌ๋Ÿฌ ๊ฐ€์ง€ Bag of Tricks ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค:
      • ResNet50-vd ๋ฐฑ๋ณธ: YOLOv3์˜ Darknet ๋ฐฑ๋ณธ ๋Œ€์‹  ResNet50-vd๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ง• ์ถ”์ถœ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ResNet50-vd๋Š” ๋” ๊นŠ์€ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ๋” ์ •๊ตํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • DropBlock: ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด DropBlock์„ ๋„์ž…ํ•˜์—ฌ, ์‹ ๊ฒฝ๋ง์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
      • IoU-Aware Loss: ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก ์‹œ IoU ๊ธฐ๋ฐ˜ ์†์‹ค ํ•จ์ˆ˜(IoU-Aware Loss)๋ฅผ ์ ์šฉํ•˜์—ฌ, ์œ„์น˜ ์˜ˆ์ธก์˜ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
      • Grid Sensitive: ๊ทธ๋ฆฌ๋“œ ์…€์˜ ์ค‘์‹ฌ ์œ„์น˜๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์œ„์น˜ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
      • Matrix NMS: ๊ธฐ์กด์˜ NMS(Non-Maximum Suppression) ๋ฐฉ์‹๋ณด๋‹ค ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ Matrix NMS ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘๋ณต๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.
      • CoordConv: ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ์ขŒํ‘œ ์ •๋ณด๋ฅผ ๋” ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก CoordConv๋ฅผ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  2. PP-YOLO ์„ฑ๋Šฅ

    • PP-YOLO๋Š” MS COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ AP50 45.2%๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ๊ธฐ์กด YOLOv3์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ํŠนํžˆ, PP-YOLO๋Š” YOLOv3๋ณด๋‹ค ๋” ๋†’์€ ์ •ํ™•๋„์™€ ๋น ๋ฅธ ์†๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

18.2 PP-YOLOv2 (2021)

  • PP-YOLOv2๋Š” 2021๋…„์— ๋ฐœํ‘œ๋œ PP-YOLO์˜ ์—…๊ทธ๋ ˆ์ด๋“œ ๋ฒ„์ „์œผ๋กœ, ๊ธฐ์กด PP-YOLO์˜ ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ์ถ”๊ฐ€์ ์ธ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  1. PP-YOLOv2์˜ ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ

    • ResNet101-vd ๋ฐฑ๋ณธ: PP-YOLOv2๋Š” ResNet50-vd ๋Œ€์‹  ResNet101-vd ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ํŠน์ง• ์ถ”์ถœ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
    • Path Aggregation Network (PANet): PP-YOLOv2๋Š” Neck ๊ตฌ์กฐ๋กœ PANet์„ ๋„์ž…ํ•˜์—ฌ ์ƒํ•˜์œ„ ๊ณ„์ธต์˜ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜๊ณ , ์ž‘์€ ๊ฐ์ฒด๋ถ€ํ„ฐ ํฐ ๊ฐ์ฒด๊นŒ์ง€ ๋” ์ •ํ™•ํ•˜๊ฒŒ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
    • Deformable Convolution (DCNv2): ํŠน์ง• ์ถ”์ถœ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด DCNv2๋ฅผ ๋„์ž…ํ•˜์—ฌ, ๊ฐ์ฒด์˜ ํฌ๊ธฐ์™€ ์œ„์น˜์— ๋”ฐ๋ผ ๋” ์œ ์—ฐํ•œ ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
    • IoU Loss & GIoU Loss: PP-YOLOv2๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด IoU Loss ๋ฐ GIoU (Generalized IoU) Loss๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ๋”์šฑ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  2. PP-YOLOv2 ์„ฑ๋Šฅ

    • PP-YOLOv2๋Š” MS COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ AP50 49.5%๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, PP-YOLO๋ณด๋‹ค ์•ฝ 4%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
    • ๋˜ํ•œ, PP-YOLOv2๋Š” ๋” ๋†’์€ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

18.3 PP-YOLOE (2022)

  • PP-YOLOE๋Š” PP-YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ์ตœ์‹  ๋ชจ๋ธ๋กœ, 2022๋…„์— ๋ฐœํ‘œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • PP-YOLOE๋Š” ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์•ต์ปค๋ฆฌ์Šค ํƒ์ง€ ๋ฐฉ์‹์„ ๋„์ž…ํ•˜์˜€์œผ๋ฉฐ, ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ๋ถ€ํ„ฐ ๋Œ€ํ˜• ๋ชจ๋ธ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • PP-YOLOE๋Š” ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ์ตœ์ƒ์˜ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  1. PP-YOLOE์˜ ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ

    • Anchor-free ๊ตฌ์กฐ: PP-YOLOE๋Š” ์•ต์ปค๋ฆฌ์Šค ํƒ์ง€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์—ฌ, ๊ธฐ์กด์˜ ์•ต์ปค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๊ฐ„๋‹จํ•œ ๊ตฌ์กฐ๋กœ ๋น ๋ฅธ ํ•™์Šต๊ณผ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์•ต์ปค๋ฆฌ์Šค ๋ฐฉ์‹์€ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ , ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
    • TAL (Task Alignment Learning): PP-YOLOE๋Š” TAL(Task Alignment Learning) ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ, ๊ฐ์ฒด ํƒ์ง€์™€ ํšŒ๊ท€ ์ž‘์—… ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ตœ์ ํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค. TAL์€ ๊ฐ์ฒด ํƒ์ง€์—์„œ ์œ„์น˜์™€ ํด๋ž˜์Šค ์˜ˆ์ธก์˜ ๊ท ํ˜•์„ ๋งž์ถ”์–ด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋†’์ž…๋‹ˆ๋‹ค.
    • Decoupled Head: YOLOv8๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ, PP-YOLOE๋„ ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(Decoupled Head) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๊ฐ์ฒด ํƒ์ง€ ์ž‘์—…์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • Advanced Data Augmentation: PP-YOLOE๋Š” Mosaic, Copy-paste์™€ ๊ฐ™์€ ์ตœ์‹  ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ , ๋” ์ผ๋ฐ˜ํ™”๋œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. PP-YOLOE ์„ฑ๋Šฅ

    • PP-YOLOE๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ๋ถ€ํ„ฐ ๋Œ€ํ˜• ๋ชจ๋ธ๊นŒ์ง€ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • MS COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ AP50 50.0% ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ, ํŠนํžˆ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • PP-YOLOE๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ํ™˜๊ฒฝ์—์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  1. YOLO-NAS

YOLO-NAS๋Š” 2023๋…„ 5์›”์— Deci๋ผ๋Š” AI ์Šคํƒ€ํŠธ์—…์—์„œ ๋ฐœํ‘œํ•œ ์ตœ์‹  ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, YOLO ์‹œ๋ฆฌ์ฆˆ์˜ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž๋™ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜ ํƒ์ƒ‰(NAS: Neural Architecture Search)์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • YOLO-NAS๋Š” YOLOv8๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉด์„œ๋„, ๋” ๋†’์€ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋ชฉํ‘œ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ํŠนํžˆ YOLO-NAS๋Š” ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ํƒ์ง€์— ์ ํ•ฉํ•˜๋„๋ก ์ตœ์ ํ™”๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ์—ฐ์‚ฐ ์ž์›์„ ๊ณ ๋ คํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•œ ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

19.1 YOLO-NAS์˜ ์ฃผ์š” ํŠน์ง•

  1. Neural Architecture Search (NAS) ๊ธฐ๋ฐ˜ ์„ค๊ณ„

    • YOLO-NAS๋Š” ์ž๋™ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜ ํƒ์ƒ‰(NAS) ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • NAS๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์„ ์‚ฌ์šฉํ•ด ์ตœ์ ์˜ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ์ž๋™์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, YOLO-NAS๋Š” ์ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ตœ์ ํ™”๋œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • NAS๋ฅผ ํ†ตํ•ด YOLO-NAS๋Š” ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด ํ™˜๊ฒฝ์—์„œ๋„ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  2. Anchor-free ๊ตฌ์กฐ

    • YOLO-NAS๋Š” ๊ธฐ์กด์˜ ์•ต์ปค ๋ฐ•์Šค(anchor boxes)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹ ๋Œ€์‹ , ์•ต์ปค๋ฆฌ์Šค(anchor-free) ๊ฐ์ฒด ํƒ์ง€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋Š” ๊ฐ์ฒด ์ค‘์‹ฌ์ ์—์„œ ์ง์ ‘ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์•ต์ปค ๋ฐ•์Šค ์„ค์ •์˜ ๋ณต์žก์„ฑ์„ ์ œ๊ฑฐํ•˜๊ณ  ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ํƒ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    • ์•ต์ปค๋ฆฌ์Šค ๋ฐฉ์‹์€ ํ•™์Šต ์†๋„๋ฅผ ๊ฐ€์†ํ™”ํ•˜๊ณ , ๋ชจ๋ธ์˜ ๊ฐ„์†Œํ™”๋ฅผ ๋•์Šต๋‹ˆ๋‹ค.
  3. Decoupled Head

    • YOLO-NAS๋Š” ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(Decoupled Head) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๊ฐ์ฒด ํƒ์ง€์˜ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์ž‘์—…์ธ ๊ฐ์ฒด์„ฑ(objectness), ํšŒ๊ท€(regression), ๋ถ„๋ฅ˜(classification)๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์ž‘์—…์˜ ํšจ์œจ์„ฑ์„ ์ตœ์ ํ™”ํ•˜๊ณ , ๋” ๋†’์€ ํƒ์ง€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  4. ์ถ”๋ก  ์†๋„ ๋ฐ ์ •ํ™•๋„ ์ตœ์ ํ™”

    • YOLO-NAS๋Š” ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ๋„ ์ถ”๋ก  ์†๋„๋ฅผ ์ตœ์ ํ™”ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค๋‚˜ ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ๊ณผ ๊ฐ™์€ ์ œํ•œ๋œ ์ž์› ํ™˜๊ฒฝ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ํŠน์ง•์ž…๋‹ˆ๋‹ค. YOLO-NAS๋Š” ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉด์„œ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค.
  5. ์–‘์žํ™” ์ง€์›

    • YOLO-NAS๋Š” ์–‘์žํ™”(quantization)๋ฅผ ์ง€์›ํ•˜์—ฌ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ , ๋” ์ ์€ ์—ฐ์‚ฐ ์ž์›์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 8๋น„ํŠธ ์–‘์žํ™”๋ฅผ ์ง€์›ํ•˜์—ฌ, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ์—ฐ์‚ฐ ์‹œ๊ฐ„์„ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ํšจ์œจ์ ์ธ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ฐ”์ผ ์žฅ์น˜๋‚˜ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค์™€ ๊ฐ™์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ํ•˜๋“œ์›จ์–ด์—์„œ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  6. Task-aware Attention (TAA) ๊ธฐ๋ฒ•

    • YOLO-NAS๋Š” Task-aware Attention (TAA) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๊ฐ์ฒด ํƒ์ง€ ์ž‘์—…์—์„œ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ž๋™์œผ๋กœ ํ•™์Šตํ•˜๊ณ , ์—ฌ๋Ÿฌ ์ž‘์—… ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. TAA๋Š” ๋ชจ๋ธ์ด ๊ฐ ์ž‘์—…(๋ถ„๋ฅ˜, ์œ„์น˜ ์˜ˆ์ธก ๋“ฑ)์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

19.2 YOLO-NAS์˜ ์•„ํ‚คํ…์ฒ˜

  • YOLO-NAS์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, NAS ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ตœ์ ํ™”๋œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค:
  1. Backbone

    • YOLO-NAS๋Š” EfficientNet์ด๋‚˜ CSPNet๊ณผ ์œ ์‚ฌํ•œ ๊ฒฝ๋Ÿ‰ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜์—ฌ, ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ๋„ ํŠน์ง• ์ถ”์ถœ ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฑ๋ณธ์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๊ตฌ์กฐ์ด๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ํŠน์ง• ํ•™์Šต ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. Neck

    • YOLO-NAS๋Š” Path Aggregation Network (PANet)๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์œ„ ๋ฐ ํ•˜์œ„ ๊ณ„์ธต์˜ ํŠน์ง•์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  3. Head: Decoupled Head

    • YOLO-NAS์˜ ๋””์ปคํ”Œ๋“œ ํ—ค๋“œ(Decoupled Head)๋Š” ๋ถ„๋ฅ˜, ํšŒ๊ท€, ๊ฐ์ฒด์„ฑ ์ž‘์—…์„ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋” ๋†’์€ ํƒ์ง€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ์ •๊ตํ•œ ํƒ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. YOLO with Transformers

YOLO with Transformers๋Š” YOLO ๋ชจ๋ธ๊ณผ ํŠธ๋žœ์Šคํฌ๋จธ(Transformers) ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ๋กœ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ถ„์•ผ์—์„œ ์„ฑ๊ณต์ ์œผ๋กœ ์‚ฌ์šฉ๋œ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋ฅผ ์ปดํ“จํ„ฐ ๋น„์ „์— ์ ์šฉํ•˜์—ฌ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ธฐ์กด ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN) ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ๋“ค์ด ๊ฐ–๋Š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋” ๊ธด ๋ฒ”์œ„์˜ ์ข…์†์„ฑ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์„ ์ œ๊ณตํ•˜์—ฌ, ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ๋„ ์ž๊ธฐ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Self-Attention Mechanism)์„ ํ†ตํ•ด ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋ฅผ YOLO์™€ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์žฅ์ ๊ณผ YOLO์˜ ์‹ค์‹œ๊ฐ„ ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

20.1 ํŠธ๋žœ์Šคํฌ๋จธ(Transformers) ๊ฐœ์š”

  • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์›๋ž˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ๋ฌธ์žฅ์˜ ๊ฐ ๋‹จ์–ด ๊ฐ„์˜ ์ข…์†์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ž๊ธฐ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Self-Attention)์„ ํ†ตํ•ด, ์ž…๋ ฅ์˜ ๊ฐ ์š”์†Œ๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋“  ์š”์†Œ์™€์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ด๋ฏธ์ง€์™€ ๊ฐ™์€ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์—์„œ๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€ ๋‚ด์˜ ๋ชจ๋“  ํ”ฝ์…€ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

20.2 YOLO์™€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ฒฐํ•ฉ์˜ ํ•„์š”์„ฑ

  • ๊ธฐ์กด YOLO ๋ชจ๋ธ์€ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ๊ตญ์†Œ์ ์ธ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • CNN์€ ์ธ์ ‘ํ•œ ํ”ฝ์…€ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ˜๋ฉด, ์žฅ๊ฑฐ๋ฆฌ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ์žฅ๊ฑฐ๋ฆฌ ์ข…์†์„ฑ(Long-Range Dependency)์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, YOLO์™€ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๊ฒฐํ•ฉํ•˜๋ฉด ์ด๋ฏธ์ง€ ๋‚ด์˜ ๋ชจ๋“  ํ”ฝ์…€ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์–ด, ๋” ์ •๋ฐ€ํ•œ ๊ฐ์ฒด ํƒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

20.3 YOLO with Transformers์˜ ์ฃผ์š” ํŠน์ง•

  1. Self-Attention Mechanism

    • ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ๋“ค์€ ์ž๊ธฐ ์ฃผ์˜(Self-Attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ด๋ฏธ์ง€ ๋‚ด์˜ ๋ชจ๋“  ์š”์†Œ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋Š” ์ด๋ฏธ์ง€์˜ ํŠน์ • ๋ถ€๋ถ„์ด ๋‹ค๋ฅธ ๋ถ€๋ถ„๊ณผ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋”์šฑ ์ž˜ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  2. Global Context Learning

    • YOLO์™€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฒฐํ•ฉ์€ ์ด๋ฏธ์ง€์˜ ์ „์—ญ ์ •๋ณด(Global Context)๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • CNN์€ ๊ตญ์†Œ์  ํ•„ํ„ฐ๋กœ ์ธํ•ด ์ด๋ฏธ์ง€์˜ ์ž‘์€ ๋ถ€๋ถ„์—๋งŒ ์ง‘์ค‘ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์ง€๋งŒ, ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ ๋™์‹œ์— ๋ถ„์„ํ•˜๋ฏ€๋กœ ๋” ๋„“์€ ๋ฌธ๋งฅ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด, ๋” ์ •ํ™•ํ•œ ๊ฐ์ฒด ํƒ์ง€ ๋ฐ ์œ„์น˜ ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  3. Hierarchical Feature Learning

    • YOLO with Transformers๋Š” ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ „์—ญ ์ •๋ณด ํ•™์Šต ๋Šฅ๋ ฅ๊ณผ YOLO์˜ ๊ณ„์ธต์  ํŠน์ง• ํ•™์Šต(Hierarchical Feature Learning)์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    • YOLO๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•˜์—ฌ ์—ฌ๋Ÿฌ ํฌ๊ธฐ์˜ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ด๋Ÿฌํ•œ ํŠน์ง• ๋งต ๋‚ด์—์„œ ํ”ฝ์…€ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋” ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์ค‘ ์Šค์ผ€์ผ ํƒ์ง€ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.
  4. Spatial and Channel Attention

    • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ด๋ฏธ์ง€์˜ ๊ณต๊ฐ„์  ํŠน์ง•(Spatial Features)๊ณผ ์ฑ„๋„ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ(Channel Interaction)์„ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • YOLO with Transformers๋Š” ์ด๋Ÿฌํ•œ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ, ์ด๋ฏธ์ง€ ๋‚ด์˜ ์ค‘์š”ํ•œ ์˜์—ญ๊ณผ ์ฑ„๋„ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ•˜์—ฌ ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

20.4 ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ YOLO ๋ชจ๋ธ๋“ค

  1. DETR (Detection Transformer)

    • DETR๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ฒ˜์Œ์œผ๋กœ ๊ฐ์ฒด ํƒ์ง€์— ์„ฑ๊ณต์ ์œผ๋กœ ์ ์šฉํ•œ ๋ชจ๋ธ๋กœ, ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ „์—ญ์ ์ธ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ณ  ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
    • DETR์€ YOLO์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ์žฅ๊ฑฐ๋ฆฌ ์ •๋ณด์™€ ๊ตญ์†Œ์  ์ •๋ณด๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋” ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
  2. Swin Transformer ๊ธฐ๋ฐ˜ YOLO

    • Swin Transformer๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ปดํ“จํ„ฐ ๋น„์ „์— ๋” ์ ํ•ฉํ•˜๊ฒŒ ๊ฐœ์„ ํ•œ ๋ชจ๋ธ๋กœ, ์œˆ๋„์šฐ ๊ธฐ๋ฐ˜(Self-Attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ๊ฐ ์˜์—ญ์„ ๊ตญ์†Œ์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฉด์„œ๋„ ์ „์—ญ์ ์ธ ๋ฌธ๋งฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
    • Swin Transformer์™€ YOLO์˜ ๊ฒฐํ•ฉ์€ ๋” ํšจ์œจ์ ์ธ ์ „์—ญ ํŠน์ง• ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  3. YOLO-ViT (Vision Transformer)

    • YOLO-ViT๋Š” YOLO ๋ชจ๋ธ๊ณผ ๋น„์ „ ํŠธ๋žœ์Šคํฌ๋จธ(ViT: Vision Transformer)๋ฅผ ๊ฒฐํ•ฉํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
    • ViT๋Š” ์ˆœ์ˆ˜ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ๋‚ด์˜ ๋ชจ๋“  ํŒจ์น˜(patch) ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • YOLO-ViT๋Š” ViT์˜ ์žฅ์ ์ธ ์ „์—ญ ์ƒํ˜ธ์ž‘์šฉ ํ•™์Šต์„ ํ™œ์šฉํ•˜์—ฌ, ๋” ์ •ํ™•ํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก๊ณผ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Discussion

  • YOLO ๋ฒ„์ „ ๋ถ„์„: 16๊ฐœ์˜ YOLO ๋ฒ„์ „์„ ๋ถ„์„ํ•˜๊ณ , ๊ฐ๊ฐ์˜ ์ฃผ์š” ํŒจํ„ด์„ ์‹๋ณ„ํ•ฉ๋‹ˆ๋‹ค.
  • ์•ต์ปค(Anchors): ์›๋ž˜ YOLO ๋ชจ๋ธ์€ ์•ต์ปค๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์œผ๋‚˜, ์ดํ›„ YOLOv2์—์„œ ์•ต์ปค๊ฐ€ ๋„์ž…๋˜์–ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก ์ •ํ™•๋„ ๊ฐœ์„ ์— ๊ธฐ์—ฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ดํ›„ YOLOX๋Š” ์•ต์ปค ์—†๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋„์ž…ํ•ด ์ƒํƒœ์—์„œ์˜ ์ตœ๊ณ ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ”„๋ ˆ์ž„์›Œํฌ: ์ดˆ๊ธฐ YOLO ๋ฒ„์ „์€ Darknet ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์˜€์œผ๋‚˜, YOLOv3๋ถ€ํ„ฐ PyTorch๋กœ ํฌํŒ…๋˜๋ฉด์„œ ์ดํ›„ ๋ฒ„์ „๋“ค์€ PyTorch ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐœ์ „ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ๋ฐฑ๋ณธ(Backbone): YOLO ๋ชจ๋ธ์˜ ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜๋Š” Darknet์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, ์ดํ›„ CSP, ์žฌํŒŒ๋ผ๋ฏธํ„ฐํ™” ๋ฐ Neural Architecture Search๋ฅผ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ๊ตฌ์กฐ๋กœ ๋ฐœ์ „ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ: YOLO ๋ชจ๋ธ์€ ์†๋„์™€ ์ •ํ™•์„ฑ ๊ฐ„์˜ ๊ท ํ˜•์„ ์ง€์†์ ์œผ๋กœ ์ถ”๊ตฌํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฐ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

The Future of YOLO

  • ์ตœ์‹  ๊ธฐ์ˆ  ์ ์šฉ: YOLO ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ํ•˜์—ฌ ๋ชจ๋ธ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ์ตœ์‹  ๋”ฅ๋Ÿฌ๋‹ ๋ฐ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์„ ์ฑ„ํƒํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.
  • ๋ฒค์น˜๋งˆํฌ์˜ ์ง„ํ™”: ํ˜„์žฌ์˜ COCO 2017 ๋ฒค์น˜๋งˆํฌ๋Š” ๋” ๋„์ „์ ์ธ ๊ธฐ์ค€์œผ๋กœ ํ–ฅํ›„ ๋Œ€์ฒด๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์œผ๋ฉฐ, ์ด๋Š” YOLO ๋ชจ๋ธ์˜ ๋ฐœ์ „๊ณผ ํ•จ๊ป˜ ๋”์šฑ ์ •๊ตํ•œ ๊ธฐ์ค€์„ ์š”๊ตฌํ•˜๋Š” ํ•„์š”์„ฑ์„ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
  • YOLO ๋ชจ๋ธ ๋ฐ ์‘์šฉ์˜ ํ™•์‚ฐ: ๋งค๋…„ ๋” ๋งŽ์€ YOLO ๋ชจ๋ธ์ด ์ถœ์‹œ๋˜๊ณ  ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ์˜ ์‘์šฉ์ด ํ™•๋Œ€๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.
  • ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์œผ๋กœ์˜ ํ™•์žฅ: YOLO ๋ชจ๋ธ์ด ๊ฐ์ฒด ๊ฐ์ง€ ๋ฐ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ๋„˜์–ด ๋น„๋””์˜ค์—์„œ ๊ฐ์ฒด ์ถ”์ , 3D ํ‚คํฌ์ธํŠธ ์ถ”์ •๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋ถ„์•ผ๋กœ ํ™•์žฅ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด์— ๋Œ€ํ•œ ์ ์‘์„ฑ: YOLO ๋ชจ๋ธ์€ IoT ์žฅ์น˜์—์„œ ๊ณ ์„ฑ๋Šฅ ์ปดํ“จํŒ… ํด๋Ÿฌ์Šคํ„ฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ์— ์ ์‘ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋ฉฐ, ์ด๋Š” ์‚ฌ์šฉ์ž ๋ฐ ์‚ฐ์—…์˜ ์š”๊ตฌ์™€ ์ œ์•ฝ์— ๋”ฐ๋ผ ๋งž์ถคํ˜•์œผ๋กœ ๋ฐฐํฌ๋  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

์ด์ƒ์œผ๋กœ YOLO Survey ๋…ผ๋ฌธ์„ ๋‹ค๋ฃจ์–ด๋ดค๋Š”๋ฐ์š”. YOLO ๋ฒ„์ „๋“ค์ด ๋„ˆ๋ฌด ๋งŽ์•„์„œ ์ •๋ฆฌํ•  ์—„๋‘๊ฐ€ ์•ˆ๋‚˜๋‹ค๊ฐ€ Survey Paper๋ฅผ ๋ฐœ๊ฒฌํ•œ ๊น€์— ์ •๋ฆฌํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค ๐Ÿค—



-->