[CV Notes] Lecture 18 - Videos
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/CV-Notes-Lecture-18-Videos
๋ค์์ ์๋ โLecture 18. Videosโ์ ๋ํ ์์ฝ ๋ฐ ํ๊ธฐ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ํ๋ฆฐ ๋ด์ฉ์ด ์๋ค๋ฉด ๋๊ธ ๋ถํ๋๋ฆฝ๋๋ค ๐
- Course Website: https://web.eecs.umich.edu/~justincj/teaching/eecs498/
- Instructor: Justin Johnson
- Lecture 18: Videos
Lecture 18์ ๋ด์ฉ์ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ดํดํ๊ธฐ ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ํด ์ฌ๋ ์๊ฒ ๋ค๋ฃจ๊ณ ์์ต๋๋ค. ์ฃผ์ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
1. 2D ์ด๋ฏธ์ง์์ 3D ๋ฐ ๋น๋์ค๋ก์ ํ์ฅ
- ์ด์ ๊ฐ์ ๋ฆฌ๋ทฐ:
- ์ด์ ๊ฐ์์์๋ 2D ์ด๋ฏธ์ง์์ ๊ฐ์ฒด ๋ถ๋ฅ, ์ธ๊ทธ๋ฉํ ์ด์ ๋ฑ ๋ค์ํ ์์ ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ ์ต๋๋ค. ํนํ ์ด๋ฏธ์ง ๋ถ๋ฅ์ 2D ํ์ ์์ธก์ ์ง์คํ์ต๋๋ค.
- ์ด์ด์ 3D ํ์ ์์ธก์ ๋ค๋ฃจ์๊ณ , CNN์ 3D๋ก ํ์ฅํด 2D ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ๋ฐ์ 3D ํ์์ ์์ธกํ๊ฑฐ๋ 3D ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ ผ์ํ์ต๋๋ค.
- ์ด๋ฒ ๊ฐ์ ์ฃผ์ :
- ์ด๋ฒ ๊ฐ์์์๋ CNN์ ์๊ฐ ์ถ์ ์ถ๊ฐํ์ฌ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค. ๋น๋์ค๋ ์๊ฐ ์ถ์ด ์ถ๊ฐ๋ ์ด๋ฏธ์ง ์ํ์ค์ด๋ฏ๋ก, ์ด๋ฅผ 4์ฐจ์ ํ ์๋ก ํํํฉ๋๋ค.
2. ๋น๋์ค์ ๊ตฌ์กฐ์ ๋์ ๊ณผ์
-
Video Tensor:
- ๋น๋์ค๋ ๋ ๊ฐ์ ๊ณต๊ฐ ์ถ(H, W), ์ฑ๋ ์ถ(RGB), ์๊ฐ ์ถ(T)์ผ๋ก ๊ตฌ์ฑ๋ 4์ฐจ์ ํ
์๋ก ํํ๋ฉ๋๋ค.
-
Video Tensor = 2D Images + Time (4D Tensor)
(Time x RGB Channel(3) x Height x Width)
-
- ์ด๋ฌํ ๊ตฌ์กฐ๋ฅผ ํตํด ๋น๋์ค๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด์๋ 3์ฐจ์ ๊ณต๊ฐ ์ ๋ณด์ 1์ฐจ์ ์๊ฐ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ฒ๋ฆฌํด์ผ ํฉ๋๋ค.
- Task์ ๋ฐ๋ผ์
Time x RGB Channel(3) x Height x Width
์ผ๋ก ์ฌ์ฉํ ๋๋ ์๊ณ ,RGB Channel(3) x Time x Height x Width
์ผ๋ก ์ฌ์ฉํ ๋๋ ์์ต๋๋ค.
- Task์ ๋ฐ๋ผ์
- ๋น๋์ค๋ ๋ ๊ฐ์ ๊ณต๊ฐ ์ถ(H, W), ์ฑ๋ ์ถ(RGB), ์๊ฐ ์ถ(T)์ผ๋ก ๊ตฌ์ฑ๋ 4์ฐจ์ ํ
์๋ก ํํ๋ฉ๋๋ค.
-
Image vs Video:
-
์ด๋ฏธ์ง ๋ถ๋ฅ task:
- ๊ฐ์ฒด ์ธ์์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด๋ฏธ์ง์์ ์ธ์ํ๊ณ ์ ํ๋ ๋์์ ์ฃผ๋ก ๋ช
์ฌ(nouns)๋ก, ๊ณ ์ ํ ๊ณต๊ฐ์ ๋ฒ์๋ ์ ์ฒด์ฑ์ ๊ฐ์ง๋ ๊ฒ๋ค์
๋๋ค.
- ์๋ฅผ ๋ค์ด, ๊ฐ, ๊ณ ์์ด์ ๊ฐ์ ๋๋ฌผ, ๋ณ, ์๋์ฐจ ๊ฐ์ ๋ฌด์๋ฌผ ๊ฐ์ฒด ๋ฑ์ด ์์ต๋๋ค.
- ์ด๋ฏธ์ง ๋ถ๋ฅ์ ๋ชฉํ๋ ์ฃผ์ด์ง ์ด๋ฏธ์ง์์ ์ด์ ๊ฐ์
๊ฐ์ฒด๋ฅผ ์ธ์
ํ๊ณ ๋ถ๋ฅํ๋ ๊ฒ์ ๋๋ค.
- ๊ฐ์ฒด ์ธ์์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด๋ฏธ์ง์์ ์ธ์ํ๊ณ ์ ํ๋ ๋์์ ์ฃผ๋ก ๋ช
์ฌ(nouns)๋ก, ๊ณ ์ ํ ๊ณต๊ฐ์ ๋ฒ์๋ ์ ์ฒด์ฑ์ ๊ฐ์ง๋ ๊ฒ๋ค์
๋๋ค.
-
๋น๋์ค ๋ถ๋ฅ task:
- ๋์ ๋๋ ํ๋ ์ธ์์ด ํต์ฌ์
๋๋ค. ๋น๋์ค์์ ์ธ์ํ๊ณ ์ ํ๋ ๋์์ ์ฃผ๋ก ๋์ฌ(verbs)๋ก, ์๊ฐ ์ถ์์ ๋ฐ์ํ๋ ํ๋์ด๋ ํ๋์
๋๋ค.
- ์๋ฅผ ๋ค์ด, ์์, ๋ฌ๋ฆฌ๊ธฐ, ์ ํ, ๋จน๊ธฐ, ์ ์๊ธฐ ๋ฑ์ ๋์์ด ์์ต๋๋ค.
- ๋น๋์ค ๋ถ๋ฅ์ ๋ชฉํ๋
์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ํ๋์ ์ธ์
ํ๊ณ , ์ด๋ฅผ ๋ถ๋ฅํ๋ ๊ฒ์ ๋๋ค.
- ๋์ ๋๋ ํ๋ ์ธ์์ด ํต์ฌ์
๋๋ค. ๋น๋์ค์์ ์ธ์ํ๊ณ ์ ํ๋ ๋์์ ์ฃผ๋ก ๋์ฌ(verbs)๋ก, ์๊ฐ ์ถ์์ ๋ฐ์ํ๋ ํ๋์ด๋ ํ๋์
๋๋ค.
-
๊ณ์ฐ ๋ณต์ก์ฑ๊ณผ ๋ฉ๋ชจ๋ฆฌ ๋ฌธ์ :
-
๋น๋์ค ๋ฐ์ดํฐ๋ ๋งค์ฐ ํฌ๊ธฐ ๋๋ฌธ์ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฌํ๊ณ ์ฒ๋ฆฌํ๋ ๊ฒ์ด ์ด๋ ต์ต๋๋ค.
-
์๋ฅผ ๋ค์ด, ๋น๋์ค ์คํธ๋ฆผ์ 30fps๋ก ์ ์งํ๋ฉด์๋ ๊ณ ํด์๋๋ก ์ฒ๋ฆฌํ๋ ค๋ฉด ์์ฒญ๋ ์์ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค.
-
-
์ด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ํ๋ ์ ์๋๋ฅผ ์ค์ด๊ฑฐ๋ ํด์๋๋ฅผ ๋ฎ์ถ๋ ๋ฑ์ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ํฉ๋๋ค.
-
์๋ฅผ ๋ค์ด, ์งง์ ๋น๋์ค ํด๋ฆฝ(3~5์ด)์ ์ฌ์ฉํ๊ณ , ํด์๋์ ํ๋ ์ ์๋๋ฅผ ์ค์ฌ ์ฐ์ฐ๋์ ์ค์ ๋๋ค.
-
-
3. ๋น๋์ค ๋ถ๋ฅ ๋ชจ๋ธ
-
๋จ์ผ ํ๋ ์ CNN ๋ถ๋ฅ๊ธฐ(Single Frame CNN):
- ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์ ๊ทผ๋ฒ์ผ๋ก, ๋น๋์ค์ ๊ฐ ํ๋ ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ถ๋ฅํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ํํด ์ต์ข ์์ธก์ ๋ง๋ญ๋๋ค.
- ์ด ์ ๊ทผ๋ฒ์ ๋น๋์ค์ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ฌด์ํ๋ฏ๋ก ๋จ์ํด ๋ณด์ด์ง๋ง, ์ค์ง์ ์ผ๋ก ๋งค์ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- ํนํ, ๋ณต์กํ ๋น๋์ค ์์ ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ ๋ค๋ฅธ ๋ณต์กํ ๋ชจ๋ธ์ ์ฑ๋ฅ ๋น๊ต ๊ธฐ์ค์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. (๋ณดํต baseline์ผ๋ก ๋ง์ด ์ฌ์ฉํจ)
-
์ง์ฐ ์ตํฉ(Late Fusion):
- ๋จ์ผ ํ๋ ์ ๋ถ๋ฅ๊ธฐ์ ์ ์ฌํ๋, ๊ฐ ํ๋ ์์ ๊ฒฐ๊ณผ๋ฅผ ๋คํธ์ํฌ ๋ด๋ถ์์ ๊ฒฐํฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์ํํฉ๋๋ค. ์ฆ, CNN์ ํตํด ๊ฐ ํ๋ ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ ํ, ๋์ค์ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ด ์ ๊ทผ๋ฒ์ ์๊ฐ ์ถ ์ ๋ณด๋ฅผ ๋คํธ์ํฌ ๋ด์์ ์ฒ๋ฆฌํ๋๋ก ํ์ฌ, ๋ณด๋ค ์ ๊ตํ ์๊ฐ์ ํจํด์ ํ์ตํ ์ ์์ต๋๋ค.
-
์ด๊ธฐ ์ตํฉ(Early Fusion):
- ์
๋ ฅ ๋น๋์ค์ ์๊ฐ ์ถ์ ์ฑ๋ ์ถ์ผ๋ก ์ฌํด์ํ๊ณ , ์ฒซ ๋ฒ์งธ CNN ๋ ์ด์ด์์ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
Reshape ์ํ
: (T x 3 x H x W) โถ (3T x H x W)
- ์ด๋ ๊ฒ ํจ์ผ๋ก์จ CNN์ ์ด๊ธฐ ๋ ์ด์ด์์ ์๊ฐ ์ถ์ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ๋ฎ์ ์์ค์ ์๊ฐ์ ์ํธ์์ฉ์ ํ์ตํ ์ ์์ต๋๋ค.
- ํ์ง๋ง ์๊ฐ ์ ๋ณด๋ฅผ ํ ๋ฒ์ ๊ฒฐํฉํ๋ ๋ฐฉ์์ด๋ผ ์ ๋ณด ์์ค์ด ๋ฐ์ํ ์ ์์ต๋๋ค.
- ์
๋ ฅ ๋น๋์ค์ ์๊ฐ ์ถ์ ์ฑ๋ ์ถ์ผ๋ก ์ฌํด์ํ๊ณ , ์ฒซ ๋ฒ์งธ CNN ๋ ์ด์ด์์ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
-
3D CNN (Slow Fusion):
-
3D CNN์ ์ฌ์ฉํด ๊ณต๊ฐ ๋ฐ ์๊ฐ ์ ๋ณด๋ฅผ ์ฌ๋ฌ ์ธต์ ๊ฑธ์ณ ์ ์ง์ ์ผ๋ก ์ตํฉํฉ๋๋ค.
-
CNN์ ๊ฐ ์ธต์์ 3D ์ปจ๋ณผ๋ฃจ์ ๊ณผ 3D ํ๋ง์ ์ฌ์ฉํ์ฌ ๊ณต๊ฐ์ , ์๊ฐ์ ์ ๋ณด๋ฅผ ๋์์ ์ฒ๋ฆฌํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋๋ฆฌ์ง๋ง ์ง์์ ์ผ๋ก ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํด ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ฉฐ, ํนํ ์์ง์์ด ์ค์ํ ๋น๋์ค์์ ํจ๊ณผ์ ์ ๋๋ค.
-
-
Summary:
ํด๋น ํ ์ด๋ธ์ Late Fusion, Early Fusion, 3D CNN์ ๊ตฌ์กฐ์ ์ฐจ์ด์ ์ ๋น๊ตํ ๊ฒ์ ๋๋ค. ์ด ํ ์ด๋ธ์ ๊ฐ ๋ ์ด์ด์ ์ ๋ ฅ ํฌ๊ธฐ, ์์ฉ ์์ญ(Receptive Field), ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ด ์๊ฐ๊ณผ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
-
Late Fusion
- ๊ตฌ์กฐ:
- ์
๋ ฅ ๋ฐ์ดํฐ๋
3 x 20 x 64 x 64
ํ ์์ ๋๋ค. ์ฌ๊ธฐ์ 3์ ์ฑ๋ ์(RGB), 20์ ํ๋ ์ ์(Time), 64 x 64๋ ๊ณต๊ฐ์ ํด์๋(Image Size)์ ๋๋ค. - ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋ 2D Conv (3x3 ํํฐ, ์ถ๋ ฅ ์ฑ๋ 12๊ฐ)๋ก, ๊ฐ ํ๋ ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด ๋ ์ด์ด๋ ์๊ฐ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ , ๊ณต๊ฐ์ ํน์ง๋ง ์ถ์ถํฉ๋๋ค.
- ์ดํ ํ๋ง(Pooling)์ ํตํด ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ถ์ํ ๋ค, ๋ ๋ค๋ฅธ 2D Conv ๋ ์ด์ด๋ฅผ ํตํด ๊ณต๊ฐ์ ์์ฉ ์์ญ์ ํ์ฅํฉ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก Global Average Pooling ๋ ์ด์ด๋ฅผ ํตํด ๋ชจ๋ ๊ณต๊ฐ ๋ฐ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ถ๋ ฅํฉ๋๋ค. (
Late Fusion
)
- ์
๋ ฅ ๋ฐ์ดํฐ๋
- ํน์ง:
- ์๊ฐ ์ ๋ณด ๊ฒฐํฉ: ์ ์ฒด ๋คํธ์ํฌ์์ ์๊ฐ ์ ๋ณด๋
๋ง์ง๋ง Global Average Pooling์์ ํ ๋ฒ์ ๊ฒฐํฉ
๋ฉ๋๋ค. - ๊ณต๊ฐ ์ ๋ณด ๊ฒฐํฉ: ์ฌ๋ฌ ๋ ์ด์ด์ ๊ฑธ์ณ ์ฒ์ฒํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
- ์๊ฐ ์ ๋ณด ๊ฒฐํฉ: ์ ์ฒด ๋คํธ์ํฌ์์ ์๊ฐ ์ ๋ณด๋
- ๊ตฌ์กฐ:
-
Early Fusion
- ๊ตฌ์กฐ:
- ์
๋ ฅ ๋ฐ์ดํฐ๋
3 x 20 x 64 x 64
ํ ์์ ๋๋ค. - ์ฒซ ๋ฒ์งธ 2D Conv ๋ ์ด์ด์์ ์๊ฐ ์ถ(T)์ ์ฑ๋ ์ถ(C)์ ํฉ์น ํ(์: 3 ์ฑ๋์ด ์๋ 3x20=60 ์ฑ๋), ์ด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์ฆ,
์ฒ์๋ถํฐ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉ
ํฉ๋๋ค. (Early Fusion
) - ์ดํ ํ๋ง(Pooling)๊ณผ 2D Conv ๋ ์ด์ด๋ฅผ ํตํด ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ณ , Global Average Pooling์์ ์ต์ข ์ถ๋ ฅ์ ๋ง๋ญ๋๋ค.
- ์
๋ ฅ ๋ฐ์ดํฐ๋
- ํน์ง:
- ์๊ฐ ์ ๋ณด ๊ฒฐํฉ: ์ฒซ ๋ฒ์งธ ๋ ์ด์ด์์ ์๊ฐ ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ฒฐํฉํฉ๋๋ค.
- ๊ณต๊ฐ ์ ๋ณด ๊ฒฐํฉ: ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ ํ ์ฌ๋ฌ ๋ ์ด์ด๋ฅผ ๊ฑฐ์ณ ์ฒ์ฒํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
- ๋จ์ : ์๊ฐ ์ ๋ณด๋ฅผ ์ด๊ธฐ ๋จ๊ณ์์ ๊ฒฐํฉํ๋ฏ๋ก, ์ด๊ธฐ์ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ์ด ์กด์ฌํฉ๋๋ค.
- ๊ตฌ์กฐ:
-
3D CNN (Slow Fusion)
- ๊ตฌ์กฐ:
- ์
๋ ฅ ๋ฐ์ดํฐ๋
3 x 20 x 64 x 64
ํ ์๋ก ์์ํฉ๋๋ค. - ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋ 3D Conv (3x3x3 ํํฐ, ์ถ๋ ฅ ์ฑ๋ 12๊ฐ)๋ฅผ ์ฌ์ฉํ์ฌ, ์๊ฐ ๋ฐ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๋์์ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ดํ์ ํ๋ง๊ณผ 3D Conv ๋ ์ด์ด๋ ๋์ผํ๊ฒ 3์ฐจ์ ๊ณต๊ฐ(2D ๊ณต๊ฐ + ์๊ฐ ์ถ)์ ์ฒ๋ฆฌํ๋ฉฐ, ์ฒ์ฒํ ์๊ฐ ๋ฐ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
- ์
๋ ฅ ๋ฐ์ดํฐ๋
- ํน์ง:
- ์๊ฐ ๋ฐ ๊ณต๊ฐ ์ ๋ณด ๊ฒฐํฉ: ๋คํธ์ํฌ ์ ์ฒด์์ ์๊ฐ๊ณผ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ฒ์ฒํ ๊ฒฐํฉํฉ๋๋ค. ์ด ๋ฐฉ์์ โSlow Fusionโ์ด๋ผ๊ณ ํฉ๋๋ค.
- ์ฅ์ : ๊ณต๊ฐ๊ณผ ์๊ฐ ์ ๋ณด๋ฅผ ๋์์ ๊ฒฐํฉํ์ฌ ๋ณด๋ค ์ ํํ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค. ํนํ ๋ณต์กํ ์๊ฐ์ ํจํด์ ๋ค๋ฃฐ ๋ ์ ๋ฆฌํฉ๋๋ค.
- ๊ตฌ์กฐ:
โ Early Fusion vs 3D CNN
1. Conv2D(3x3, 3*20->12):
- ์ฌ๊ธฐ์
3x3
์ ํํฐ์ ํฌ๊ธฐ์ด๋ฉฐ,3*20
์ ๊ฒฐํฉ๋ ์ ๋ ฅ ์ฑ๋์ ์(3 RGB ์ฑ๋ x 10 ํ๋ ์ = 30),->12
์์ 12๋ ์ถ๋ ฅ ์ฑ๋(ํํฐ)์ ์์ ๋๋ค.- ์ถ๋ ฅ ์ฑ๋์ด 12๊ฐ๋ผ๋ ๊ฒ์, ์ด ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๊ฐ 12๊ฐ์ ์๋ก ๋ค๋ฅธ ํํฐ๋ฅผ ํ์ตํ๊ณ , ๊ฐ๊ฐ์ ํํฐ๊ฐ
3x3
ํฌ๊ธฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ ์ฉ๋๋ค๋ ์๋ฏธ์ ๋๋ค.๋ชจ๋ ํ๋ ์์ ๊ฒฐํฉํ์ฌ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ฏ๋ก, ์๊ฐ ์ถ์ ์ ๋ณด๋ฅผ ๋จ์ผ ๋ ์ด์ด์์ ์์ ํ ๊ฒฐํฉํด ๋ฒ๋ฆฝ๋๋ค.
2. Conv3D(3x3x3, 3 -> 12):
- ์ด ๊ฒฝ์ฐ,
3x3x3
ํํฐ๊ฐ 3D ๊ณต๊ฐ(์๊ฐ ํฌํจ)์ ํตํด ์ด๋ํ๋ฉด์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.- ์ ๋ ฅ ์ฑ๋์ด 3๊ฐ์ด๋ฏ๋ก, ์ด ๋ ์ด์ด์๋ 12๊ฐ์ ํํฐ๊ฐ ๊ฐ 3๊ฐ์ ์ ๋ ฅ ์ฑ๋์ ์ ์ฉ๋ฉ๋๋ค. ์ฌ๊ธฐ์๋ ์ถ๋ ฅ ์ฑ๋์ ์๋ 12๋ก, ์ด๋ ์ค๊ณ์๊ฐ ์ง์ ํ ๊ฐ์ ๋๋ค.
ํํฐ๊ฐ ์๊ฐ ์ถ์ ๋ฐ๋ผ ์ฌ๋ผ์ด๋ํ๋ฉด์ ์๊ฐ์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
4. ์ถ๊ฐ์ ์ ๊ทผ๋ฒ
-
์์ ๋น๋์ค ๋ฐ์ดํฐ์ : Sports-1M:
- Google์์ ์ ์ํ Sports-1M ๋ฐ์ดํฐ์ ์ 1๋ฐฑ๋ง ๊ฐ์ YouTube ์คํฌ์ธ ๋น๋์ค๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์ผ๋ก, ๋ค์ํ ์คํฌ์ธ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ ์ด๋ธ๋ง๋์ด ์์ต๋๋ค.
-
์ด ๋ฐ์ดํฐ์ ์ ๋น๋์ค ๋ถ๋ฅ ์์ ์ ๋์ ์ ์ ๋ณด์ฌ์ค๋๋ค. ํนํ, ๋จ์ผ ํ๋ ์ ๋ถ๋ฅ๊ธฐ, Late Fusion, Early Fusion, 3D CNN ๋ฑ์ ์ ๊ทผ๋ฒ์ ํตํด ๋น๋์ค ๋ถ๋ฅ์ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์์ต๋๋ค.
- ๋จ์ผ ํ๋ ์ ๋ถ๋ฅ๊ธฐ๊ฐ 77% ์ด์์ ์ ํ๋๋ฅผ ๋ณด์ฌ ๋จ์ํ ์ ๊ทผ๋ฒ์ด ๋งค์ฐ ๊ฐ๋ ฅํจ์ ์ ์ฆํ์ผ๋, Late Fusion๊ณผ 3D CNN์ ์กฐ๊ธ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
-
C3D: 3D CNN์ VGGNet:
-
C3D๋ VGG ๋คํธ์ํฌ์ ์ ์ฌํ๊ฒ 3x3x3 ์ปจ๋ณผ๋ฃจ์ ๊ณผ 2x2x2 ํ๋ง์ผ๋ก ๊ตฌ์ฑ๋ ๋จ์ํ 3D CNN ์ํคํ ์ฒ์ ๋๋ค.
-
์ด ๋ชจ๋ธ์ Sports-1M์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ, ๋ง์ ๋น๋์ค ์ธ์ ์์ ์์ ์ฌ์ฉ๋์์ต๋๋ค.
-
๊ทธ๋ฌ๋ ๊ณ์ฐ ๋น์ฉ์ด ๋งค์ฐ ๋์ ์คํํ๊ธฐ ์ด๋ ค์ด ๋จ์ ์ด ์์ต๋๋ค. (3x3x3 conv is very expensive!)
AlexNet
: 0.7 GFLOPVGG-16
: 13.6 GFLOPC3D
: 39.5 GFLOP (VGG์ ์ฝ 2.9๋ฐฐ!!)
-
๐ Measuring Motion์ ์ธก์ ํ ๋ฐฉ๋ฒ์ด ์์๊น? => Optical Flow
โ๏ธ Optical Flow๋ ์ฐ์๋ ์ด๋ฏธ์ง ํ๋ ์์์ ๊ฐ ํฝ์ ์ ์์ง์์ ์ถ์ ํ๋ ๊ธฐ์ ๋ก, ์ด๋ฏธ์ง์์์ ์์ง์์ ๊ฐ์งํ๊ณ ๊ทธ ๋ฐฉํฅ๊ณผ ์๋๋ฅผ ๋ฒกํฐ ํ๋๋ก ํํํ์ฌ ์๊ฐํํฉ๋๋ค. ์ด ๊ธฐ์ ์ ์ฃผ๋ก ๋น๋์ค ์ฒ๋ฆฌ, ๋์ ์ธ์, ๋น๋์ค ์์ ํ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฌ์ฉ๋ฉ๋๋ค.
- ๊ธฐ๋ณธ ๊ฐ๋ :
- Optical Flow๋ ํน์ ์๊ฐ ttt์์์ ์ด๋ฏธ์ง ItI_tItโ์ ๋ค์ ์๊ฐ t+1t+1t+1์์์ ์ด๋ฏธ์ง It+1I_{t+1}It+1โ ์ฌ์ด์์ ๊ฐ ํฝ์ ์ด ์ด๋ป๊ฒ ์ด๋ํ๋์ง๋ฅผ ๋ํ๋ด๋ ๋ฒกํฐ ํ๋๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- Optical Flow๋ ๊ฐ ํฝ์ ์ ์ด๋์ ๋ํ๋ด๋ ๋ฒกํฐ F(x,y)=(dx,dy)F(x, y) = (dx, dy)F(x,y)=(dx,dy)๋ฅผ ์์ฑํฉ๋๋ค.
- ์ด ๋ฒกํฐ๋ ํฝ์ ์ด ํ๋ ์ ttt์์ t+1t+1t+1๋ก ์ด๋ํ ๋ ์ผ๋ง๋ ์์ง์๋์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค.
- ์ฃผ์ ํ์ฉ:
์์ง์ ๊ฐ์ง
: ๋น๋์ค์์ ํน์ ๋ฌผ์ฒด๊ฐ ์ด๋ป๊ฒ ์์ง์ด๋์ง ์ถ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.๋์ ๋ถ์
: ์ฌ๋์ ๋์์ ๋ถ์ํ๊ณ ํน์ ํ๋์ ์ธ์ํ ์ ์์ต๋๋ค.๋น๋์ค ์์ ํ
: ํ๋ ์ ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ณด์ ํ์ฌ ๋น๋์ค๋ฅผ ์์ ํํ ์ ์์ต๋๋ค.- ๊ณ์ฐ ๊ณผ์ :
ํ๋ ์ ์ ํ
: ์ฐ์๋ ๋ ํ๋ ์์ ์ ํํฉ๋๋ค.๋ฐ๊ธฐ ์ฐจ์ด ๊ณ์ฐ
: ํฝ์ ์ ๋ฐ๊ธฐ ๋ณํ๊ฐ ์๋ค๋ ๊ฐ์ ํ์, ํ๋ ์ ๊ฐ์ ํฝ์ ์์น ๋ณํ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์์: I(x,y,t)=I(x+dx,y+dy,t+1)I(x, y, t) = I(x + dx, y + dy, t + 1)I(x,y,t)=I(x+dx,y+dy,t+1)
๋ฒกํฐ ํ๋ ์์ฑ
: ๊ณ์ฐ๋ ์ด๋ ๋ฒกํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฒด ํ๋ ์์ ๋ํ ์์ง์ ๋ฒกํฐ ํ๋๋ฅผ ๋ง๋ญ๋๋ค.์๊ฐํ:
Optical Flow๋ ์ํ ์ด๋ dxdxdx์ ์์ง ์ด๋ dydydy๋ฅผ ์๊ฐํํ ์ ์์ต๋๋ค. ์ด๋ ๋์์์์ ๋ฌผ์ฒด์ ์์ง์์ ํ์ ํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
-
Separating Motion and Appearance: Two-Stream Networks:
- Two-Stream Networks๋ ๋์ ์ธ์๊ณผ ๊ฐ์ ๋น๋์ค ๋ถ์ ์์ ์์ โMotionโ๊ณผ โAppearanceโ๋ฅผ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ์ ๋๋ค.
-
์ฌ๊ธฐ์
Optical Flow
๋ Temporal Stream์์ ์์ง์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค. -
Two-Stream Network ๊ตฌ์กฐ:
๋ ์คํธ๋ฆผ์ด ๊ฐ๊ฐ ๋ค๋ฅธ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ฏ๋ก, ๊ฐ๊ฐ์ CNN์ ์์ ์๊ฒ ์ฃผ์ด์ง ์ ๋ ฅ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ง๋ ํจํด์ ํ์ตํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ ๋คํธ์ํฌ๊ฐ ์๋ก ๋ณด์์ ์ธ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๊ฒ ๋ง๋๋ ์ค์ํ ์์์ ๋๋ค.
Spatial Stream
: ๋จ์ผ ํ๋ ์์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ, ์ ์ ์ธ ์ธํ ์ ๋ณด(๊ฐ์ฒด์ ๋ชจ์, ์์, ๋ฐฐ๊ฒฝ ๋ฑ)๋ฅผ ํ์ตํฉ๋๋ค. ์ด ์คํธ๋ฆผ์ ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ฌ์ฉ๋๋ ์ ํต์ ์ธ CNN ์ํคํ ์ฒ์ ์ ์ฌํฉ๋๋ค.Temporal Stream
: ์ฐ์๋ ํ๋ ์๋ค ๊ฐ์ Optical Flow๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ, ๋น๋์ค ๋ด์ ์์ง์ ์ ๋ณด๋ฅผ ํ์ตํฉ๋๋ค. Optical Flow๋ ํน์ ํ๋ ์ ์ฌ์ด์ ์์ง์ ๋ฒกํฐ ํ๋์ด๋ฏ๋ก, ์์ง์์ ๋ฐฉํฅ์ฑ๊ณผ ์๋ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
-
Two-Stream Network ๊ณ์ฐ:
- ๋น๋์ค์์ ์ฌ๋ฌ ์ฐ์๋ ํ๋ ์์ ๊ฐ์ ธ์ด.
- ์ฐ์๋ ๋ ํ๋ ์ ์ฌ์ด์์ Optical Flow๋ฅผ ๊ณ์ฐํ์ฌ ์์ง์ ๋ฒกํฐ ํ๋๋ฅผ ์์ฑ.
- ๊ณ์ฐ๋ Optical Flow๋ฅผ Temporal Stream์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ.
- Spatial Stream๊ณผ Temporal Stream์ ์ถ๋ ฅ์ ๊ฒฐํฉ(Fusion)๋์ด ์ต์ข ํด๋์ค๋ฅผ ์์ธก.
๐ค Q. ์ Optical Flow์ Input์ 2(T-1)์ธ๊ฐ
Optical Flow ์ ๋ ฅ์ ๊ณ์ฐ ๋ฐฉ์
- T๋ ๋น๋์ค์์ ์ ํ๋ ์ฐ์๋ ํ๋ ์์ ์๋ฅผ ์๋ฏธํฉ๋๋ค.
- T-1์ Optical Flow ๋ฒกํฐ ํ๋๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ํ์ํ ํ๋ ์ ์์ ์๋ฅผ ์๋ฏธํฉ๋๋ค. ์๋ฅผ ๋ค์ด, T๊ฐ์ ํ๋ ์์ด ์๋ค๋ฉด, ๊ทธ ์ค ๋ ํ๋ ์์ฉ ์ง์ ์ง์ด T-1๊ฐ์ Optical Flow๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค.
- Optical Flow๋ ์ผ๋ฐ์ ์ผ๋ก ๋ ๊ฐ์ ์ฑ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: ์ํ(x) ๋ฐฉํฅ ์ฑ๋ถ๊ณผ ์์ง(y) ๋ฐฉํฅ ์ฑ๋ถ. ๋ฐ๋ผ์ ๊ฐ ํ๋ ์ ์์์ ๋ ๊ฐ์ ์ฑ๋์ด ์์ฑ๋๋ฏ๋ก, T-1๊ฐ์ ํ๋ ์ ์์์ ์ด 2*(T-1)๊ฐ์ ์ฑ๋์ด ๋ง๋ค์ด์ง๋๋ค.
2
: Optical Flow๊ฐ ๋ ๊ฐ์ ์ฑ๋(์ํ ๋ฐ ์์ง ์ฑ๋ถ)๋ก ๊ตฌ์ฑ๋๊ธฐ ๋๋ฌธ์ ๋๋ค.(T-1)
: ์ฐ์๋ ๋ ํ๋ ์ ์ฌ์ด์์ Optical Flow๋ฅผ ๊ณ์ฐํ๋๋ฐ ํ์ํ ํ๋ ์ ์์ ์์ ๋๋ค.
-
Recurrent Neural Network (RNN):
-
์ฅ์ :
- ์ฅ๊ธฐ ์ํ์ค ์ฒ๋ฆฌ์ ๊ฐํจ: RNN์ ์ด์ ์๊ฐ ๋จ๊ณ์ ์จ๊ฒจ์ง ์ํ๋ฅผ ๊ธฐ์ตํ๋ฉฐ, ์ด๋ ๊ธด ์ํ์ค์์ ์ ์ฉํฉ๋๋ค. ํ ์ธต์ RNN ๋ ์ด์ด๊ฐ ์ ์ฒด ์ํ์ค๋ฅผ โ๋ณผโ ์ ์๊ฒ ๋ฉ๋๋ค.
-
๋จ์ :
- ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ถ๊ฐ๋ฅ: RNN์ ์ํ์ค์ ๊ฐ ์๊ฐ ๋จ๊ณ์์ ์จ๊ฒจ์ง ์ํ๋ฅผ ์์ฐจ์ ์ผ๋ก ๊ณ์ฐํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ํฉํ์ง ์์ต๋๋ค. ์ด๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋นํจ์จ์ ์ ๋๋ค.
-
๋น๋์ค ์์ ์์์ ํ์ฉ:
- CNN๊ณผ RNN์ ๊ฒฐํฉํ๊ฑฐ๋ Recurrent CNN์ ์ฌ์ฉํด ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
-
๊ธฐ์กด RNN๊ณผ ์ฐจ์ด: Recurrent Convolutional Network (RCN)์์ ์ ๋ณด๊ฐ ์ ๋ฐ์ดํธ๋๋ ๊ณผ์ ์ ๊ธฐ์กด RNN๊ณผ ์ ์ฌํ์ง๋ง, ์ค์ํ ์ฐจ์ด์ ์ ํ๋ ฌ ๊ณฑ์ (matmul) ๋์ 2D ํฉ์ฑ๊ณฑ ์ฐ์ฐ(Convolution)์ ์ฌ์ฉํ๋ค๋ ์ ์ ๋๋ค.
-
-
1D Convolution:
- ์ฅ์ :
- ๊ณ ๋๋ก ๋ณ๋ ฌํ ๊ฐ๋ฅ: ์ํ์ค์ ๊ฐ ์ถ๋ ฅ์ด ๋ ๋ฆฝ์ ์ผ๋ก ๊ณ์ฐ๋ ์ ์์ด ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ ํ์ต๊ณผ ์ถ๋ก ์๋์ ์ ๋ฆฌํฉ๋๋ค.
- ๋จ์ :
- ์ฅ๊ธฐ ์ํ์ค์ ๋ถ๋ฆฌํจ: ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ค๋ฉด ๋ง์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ์์์ผ ํ๋ฉฐ, ์ด๋ ๋ณต์ก์ฑ์ ์ฆ๊ฐ์ํต๋๋ค. ์ฅ๊ธฐ์ ์ธ ์๊ฐ ์์กด์ฑ์ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
- ๋น๋์ค ์์
์์์ ํ์ฉ:
- 3D Convolution์ ํตํด ๋น๋์ค์ ๊ณต๊ฐ์ (Spatial) ๋ฐ ์๊ฐ์ (Temporal) ์ ๋ณด๋ฅผ ๋์์ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ฅ์ :
-
Self-Attention:
-
์ฅ์ :
- ์ฅ๊ธฐ ์ํ์ค ์ฒ๋ฆฌ์ ๊ฐํจ: Self-Attention์ ์ํ์ค์ ๋ชจ๋ ์ ๋ ฅ ๋ฒกํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํด, ๊ฐ ์ถ๋ ฅ์ด ํ ๋ฒ์ ๊ณ์ฐ์ผ๋ก ์ ์ฒด ์ํ์ค๋ฅผ โ๋ณผโ ์ ์๊ฒ ํฉ๋๋ค. ๋ฐ๋ผ์ ์ฅ๊ธฐ์ ์ธ ์๊ฐ ์์กด์ฑ์ ์ ์ฒ๋ฆฌํฉ๋๋ค.
- ๊ณ ๋๋ก ๋ณ๋ ฌํ ๊ฐ๋ฅ: ๋ชจ๋ ์ถ๋ ฅ์ด ๋ณ๋ ฌ๋ก ๊ณ์ฐ๋ ์ ์์ด, ๊ณ์ฐ ํจ์จ์ด ๋์ต๋๋ค.
-
๋จ์ :
- ๋ฉ๋ชจ๋ฆฌ ์๋ชจ ํผ: ์ํ์ค์ ๋ชจ๋ ์์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ ์๋ชจ๊ฐ ํฌ๊ณ , ํนํ ๊ธด ์ํ์ค์์๋ ๋ถ๋ด์ด ๋ ์ ์์ต๋๋ค.
-
๋น๋์ค ์์ ์์์ ํ์ฉ:
- Self-Attention ๊ธฐ๋ฒ์ ๋น๋์ค ๋ถ์์์
์ฅ๊ธฐ์ ์ธ ์๊ฐ ์์กด์ฑ
๊ณผ๋ณต์กํ ๊ณต๊ฐ์ ๊ด๊ณ
๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
- Self-Attention ๊ธฐ๋ฒ์ ๋น๋์ค ๋ถ์์์
-
5. ๋ชจ๋ธ ์ต์ ํ ๋ฐ ์ต์ ๊ธฐ์
Spatio-Temporal Self-Attention (Nonlocal Block)
Nonlocal Block
-
Nonlocal Block:
- 3D CNN ๊ตฌ์กฐ ๋ด์ ์ถ๊ฐํ ์ ์๋ Nonlocal Block ๋ธ๋ก์ ํตํด, ๊ณต๊ฐ์ ๋ฐ ์๊ฐ์ ์ฐจ์์์ ๋ชจ๋ ์์น ๊ฐ์ ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํ์ฌ ์ฅ๊ธฐ์ ์ธ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ณต์กํ ๋น๋์ค ๋ฐ์ดํฐ์ ์ธ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
-
Nonlocal Block ๊ตฌ์กฐ:
Nonlocal Block
: Nonlocal Block์ 1x1x1 ์ปจ๋ณผ๋ฃจ์ ์ ์ฌ์ฉํด ์ ๋ ฅ ํ ์์์ ์ฟผ๋ฆฌ(Query), ํค(Key), ๊ฐ(Value)์ ์์ฑํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ฟผ๋ฆฌ์ ํค ๊ฐ์ ์ ๊ณฑ(Dot Product)์ ํตํด Attention ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ ฅ ํ ์๋ฅผ ๊ฐ์คํฉํ์ฌ ์ต์ข ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.Residual Connection
: Nonlocal Block์ Residual Connection์ ํตํด ์ถ๊ฐ์ ์ธ ํ์ต ์์ด๋ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ด๋ ๊ธฐ์กด 3D CNN ์ํคํ ์ฒ์ ์ฝ๊ฒ ํตํฉํ ์ ์์ผ๋ฉฐ, ์ด๊ธฐ ๊ฐ์ค์น๋ฅผ ์ค์ ํ ๋ ๋ง์ง๋ง 1x1x1 ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด์ ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ์ด๊ธฐํํด ๋ธ๋ก์ ์ฒ์์๋ ํญ๋ฑ ํจ์๋ก ์๋ํ๋๋ก ์ค์ ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ Nonlocal Block์ ์ ์ง์ ์ผ๋ก ํตํฉํ ์ ์์ต๋๋ค.
-
Nonlocal Block ์ญํ :
-
๊ธ๋ก๋ฒ ๋ฌธ๋งฅ ์ดํด
: Non-local block์ ๋น๋์ค ์ ์ฒด์์ ๋ฐ์ํ๋ ์ฅ๊ธฐ์ ์ธ ์๊ณต๊ฐ์ ์์กด์ฑ์ ๋ชจ๋ธ๋งํฉ๋๋ค.- ๋น๋์ค์ ์ด๋ ํ ๋ถ๋ถ์์์ ๋ณํ๊ฐ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ฏธ์น๋ ์ํฅ์ ์ ์ญ์ ์ผ๋ก ํ์ตํ์ฌ, ๋ฉ๋ฆฌ ๋จ์ด์ง ํ๋ ์ ์ฌ์ด์ ์ํธ์์ฉ์ ์ดํดํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, ๋น๋์ค์ ์ด๋ฐ์ ๋ฐ์ํ ๋์์ด ํ๋ฐ๋ถ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
-
์ ์ญ์ ์ธ ํน์ง ํ์ต
: Non-local block์ ๋ชจ๋ ์์น ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ์ฌ ์ ์ฒด ๋น๋์ค์ ์ ์ญ์ ์ธ ํน์ง์ ํ์ตํฉ๋๋ค.- ์ด๋ CNN์ด ๊ฐ์ง๋ ์ง์ญ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- ์ฃผ๋ก ํน์ ํ๋ ์ ๋ด ๋๋ ์ฌ๋ฌ ํ๋ ์ ๊ฐ์ ์ ์ญ์ ์ธ ํจํด(์: ์ ์ฒด์ ์ธ ์์ง์ ๊ถค์ , ์ฅ๊ธฐ์ ์ธ ํ๋)์ ํ์ตํฉ๋๋ค.
-
3D-CNN์ด ์ ์์ง?
์ ๊ทธ๋ฆผ์ ๋์์๋ 3D CNN์ ์๋์ ๊ฐ์ ์ญํ ์ ์ํํฉ๋๋ค:
๋ก์ปฌํ ์๊ณต๊ฐ ํน์ง ์ถ์ถ
:- 3D-CNN์ ์ฐ์๋ ๋น๋์ค ํ๋ ์์์ ์งง์ ์๊ฐ ๋ด์ ์์ง์ ๋ฐ ๊ณต๊ฐ์ ํจํด์ ํ์ตํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์์ ํ๋๋ ๋์์ด๋ ๋ฌผ์ฒด์ ์์ ์ด๋๊ณผ ๊ฐ์ ์งง์ ์๊ฐ ๋์ ๋ฐ์ํ๋ ์์ง์์ ์ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
- CNN์ ํํฐ๋ ์ง์ญ์ ์ธ ํน์ง์ ํ์งํ๋ฉฐ, ์ด๋ฌํ ์ง์ญ์ ํน์ง์ ํฉ์ฑ๊ณฑ๊ณผ ํ๋ง์ ํตํด ์ ์ง์ ์ผ๋ก ๋ ๋์ ์์ค์ ์ถ์์ ํน์ง์ผ๋ก ๋ณํ๋ฉ๋๋ค.
๊ณ์ธต์ (hierarchical) ์ ๋ณด ์ฒ๋ฆฌ
:- 3D-CNN์ ์ฌ๋ฌ ๊ณ์ธต(layer)์ ํตํด ๋ก์ฐ๋ ๋ฒจ(low-level)์์ ํ์ด๋ ๋ฒจ(high-level)๊น์ง ํน์ง์ ์ถ์ถํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ์ ์์ค ํน์ง(์: ์์ง, ์ฝ๋)๋ถํฐ ๊ณ ์์ค์ ์๋ฏธ์ ์ ๋ณด(์: ๊ฐ์ฒด, ์ฅ๋ฉด)๋ฅผ ํ์ตํฉ๋๋ค.
์ด์ฒ๋ผ Spatio-Temporal Self-Attention (Nonlocal Block)
์ 3D-CNN
๊ณผ Non-local block
์ ์กฐํฉ์ ํตํด ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๋ก์ปฌ ์ ๋ณด์ ๊ธ๋ก๋ฒ ์ ๋ณด๋ฅผ ๋ชจ๋ ํ์ฉํ์ฌ ๋น๋์ค ์ดํด์ ์ ํ์ฑ์ ๋ํ๊ณ , ์ด๋ฅผ ํตํด ๋น๋์ค์ ๋ค์ํ ์๊ณต๊ฐ์ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
Inflated 2D Networks, I3D (2D ๋คํธ์ํฌ์ 3D ํ์ฅ)
2D -> 3D ํ์ฅ
: I3D ๋ชจ๋ธ์ ํต์ฌ์ 2D CNN์ ๊ณต๊ฐ์ ํํฐ๋ฅผ ์๊ฐ ์ถ์ผ๋ก ํ์ฅํ์ฌ 3D CNN์ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋๋ค. ์ด ํ์ฅ์ ๋จ์ํ ํํฐ๋ฅผ ๋ณต์ฌํ๋ ๊ฒ์ด ์๋๋ผ, ์๊ฐ ์ถ์ ๊ณ ๋ คํด ํ์ตํ๋๋ก ๋ง๋ญ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด, ์์์ ์๊ฐ์ ๋ณํ๋ฅผ ์บก์ฒํ ์ ์์ต๋๋ค.- ๊ธฐ์กด์ 2D CNN์์๋ ์ปค๋์ด Cin ร Kh ร Kw ํฌ๊ธฐ์ ํํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ Cin์ ์ ๋ ฅ ์ฑ๋ ์, Kh์ Kw๋ ๊ฐ๊ฐ ํํฐ์ ๋์ด์ ๋๋น๋ฅผ ์๋ฏธํฉ๋๋ค.
- ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด, ์ด ํํฐ๋ฅผ ์๊ฐ ์ถ์ผ๋ก ํ์ฅํฉ๋๋ค. ์ฆ, Kt๋ผ๋ ์๊ฐ ์ถ ํํฐ ํฌ๊ธฐ๋ฅผ ์ถ๊ฐํ์ฌ 3D ์ปจ๋ณผ๋ฃจ์ ํํฐ Cin ร Kt ร Kh ร Kw๋ฅผ ๋ง๋ญ๋๋ค.
์ ์ด ํ์ต(Transfer Learning)
: I3D๋ ImageNet๊ณผ ๊ฐ์ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์์ ํ์ต๋ 2D CNN์ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ๋น๋์ค ๋ฐ์ดํฐ์ ์์ 3D CNN์ ์ฒ์๋ถํฐ ํ์ตํ๋ ๊ฒ๋ณด๋ค ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ , ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.- ๊ฐ์ค์น ๋ณต์ฌ: 2D CNN์์ ํ์ต๋ ๊ฐ์ค์น(ํํฐ)๋ฅผ ์๊ฐ ์ถ์ผ๋ก ๋ณต์ฌํ์ฌ 3D CNN์ ๊ฐ์ค์น๋ก ํ์ฅํฉ๋๋ค. ์๋ฅผ ๋ค์ด, 2D CNN์ ํํฐ๊ฐ Kh ร Kw ํฌ๊ธฐ๋ผ๋ฉด, ์ด๋ฅผ Kt๋ฒ ๋ณต์ฌํ์ฌ Kt ร Kh ร Kw ํฌ๊ธฐ์ 3D ํํฐ๋ก ๋ณํํฉ๋๋ค.
- ๊ฐ์ค์น ๋๋๊ธฐ: ์๊ฐ ์ถ์ผ๋ก ํ์ฅ๋ ํํฐ์ ๊ฐ์ค์น๋ฅผ Kt๋ก ๋๋๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด, 2D CNN์์ ์ป์๋ ๋์ผํ ์ถ๋ ฅ ํน์ฑ์ ์ ์งํ๋ฉด์๋ ์๊ฐ ์ถ์ ๋ฐ์ํ 3D ํํฐ๋ฅผ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
์ฑ๋ฅ ๋น๊ต
: ์์ ์ฑ๋ฅ ๋น๊ต ๊ทธ๋ํ์ ๋ฐ๋ฅด๋ฉด, I3D๋ ์ ํต์ ์ธ 2D CNN๊ณผ ๋น๊ตํ ๋ ๋น๋์ค ๋ถ์์์ ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค. ํนํ, Top-1 ์ ํ๋์์ ํฐ ํฅ์์ ๋ณด์ ๋๋ค. ์ด๋ I3D์ ๊ตฌ์กฐ๊ฐ ๋น๋์ค์์์ ์๊ฐ์ ํน์ง์ ์ ํฌ์ฐฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
SlowFast Network
-
์๊ฐ์ ํด์๋: SlowFast Network์ ์ฃผ์ ํน์ง์ ์๋ก ๋ค๋ฅธ ์๊ฐ์ ํด์๋๋ฅผ ์ฌ์ฉํ๋ ๋ ๊ฐ์ ๊ฒฝ๋ก(Slow pathway์ Fast pathway)๋ฅผ ํตํด ๋น๋์ค๋ฅผ ๋ถ์ํ๋ค๋ ๊ฒ์ ๋๋ค.
-
Slow Pathway: ๋ฎ์ FPS (์: 30 FPS) - ๋น๋์ค์ ์ ์ฒด์ ์ธ ์ปจํ ์คํธ์ ๊ธด ์๊ฐ ํ๋ ์์ ํ์ต.
-
์ด ๊ฒฝ๋ก๋ ๋ฎ์ ํ๋ ์ ์๋๋ก ๋น๋์ค์ ์ ์ฒด์ ์ธ ์ปจํ ์คํธ๋ฅผ ํ์ตํ๋ ๋ฐ ์ด์ ์ ๋ง์ถฅ๋๋ค.
๐ ๋ฎ์ FPS: Slow Pathway๋ ๋น๋์ค์์ ์๋์ ์ผ๋ก ์ ์ ์์ ํ๋ ์์ ์ฌ์ฉํ์ฌ ๋น๋์ค๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋น 30๊ฐ์ ํ๋ ์๋ง ์ฒ๋ฆฌํ๋ค๋ฉด, ์ด๋ ๋น๋์ค์์ ๋ ๋น๋ฒํ ์ ๋ฐ์ดํธ๋ฅผ ์๋ฏธํฉ๋๋ค.
- ์ฃผ๋ก ๋น๋์ค์ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ์ ํ๋ฆ์ ์ดํดํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ฉฐ, ๋์ ์ฑ๋ ๊น์ด๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๋ ฅํ ํํ์ ํ์ตํฉ๋๋ค.
- ์ผ๋ฐ์ ์ผ๋ก ฮฑ(ํ๋ ์ ์๋ ๋น์จ)๋ 8๋ก ์ค์ ๋์ด, Fast Pathway๋ณด๋ค 8๋ฐฐ ๋๋ฆฐ ์๋๋ก ๋น๋์ค๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
-
-
Fast Pathway: ๋์ FPS (์: 240 FPS) - ๋น๋์ค์ ์ธ๋ถ์ ์ธ ๋์๊ณผ ์งง์ ์๊ฐ ๋ด์ ๋ณํ ํฌ์ฐฉ.
-
์ด ๊ฒฝ๋ก๋ ๋์ ํ๋ ์ ์๋๋ก ์ธ๋ถ์ ์ธ ์์ง์์ ํฌ์ฐฉํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
๐๋์ FPS: Fast Pathway๋ ๋น๋์ค์ ์ธ๋ฐํ ๋ณํ๋ฅผ ํฌ์ฐฉํ๊ธฐ ์ํด ๋งค์ฐ ๋์ FPS๋ก ๋น๋์ค๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋น 240๊ฐ์ ํ๋ ์์ ์ฒ๋ฆฌํ๋ค๋ฉด, ์ด๋ ์งง์ ์๊ฐ ๊ฐ๊ฒฉ ๋ด์ ์์ ๋ณํ๋ ํฌ์ฐฉํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
- ์ธ๋ถ์ ์ธ ๋์ ํจํด์ ๋น ๋ฅด๊ฒ ์บก์ฒํ๊ธฐ ์ํด ์ค๊ณ๋์์ผ๋ฉฐ, ์๋์ ์ผ๋ก ์ ์ ์ฑ๋์ ์ฌ์ฉํ์ฌ ๊ฐ๋ณ๊ฒ ๊ตฌ์ฑ๋ฉ๋๋ค.
- ์ฑ๋ ๋น์จ ฮธ๋ 1/8๋ก ์ค์ ๋์ด, Slow Pathway์ ๋นํด ์ ์ ์ฑ๋๋ก ๋์ํฉ๋๋ค.
-
-
- ์ธก๋ฉด ์ฐ๊ฒฐ(Lateral Connections): Slow pathway์ Fast pathway ๊ฐ์ lateral connections์ ๋ ๊ฒฝ๋ก ์ฌ์ด์ ์ ๋ณด๋ฅผ ๊ตํํ๋ฉฐ, ์๊ฐ์ ๋ค์ด๋๋ฏน์ค๋ฅผ ์ ํตํฉํ ์ ์๋๋ก ๋์์ค๋๋ค. ์ด๋ฅผ ํตํด ๋ณต์กํ ์๊ฐ์ ํจํด์ ๋ ์ ์ดํดํ ์ ์์ต๋๋ค.
- ํ
์ด๋ธ ํด์:
- ์๋ ๋น์จ(ฮฑ)๊ณผ ์ฑ๋ ๋น์จ(ฮฒ):
- ์๋ ๋น์จ(ฮฑ): Slow์ Fast ๊ฒฝ๋ก์ ํ๋ ์๋ ์ดํธ ์ฐจ์ด๋ฅผ ๋ํ๋ ๋๋ค. ฮฑ = 8์ Slow Pathway๊ฐ Fast Pathway๋ณด๋ค 8๋ฐฐ ์ ์ ํ๋ ์์ ์ฒ๋ฆฌํ๋ค๋ ์๋ฏธ์ ๋๋ค.
- ์ฑ๋ ๋น์จ(ฮฒ): Slow Pathway์ Fast Pathway ์ฌ์ด์ ์ฑ๋ ์ ๋น์จ์ ๋ํ๋ ๋๋ค. ฮฒ = 1/8์ Fast Pathway๊ฐ Slow Pathway๋ณด๋ค 8๋ฐฐ ์ ์ ์ฑ๋์ ์ฌ์ฉํ๋ค๋ ๋ป์ ๋๋ค
- ResNet-50 Backbone
- ResNet-50 ๋ฐฑ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์์ผ๋ฉฐ, ์ด๋ฅผ ํ์ฅํด ๋น๋์ค ๋ฐ์ดํฐ์์์ ์๊ฐ ๋ฐ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๋์์ ํ์ตํ๋๋ก ํ์ต๋๋ค.
- ์ ํ๋ ๊ฐ ๋จ๊ณ์์ ์ฌ์ฉํ๋ ์คํธ๋ผ์ด๋์ ์ถ๋ ฅ ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ๊ฐ ๊ฒฝ๋ก์์์ ํน์ฑ ์ถ์ถ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
- ์๊ฐ์ ํ๋ง X (No temporal pooling):
- ๋ชจ๋ ๋จ๊ณ์์ ์๊ฐ ์ฐจ์ ์ ๋ณด๋ฅผ ์ต๋ํ ๋ณด์กดํ๋ฉฐ, ์ต์ข ๋ ์ด์ด์์ ๊ธ๋ก๋ฒ ํ๊ท ํ๋ง๊ณผ ๊ฒฐํฉํ์ฌ ์์ธก์ ์ํํฉ๋๋ค.
- ์๋ ๋น์จ(ฮฑ)๊ณผ ์ฑ๋ ๋น์จ(ฮฒ):
๋ณธ ๊ฐ์๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ดํดํ๊ธฐ ์ํ ๋ค์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋น๊ตํ๊ณ , ๊ฐ๊ฐ์ ๋ชจ๋ธ์ด ์ด๋ค ์ํฉ์์ ํจ๊ณผ์ ์ธ์ง์ ๋ํด ์์ธํ ์ค๋ช ํฉ๋๋ค. ๋ฅ๋ฌ๋์ด ๋น๋์ค ๋ถ์์ ์ ์ฉ๋๋ ๋ฐฉ๋ฒ๊ณผ ๊ทธ ํ๊ณ๋ฅผ ํ์ ํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉํ ์๋ฃ์ ๋๋ค.