[Paper Review] EXAONE Path 2.0: Pathology Foundation Model with End-to-End Supervision
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-EXAONE-Path-2.0-Pathology-Foundation-Model-with-End-to-End-Supervision
1
PYEON, Myeongjang, et al. EXAONE Path 2.0: Pathology Foundation Model with End-to-End Supervision. arXiv preprint arXiv:2507.06639, 2025.
Abstract
๋์งํธ ๋ณ๋ฆฌํ์์ whole-slide images (WSIs)๋ gigapixel ๊ท๋ชจ๋ก ์ธํด ์ฒ๋ฆฌ๊ฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ๋ฐ๋ผ์ ๋๋ถ๋ถ์ ์ ๊ทผ๋ฒ์ self-supervised learning (SSL)์ ํตํด patch encoder๋ฅผ ํ๋ จ์ํจ ๋ค์, multiple instance learning (MIL) ๋๋ slide encoder๋ฅผ ํตํด patch-level embedding์ ์ง๊ณํ์ฌ downstream ์์ ์ ์ํํฉ๋๋ค. ๊ทธ๋ฌ๋ patch-level SSL์ mutation status ๋ฐ ๋ถ์ ํน์ฑ๊ณผ ๊ฐ์ biomarker ์์ธก์ ํ์์ ์ธ ๋ณต์กํ ๋๋ฉ์ธ ํนํ ํน์ฑ์ ๊ฐ๊ณผํ ์ ์์ต๋๋ค. SSL ๋ฐฉ๋ฒ๋ค์ ์์ patch-level ์์ญ์์ ์์ฐ ์ด๋ฏธ์ง ๋๋ฉ์ธ์ ์ํด ์ ํ๋ ๊ธฐ๋ณธ augmentation์๋ง ์์กดํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ SSL ๋ฐฉ๋ฒ๋ค์ ์์ ์ง๋ํ์ต ์ ๊ทผ๋ฒ๋ณด๋ค ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ๋จ์ด์ง๋ฉฐ, ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ๊ณ์ฐ ์์๊ณผ ๋ฐ์ดํฐ์ ์ด ํ์ํฉ๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ง์ ์ ์ธ slide-level ์ง๋ํ์ต ํ์์ patch-level representation์ ํ์ตํ๋ ๋ณ๋ฆฌํ foundation model์ธ EXAONE Path 2.0์ ์ ์ํฉ๋๋ค. ๋จ 37k๊ฐ์ WSI๋ง์ ํ๋ จ์ ์ฌ์ฉํ์ฌ, EXAONE Path 2.0์ 10๊ฐ์ biomarker ์์ธก ์์ ์์ ์ต์ฒจ๋จ ํ๊ท ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ๋ฐ์ด๋ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
Figure 1: ๋งค๊ฐ๋ณ์ ์์ ํ๋ จ์ ์ฌ์ฉ๋ WSI ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต. ํ๊ท AUROC๋ 10๊ฐ์ biomarker ์์ธก ์์ ์์ AUROC ์ ์๋ฅผ ํ๊ท ํ์ฌ ์ป์ด์ง๋๋ค. ์ฃผ๋ชฉํ ์ ์ EXAONE Path 2.0์ด ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ์ ์ ๋งค๊ฐ๋ณ์์ ์ ์ WSI๋ฅผ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋๋ค.
-
Introduction
๋์งํธ ๋ณ๋ฆฌํ์ AI ๊ธฐ๋ฐ ์๋ฃ ์ ํ๋ฆฌ์ผ์ด์ ์ ํต์ฌ ๋๋ฉ์ธ์ผ๋ก ๋ถ์ํ์์ผ๋ฉฐ, whole-slide images (WSIs)๋ gigapixel ๊ท๋ชจ๋ก ์ธํด ๋ ํนํ ๊ณ์ฐ์ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค. ํ์ฌ์ ์ ๊ทผ๋ฒ๋ค์ ์ผ๋ฐ์ ์ผ๋ก 2๋จ๊ณ ํจ๋ฌ๋ค์์ ๋ฐ๋ฆ ๋๋ค: DINO์ DINOv2์ ๊ฐ์ self-supervised learning ๋ฐฉ๋ฒ์ ํตํด patch-level encoder๋ฅผ ํ๋ จ์ํจ ๋ค์, downstream ์์ธก ์์ ์ ์ํด multiple-instance learning (MIL) ๋๋ slide-level encoder๋ฅผ ์ฌ์ฉํ์ฌ patch-level embedding์ ์ง๊ณํฉ๋๋ค.
์ด ํจ๋ฌ๋ค์์ ์ ๋งํจ์ ๋ณด์์ง๋ง, ๋์งํธ ๋ณ๋ฆฌํ ๋ถ์ผ์์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. Self-supervised patch-level pretraining์ mutation status ๋๋ ๊ธฐํ ๋ถ์ ํน์ฑ๊ณผ ๊ฐ์ biomarker ์์ธก์ ํ์์ ์ธ ๋ณต์กํ ๋๋ฉ์ธ ํนํ ํน์ฑ์ ํฌ์ฐฉํ๋ค๊ณ ๋ณด์ฅํ ์ ์์ต๋๋ค. Self-supervised learning (SSL) ๋ฐฉ๋ฒ๋ค์ด ์์ patch-level ์์ญ์์ ์์ฐ ์ด๋ฏธ์ง ๋๋ฉ์ธ์ ์ํด ์ ํ๋ ๊ธฐ๋ณธ augmentation์๋ง ์์กดํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ ์ด๋ฌํ ์ ๊ทผ๋ฒ๋ค์ ์์ ์ง๋ํ์ต ๋ฐฉ๋ฒ์ ๋นํด ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ๋จ์ด์ง๋ฉฐ, ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ๊ณ์ฐ ์์๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ด ํ์ํฉ๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ง์ ์ ์ธ slide-level ์ง๋ํ์ต ํ์์ patch-level representation์ ํ์ตํ๋ ๋ณ๋ฆฌํ foundation model์ธ EXAONE Path 2.0์ ์๊ฐํฉ๋๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ patch encoder ํ๋ จ ๋์ ์ฌ๋ฌ slide-level label์ ํตํฉํจ์ผ๋ก์จ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๋ฉฐ, ๋ชจ๋ธ์ด ์์์ ์ผ๋ก ๊ด๋ จ๋ ํน์ฑ์ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ EXAONE Path 2.0์ด ๊ฒฝ์ํ๋ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ค์ง์ ์ผ๋ก ์ ์ ํ๋ จ ์ํ์ ์๊ตฌํ๋ฉด์๋ ๋ชจ๋ ํ๊ฐ๋ ์์ ์์ ์ฐ์ํ ํ๊ท ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ณ์ฐ ๋ณ๋ฆฌํ์์ ์ค์ํ ๋ฐ์ ์ ๋ํ๋ ๋๋ค.
-
Modeling
2.1 Gigapixel ์ด๋ฏธ์ง ํ๋ จ์ ๊ธ์ง์ ๊ณ์ฐ ๋น์ฉ ๊ทน๋ณต
Gigapixel whole-slide image์ ๋ํ ํ๋ จ์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ๊ณผ ์ฒ๋ฆฌ ์๊ตฌ์ฌํญ์ผ๋ก ์ธํด ์๋นํ ๊ณ์ฐ์ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ hierarchical architecture ์ค๊ณ, curriculum learning, ๊ทธ๋ฆฌ๊ณ ํจ์จ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ๊ธฐ๋ฒ์ ์กฐํฉ์ ์ฌ์ฉํฉ๋๋ค.
Architecture ์ค๊ณ: ์ฐ๋ฆฌ๋ 3๋จ๊ณ Hierarchical Image Pyramid Transformer (HIPT) ์ํคํ ์ฒ๋ฅผ ์ฑํํฉ๋๋ค. ์ด hierarchical ์ค๊ณ๋ ์ ์ฒด ํด์๋์์ gigapixel ์ด๋ฏธ์ง๋ฅผ ์ง์ ์ฒ๋ฆฌํ๋ ๋์ ์ ์ง์ ์ผ๋ก ๋ ๋์ ์ถ์ํ ์์ค์์ patch๋ฅผ ์ฒ๋ฆฌํจ์ผ๋ก์จ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ค์ฌ ๋๊ท๋ชจ WSI์ ๋ ํจ์จ์ ์ธ ์ฒ๋ฆฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ ViT๋ ๊ฐ๋ณ patch๋ฅผ ์ฒ๋ฆฌํ๊ณ , ๋ ๋ฒ์งธ ๋จ๊ณ ViT๋ patch-level ํน์ฑ์ region-level representation์ผ๋ก ์ง๊ณํ๋ฉฐ, ์ธ ๋ฒ์งธ ๋จ๊ณ ViT๋ ๋ชจ๋ region-level ํน์ฑ์ ํตํฉํ์ฌ ์ ์ฒด slide๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
Curriculum Learning: ๋ชจ๋ ๋จ๊ณ์์ ๋์์ end-to-end ํ๋ จ์ ๊ณ์ฐ ๋ถ๋ด์ ๊ด๋ฆฌํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ ์ง์ ํด์๋ ์ค์ผ์ผ๋ง์ ํฌํจํ 2๋จ๊ณ curriculum learning ์ ๊ทผ๋ฒ์ ๊ตฌํํฉ๋๋ค. ์ฒซ ๋ฒ์งธ curriculum ๋จ๊ณ์์๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ ViT์ 256ร256 DINO loss๋ฅผ, ๋ ๋ฒ์งธ ๋จ๊ณ ViT์ 1024ร1024 DINO loss๋ฅผ ์ ์ฉํ์ฌ ์ ์ฒด 3๋จ๊ณ end-to-end ๊ณ์ฐ์ ์๊ตฌํ์ง ์๊ณ hierarchical visual representation์ ๊ตฌ์ถํฉ๋๋ค. ๋ค์ curriculum ๋จ๊ณ์์๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ ViT์ 256ร256 DINO loss๋ฅผ ๊ณ์ ์ ์ฉํ๋ฉด์ ๋ ๋ฒ์งธ ๋จ๊ณ ViT์ ๊ฒฝ์ฐ 4096ร4096 region์ผ๋ก ํ์ฅํ๊ณ , slide-level supervised cross-entropy loss๋ฅผ ๋์ ํ์ฌ ์ ์ฒด slide๋ฅผ ์ฒ๋ฆฌํ๋ ์ ์ฒด 3๋จ๊ณ ๋ชจ๋ธ์ gradient๋ฅผ ์ ํํฉ๋๋ค. ์ด curriculum ์ ๊ทผ๋ฒ์ ๋ชจ๋ ํ๋ จ ๋ฐ๋ณต์์ ์ต๋ ํด์๋๋ก ๋ชจ๋ ๋จ๊ณ๋ฅผ ์ฒ๋ฆฌํ ํ์๋ฅผ ํผํจ์ผ๋ก์จ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ํฌ๊ฒ ์ค์ ๋๋ค.
๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ: ์ ์ฒด WSI ์ฒ๋ฆฌ์ ๊ณ์ฐ ์๊ตฌ๋ฅผ ๋์ฑ ๊ด๋ฆฌํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ activation checkpointing๊ณผ CPU offloading ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ patch embedding์ GPU ๋ฉ๋ชจ๋ฆฌ์ ํ ๋ฒ์ ๋ก๋ํ๋ ๋์ , supervised loss ๊ณ์ฐ ์ค์ ํ์์ ๋ฐ๋ผ activation์ ๋์ ์ผ๋ก ๊ณ์ฐํ๊ณ ์ ์กํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ํ๋ จ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ์ฌํญ์ ํฌ๊ฒ ์ค์ฌ ์ ํ๋ ๊ณ์ฐ ์์์ผ๋ก gigapixel ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค.
2.2 ์ฌ๋ฌ Biomarker ์์ธก ์์ ์์ ์ผ๋ฐํ ๊ฐ๋ฅํ Representation ํ์ต
๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ ๋ค์ํ biomarker ์์ธก ์์ ์ ๊ฑธ์ณ ์ผ๋ฐํ๋๋ representation์ ํ์ตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ downstream ์์ ์ ์์ ์ํ early exit ์ ๋ต๊ณผ ๊ฒฐํฉ๋ multi-task learning ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Multi-Task Learning ํ๋ ์์ํฌ: ์ฐ๋ฆฌ๋ ์ฌ๋ฌ ์ํธ ๋ณด์์ ๋ชฉํ์ ๊ฑธ์ณ ๊ณต๋์ผ๋ก ์ต์ ํํ๋ multi-task learning ์ ๊ทผ๋ฒ์ ๊ตฌํํฉ๋๋ค. ์ฐ๋ฆฌ์ ํ๋ จ์ ์ธ ๊ฐ์ง ์ฃผ์ ์์ ๋ฒ์ฃผ๋ฅผ ํฌํจํฉ๋๋ค: (1) 33๊ฐ ์ ์ ํ์ ๊ฑธ์น ์ ์ํ ๋ถ๋ฅ, (2) 12๊ฐ ์ฅ๊ธฐ ์์คํ ์ ๊ฑธ์น ์กฐ์ง ์ ํ ๋ถ๋ฅ, (3) pan-cancer ๋ฐ ์ ํนํ mutation status, microsatellite instability, hormone receptor ์ํ ๋ถ๋ฅ๋ฅผ ํฌํจํ ๋ถ์ biomarker ์์ธก. ์ด multi-task learning ์ ๋ต์ ์ด๋ฌํ ๋ค์ํ ์์ธก ๋ชฉํ์ ๋ํด ๊ณต๋์ผ๋ก ์ต์ ํํ์ฌ ๋ชจ๋ธ์ด ์๋ฌผํ์ ์กฐ์ง์ ๋ค์ํ ๊ท๋ชจ์์ ๊ทผ๋ณธ์ ์ธ ๋ณ๋ฆฌํ์ ํจํด์ ํฌ์ฐฉํ๋ ๊ณต์ ๋ representation์ ํ์ตํ๋๋ก ๊ถ์ฅํฉ๋๋ค. ๊ณต๋ ์ต์ ํ๋ ๊ฐ๋ณ ์์ ์ ๋ํ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ฉด์ ์ ์ฒด downstream ์ ํ๋ฆฌ์ผ์ด์ ์คํํธ๋ผ์ ๊ฑธ์น ์ผ๋ฐํ๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
Downstream ์ ์์ ์ํ Early Exit ์ ๋ต: ์๊ท๋ชจ ๋ฐ์ดํฐ์ ๊น์ ๋คํธ์ํฌ ํ๊ฒฝ์์ ๊ณผ์ ํฉ์ ๋์ฑ ์ํํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ ์ฒด hierarchical ๋ชจ๋ธ๋ณด๋ค๋ early representation์ ํ์ฉํ๋ shallow network ์ ๊ทผ๋ฒ์ ์ฑํํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ๋ downstream ์์ ์ ์์ ์ํด Clustering-constrained Attention Multiple Instance Learning (CLAM)๊ณผ ๊ฒฐํฉ๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ ๋ชจ๋ธ์ ํ์ฉํฉ๋๋ค. ์ ์ฒด hierarchical network๋ฅผ fine-tuningํ๋ ๋์ , ์ด early exit ์ ๊ทผ๋ฒ์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ ๋ชจ๋ธ์ robustํ patch-level ํน์ฑ์ ์ฌ์ฉํ๋ฉด์ CLAM์ด ์ด๋ฌํ ํน์ฑ์ slide-level ์์ธก์ ์ํด ํจ์จ์ ์ผ๋ก ์ง๊ณํฉ๋๋ค. ์ด ์ ๋ต์ downstream ์์ ์ ์ ์ค ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ํฌ๊ฒ ์ค์ด๋ฉด์ ์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ณ๋ฆฌํ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ผ๋ฐ์ ์ผ๋ก ๊ด์ฐฐ๋๋ ๊ณผ์ ํฉ์ ํจ์ ์ ํผํฉ๋๋ค.
-
Experiments
3.1 Training Data
EXAONE Path 2.0์ 37,195๊ฐ์ Formalin-Fixed, Paraffin-Embedded (FFPE) Hematoxylin and Eosin (H&E) ์ผ์ WSI์์ ํ๋ จ๋ฉ๋๋ค. ์ด๋ฌํ WSI๋ 16๊ฐ ํ๋ จ ์์ ์ ๊ฑธ์ณ 144,450๊ฐ์ ์ด๋ฏธ์ง-๋ผ๋ฒจ ์์ ์์ฑํ๋ฉฐ, ๊ฐ WSI๋ ์ ์ํ ๋ถ๋ฅ, ์กฐ์ง ๋ถ๋ฅ, biomarker ์์ธก์ ํฌํจํ ๋ค์ํ ์์ธก ๋ชฉํ์ ํด๋นํ๋ ์ฌ๋ฌ ๋ผ๋ฒจ์ ๊ธฐ์ฌํฉ๋๋ค.
3.2 Baselines
์ฐ๋ฆฌ๋ slide-level ๋ถ๋ฅ์ ๋ํ slide-level ๋ฐ patch-level ์ ๊ทผ๋ฒ์ ๋ชจ๋ ๋ค๋ฃจ๊ธฐ ์ํด ๋ค์ํ foundation model ์ธํธ๋ฅผ baseline์ผ๋ก ์ ํํ์ต๋๋ค. Slide-level ๋ชจ๋ธ์ ๊ฒฝ์ฐ, downstream ์์ ์ ์ง์ ์ฌ์ฉํ ์ ์๋ slide-level representation์ ์์ฑํ๋ TITAN, PRISM, CHIEF, Prov-GigaPath๋ฅผ ํฌํจํ์ต๋๋ค. ๋ํ patch-level foundation model baseline์ผ๋ก EXAONE Path 1.0๊ณผ UNI2-h๋ฅผ ํฌํจํ์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ด slide์ ๊ตญ์์ ์์ญ์์ ์๋ํ์ง๋ง, ์ ์ ํ ์ง๊ณ ์ ๋ต๊ณผ ๊ฒฐํฉํ ๋ ๊ทธ๋ค์ ์ค๊ณ์ ์ด์ ์ ํ๋ฆฌ์ผ์ด์ ์ slide-level ์์ธก ์์ ๊ณผ ์์ฐ์ค๋ฝ๊ฒ ์ผ์นํฉ๋๋ค. ์ฐ๋ฆฌ์ ์คํ์์๋ slide-level ์์ธก์ ์์ฑํ๊ธฐ ์ํด patch-level ํน์ฑ์ CLAM ๊ธฐ๋ฐ ์ง๊ณ๊ธฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
3.3 Evaluation Protocols
๊ฐ ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ๋ foundation model ๋งค๊ฐ๋ณ์๋ฅผ ๊ณ ์ ํ ์ฑ ์ํคํ ์ฒ ์ค๊ณ์ ๋ฐ๋ผ slide-level ๋ถ๋ฅ๋ฅผ ์ํด fine-tuning๋์์ต๋๋ค. Slide-level foundation model์ ๊ฒฝ์ฐ, ๊ณ ์ ๋ backbone์ ์ํด ์์ฑ๋ slide-level representation ์์ ์ ํ ๋ถ๋ฅ ๋ ์ด์ด๋ฅผ ํ๋ จํ์ต๋๋ค. Patch-level foundation model์ ๊ฒฝ์ฐ, UNI์์ ์ ์๋ ์ ๊ทผ๋ฒ์ ์ฑํํ์ฌ patch-level ํน์ฑ์ CLAM ์ง๊ณ๊ธฐ๋ฅผ ์ ์ฉํ์ฌ slide-level ์์ธก์ ์์ฑํ์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ ์ํ ๋ชจ๋ธ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฒซ ๋ฒ์งธ ๋จ๊ณ ๋ชจ๋ธ์์ ์ถ์ถ๋ patch-level ํน์ฑ์ ํ์ฉํ๋ฉฐ, ์ดํ slide-level ์ถ๋ก ์ ์ํด CLAM์ ํตํด ์ง๊ณ๋ฉ๋๋ค. ๊ฐ ๋ฒค์น๋งํฌ ์์ ์ ์ฌ์ ์ ์๋ ํ๋ จ/ํ ์คํธ ๋ถํ ์์ ํ๊ฐ๋์์ผ๋ฉฐ, ๋ค์ํ ๋ฌด์์ ์๋๋ฅผ ๊ฐ์ง 4๋ฒ์ ๋ ๋ฆฝ์ ์ธ ํ๋ จ ์คํ์ ๋ํ ํ๊ท ์ฑ๋ฅ์ ๋ณด๊ณ ํฉ๋๋ค.
3.4 Slide-Level Benchmarks
๋ชจ๋ธ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด, ํ์ ์์ข , ์ ๋ฐฉ์, ๊ฒฐ์ฅ์ง์ฅ์, ์ ์ฅ์์ ํฌํจํ ๋ค์ํ ์ ๋ณ๋ณ์์ ํ์๋ ์ด 10๊ฐ์ slide-level ๋ฒค์น๋งํฌ ์์ ์ ๊ตฌ์ฑํ์ต๋๋ค. ์ด๋ฌํ ๋ฒค์น๋งํฌ๋ ๊ฐ์ธ ๋ฐ์ดํฐ์ ์์ 4๊ฐ ์์ ๊ณผ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์์ 6๊ฐ ์์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ ๋ค์์ฑ๊ณผ ๋ค์ํ ๋ฐ์ดํฐ ์์ค ๋ฐ ๊ธฐ๊ด์์์ ๋ชจ๋ธ ์ผ๋ฐํ๋ฅผ ๋ชจ๋ ํ๊ฐํ๊ธฐ ์ํด ์ ์คํ๊ฒ ์ ํ๋์์ต๋๋ค.
3.4.1 ๊ฐ์ธ ๋ฐ์ดํฐ์ ์ ๋ฒค์น๋งํฌ
์ด๋ฌํ ๋ฒค์น๋งํฌ๋ ํ๊ตญ์ ํ ์ข ํฉ๋ณ์(KOR)๊ณผ ๋ฏธ๊ตญ์ ๋ ์ข ํฉ๋ณ์(USA1, USA2)๊ณผ์ ํ๋ ฅ์ผ๋ก ์์ง๋ ๋ด๋ถ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๋ชจ๋ ๋ฐ์ดํฐ ์ฌ์ฉ์ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ํด๋น ๊ธฐ๊ด์ค๋ฆฌ์์ํ(IRB)์ ์น์ธ์ ๋ฐ์์ต๋๋ค. ๋ชจ๋ ๋ฐ์ดํฐ๋ ์ต๋ช ํ๋์ด ๋ด๋ถ ์ฌ์ฉ๋ง์ ์ํด ์ ๊ฒจ ์์ผ๋ฉฐ, ๋ด๋ถ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด์๋ง ์๊ฒฉํ๊ฒ ์ฌ์ฉ๋์์ต๋๋ค.
LUAD-TMB: ์ด ์์ ์ ํ์ ์์ข WSI์์ tumor mutation burden (TMB) ์ํ(high vs. low)๋ฅผ ์์ธกํฉ๋๋ค. TMB๋ DNA ์ํ์ฑ์์ ๋ฉ๊ฐ๋ฒ ์ด์ค๋น mutation ์๋ก ์ ์๋๋ฉฐ, high์ low๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด 10์ ์๊ณ๊ฐ์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ธ์ KOR-LUAD (low:high = 1063:287)์์ ํ๋ จ๋๊ณ , USA1-LUAD (137:117) ๋ฐ์ดํฐ์ ์์ ํ ์คํธ๋์์ต๋๋ค.
LUAD-EGFR: ์ด ์์ ์ ํ์ ์์ข ์์ EGFR mutation์ ์กด์ฌ๋ฅผ ๊ฐ์งํฉ๋๋ค. ์์์ ์ผ๋ก 2์ฐจ ์ด์์ mutation์ โmutatedโ๋ก ๋ผ๋ฒจ๋ง๋๊ณ , ๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ โwild typeโ์ผ๋ก ๋ผ๋ฒจ๋ง๋ฉ๋๋ค. ํ๋ จ์ KOR-LUAD (wild:mut = 1145:205)๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, USA1-LUAD (242:12)์์ ํ ์คํธ๋์์ต๋๋ค.
LUAD-KRAS: ์ด ์์ ์ EGFR์ ๋์ผํ ์์ mutation ๊ธฐ์ค์ ์ฌ์ฉํ์ฌ ํ์ ์์ข WSI์์ KRAS mutation์ ์๋ณํฉ๋๋ค. ํ๋ จ์ KOR1-LUAD (wild:mut = 1217:133)๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, USA2-LUAD (347:168)์์ ํ ์คํธ๋์์ต๋๋ค.
CRC-MSI: ์ด ์์ ์ ๊ฒฐ์ฅ์ง์ฅ์์ ์ข ์์ microsatellite instability (MSI) ์ํ๋ฅผ ๋ถ๋ฅํฉ๋๋ค. ๋ชจ๋ธ์ KOR-CRC (stable:instable = 2630:831)์์ ํ๋ จ๋๊ณ ๋์ผํ ๋ฐ์ดํฐ์ ์ ๋ณ๋ ๋ถ๋ถ(658:209)์์ ํ ์คํธ๋์์ต๋๋ค.
3.4.2 ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ๋ฒค์น๋งํฌ
์ด๋ฌํ ๋ฒค์น๋งํฌ๋ ๊ณ์ฐ ๋ณ๋ฆฌํ ์ฐ๊ตฌ์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ธ CPTAC์ ์ฌ์ฉํ์ฌ ๊ตฌ์ฑ๋์์ต๋๋ค.
BRCA-TP53, PIK3CA: ์ด๋ฌํ ์์ ์ ์ ๋ฐฉ์ WSI์์ TP53 ๋ฐ PIK3CA mutation ์ํ๋ฅผ ์์ธกํฉ๋๋ค. ๋ ์์ ๋ชจ๋ CPTAC-BRCA ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ฉฐ, TP53๋ train (wild:mut = 53:37), test (14:8)์ด๊ณ PIK3CA๋ train (58:33), test (14:7)์ ๋๋ค.
RCC-PBRM1, BAP1: ์ด๋ฌํ ์์ ์ clear cell renal cell carcinoma (CCRCC)์์ PBRM1 ๋ฐ BAP1 mutation ๊ฐ์ง์ ์ค์ ์ ๋ก๋๋ค. ๋ ๋ฒค์น๋งํฌ ๋ชจ๋ CPTAC-CCRCC ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ฉฐ, PBRM1์ train (wild:mut = 97:96), test (26:26)์ด๊ณ BAP1์ train (156:39), test (46:4)์ ๋๋ค.
COAD-KRAS, TP53: ์ด๋ฌํ ์์ ์ ๊ฒฐ์ฅ์ ์์ข ์์ KRAS ๋ฐ TP53 mutation ์ํ๋ฅผ ๋ถ๋ฅํฉ๋๋ค. ๋ ๋ค CPTAC-COAD ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ฉฐ, KRAS๋ train (wild:mut = 50:29), test (11:8)์ด๊ณ TP53์ train (53:27), test (12:6)์ ๋๋ค.
3.5 Evaluation Results
Table 1์ 10๊ฐ slide-level ๋ฒค์น๋งํฌ ์์ ์์ 7๊ฐ ๋ชจ๋ธ์ ๋น๊ต ์ฑ๋ฅ์ ์ ์ํฉ๋๋ค. ํ๊ฐ๋ ๋ชจ๋ ๋ชจ๋ธ ์ค์์ EXAONE Path 2.0์ ๊ฐ์ฅ ๋์ ์ ์ฒด ํ๊ท ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ๋ค์ํ ์กฐ์ง ์ ํ, ๊ธฐ๊ด, ์์ธก ๋์์ ๊ฑธ์น robustํ ์ ํ๋์ ์ผ๊ด๋ ์ผ๋ฐํ๋ฅผ ๋ชจ๋ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
ํ์ ์์ข ๊ด๋ จ ์์ ์์ EXAONE Path 2.0์ EGFR mutation ์์ธก์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, USA1-LUAD ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฅ ๋์ ์ ํ๋(0.853)๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. KRAS mutation ์์ ์์ ๋ชจ๋ธ์ USA2-LUAD ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์ฑ๋ฅ(0.645)์ ๊ธฐ๋กํ์ฌ ๋ค๋ฅธ ๋ชจ๋ baseline์ ๋ฅ๊ฐํ์ต๋๋ค. TMB ๋ถ๋ฅ์์ EXAONE Path 2.0์ EXAONE Path 1.0๊ณผ TITAN๋ณด๋ค ์ฝ๊ฐ ๋ค์ฒ์ง๊ธด ํ์ง๋ง ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ฒฐ์ฅ์ง์ฅ์ MSI ๋ถ๋ฅ์์ EXAONE Path 2.0์ ๋ค๋ฅธ foundation model๋ค๊ณผ ๋๋ฑํ ๋์ ์ ํ๋(0.938)๋ฅผ ์ ์งํ์ผ๋ฉฐ, ํ ์คํธ ์ธํธ์์ ์์ ์ ์ธ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ ๋ฐฉ์ ์์ ์์ ๋ชจ๋ธ์ ๋ชจ๋ mutation (TP53, PIK3CA) ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋๊ฒ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ์ต๋๋ค. ํญ์ ๊ฐ์ฅ ๋์ ์ ์๋ฅผ ๋ฌ์ฑํ์ง๋ ์์์ง๋ง, ์ ํ๋ ํ๋ จ ์ํ์ด ์๋ ๋์ ์ ์ธ ๋ถ๋ฅ ์๋๋ฆฌ์ค์์๋ ์ ๋ขฐํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
RCC ๋ฒค์น๋งํฌ์์ EXAONE Path 2.0์ BAP1 mutation ์์ ์์ ๋ช ํํ ์ฐ์์ฑ์ ๋ณด์์ผ๋ฉฐ ๊ฐ์ฅ ๋์ ์ ์(0.807)๋ฅผ ๋ฌ์ฑํ๊ณ , PBRM1 ๋ฒค์น๋งํฌ์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ฒฐ์ฅ์ ์์ข ๋ฒค์น๋งํฌ์์ ๋ชจ๋ธ์ KRAS ์์ธก์์ ๊ฑฐ์ ์ต์ ์ ๊ฐ๊น์ด ์ ์์ธ 0.912์ TP53 mutation ๋ถ๋ฅ์์ 0.875๋ฅผ ํฌํจํ์ฌ ์ต๊ณ ์์ค์ ๊ฒฐ๊ณผ์ ๋๋ฌํ์ต๋๋ค.
์ ๋ฐ์ ์ผ๋ก EXAONE Path 2.0์ ์ต๊ณ ์ ํ๊ท AUROC ์ ์๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ ๊ฑฐ์ ๋ชจ๋ ์์ ์์ ์์ 3์ ์์ ๋จธ๋ฌผ๋ ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ฐ๋ฆฌ์ ํตํฉ๋ hierarchical ํ๋ ์์ํฌ์ end-to-end ์ต์ ํ ์ ๋ต์ ์ด์ ์ ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆํ๋ฉฐ, EXAONE Path 2.0์ด ๊ด๋ฒ์ํ slide-level ๋ณ๋ฆฌํ ์์ ์ ์ํ ๊ฐ๋ ฅํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ foundation model ์ญํ ์ ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
๋ชจ๋ ๋ฒค์น๋งํฌ์ ๊ฑธ์น ์ ์ฒด์ ์ธ ๋น๊ต๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ radar ๋ฐ bar chart๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ์ฑ๋ฅ์ ์๊ฐํํ์ต๋๋ค(Figure 3). ์ฐจํธ๋ 10๊ฐ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์์ ๊ฐ ๋ชจ๋ธ์ AUROC๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฑ๋ฅ ์ผ๊ด์ฑ์ ์ง๊ด์ ์ธ ์ดํด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ณด์ฌ์ง ๋ฐ์ ๊ฐ์ด, EXAONE Path 2.0์ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋๊ฒ ๊ฐ๋ ฅํ ๋ฒ์๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ํน์ ์์ ์์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ด๋ ๋ค๋ฅธ ๋ง์ foundation model๋ค์ ๋นํด ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ๋ํ๋ ๋๋ค. EXAONE Path 2.0์ ์๊ฐ์ ์ผ๋ก ์ง๋ฐฐ์ ์ธ ํ๋กํ์ผ์ ๊ทธ๊ฒ์ ์ ๋์ ์ธ ํ๊ท ์ฑ๋ฅ์ ๊ฐํํ๊ณ ๋ฒ์ฉ slide-level foundation model๋ก์์ ์ ํฉ์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
-
Conclusion
์ฐ๋ฆฌ๋ ์ง์ ์ ์ธ slide-level ์ง๋ํ์ต ํ์์ patch-level representation์ ํ์ตํ๋ ๋ณ๋ฆฌํ foundation model์ธ EXAONE Path 2.0์ ์ ์ํ์ต๋๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ slide-level supervised signal์ด ๋ชจ๋ hierarchical ๋จ๊ณ๋ฅผ ํตํด ์ ํ๋๋๋ก ํ์ฌ ์์์ ์ผ๋ก ๊ด๋ จ๋ representation์ end-to-end ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ hierarchical architecture ์ค๊ณ, curriculum learning, activation checkpointing๊ณผ CPU offloading์ ํฌํจํ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ๊ธฐ๋ฒ์ ํตํด ๊ณ์ฐ์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ค์ํ biomarker ์์ธก ์์ ์ ๊ฑธ์น multi-task learning์ ์ฌ์ฉํ๊ณ ์๊ท๋ชจ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๊ณผ์ ํฉ์ ์ํํ๊ธฐ ์ํด early exit ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ EXAONE Path 2.0์ด ํ๋ จ์ ๋จ 37k WSI๋ง์ ์ฌ์ฉํ์ฌ 10๊ฐ biomarker ์์ธก ์์ ์์ ๊ฒฝ์๋ ฅ ์๋ ํ๊ท ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด foundation model๋ค์ ๋นํด ํฅ์๋ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ๋ชจ๋ธ์ ๋ค์ํ ์ ์ ํ๊ณผ ์์ธก ๋์์์ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ง์ ์ ์ธ slide-level ์ง๋ํ์ต์ด ์์์ ์ผ๋ก ๊ด๋ จ๋ ํน์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ผ๋ฉฐ, ์ฐ๋ฆฌ๊ฐ ์ ์ํ ๋ฐฉ๋ฒ๋ค์ด gigapixel ์ด๋ฏธ์ง ํ๋ จ์ ๊ณ์ฐ์ ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํด๊ฒฐํ์ฌ ๋ณ๋ฆฌํ foundation model์ ์ํ ์ค์ฉ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ๊ณตํจ์ ๋ณด์ฌ์ค๋๋ค.