세포 분류, 왜 분석할 때마다 달라졌을까…AI도 이긴 속도 혁신

scICE 단일세포 클러스터링 도구로 정확한 분석을 빠르게 하는 방법 scICE 단일세포 클러스터링 도구는 무작위 결과 문제를 해결하고, 분석 속도와 정확도를 동시에 잡은 생명과학 데이터 분석 혁신 기술입니다. 팟캐스트로 듣기 왜 단일세포 분석이 어려운가? 단일세포 전사체 분석(scRNA-seq)은 유전자 발현 차이를 세포 단위로 분석해 암세포, 희귀 세포, 새로운 세포 유형 등을 구분하는 핵심 기술입니다. 문제는 이 과정에서 사용하는 클러스터링 알고리즘이 무작위성(random seed) 을 포함한다는 것. 같은 데이터를 여러 번 분석하면 결과가 매번 달라질 수 있습니다. 기존 클러스터링 방식의 한계 기존 방법들은 분석을 여러 번 반복하고, 그 결과를 평균내는 식의 '합의 분석(consensus clustering)'을 사용합니다. 하지만 이 방식은 계산량이 방대하고, 수만 개의 세포를 다루는 대용량 데이터에는 적합하지 않습니다. 분석 한 번에 몇 시간이 걸리고, 해석도 복잡하죠. scICE 단일세포 클러스터링 도구가 해결한 것 기초과학연구원 김재경 CI 연구팀은 이 문제를 해결하기 위해 scICE(single-cell Inconsistency Clustering Estimator) 를 개발했습니다. 핵심은 ‘불일치 계수(IC)’라는 수학적 지표입니다. IC는 동일 데이터를 여러 번 분석했을 때 결과가 얼마나 일관된지를 1에 가까운 숫자로 나타냅니다. IC = 1이면 클러스터링 결과가 매우 안정적 이며, 이 숫자 하나로 결과의 신뢰도를 판단할 수 있습니다. 기존처럼 반복 분석이나 복잡한 설정 없이도 말이죠. 그래프 한 장으로 이해하는 scICE의 강점 아래 그림은 scICE가 실제 분석에서 어떻게 '안정적인 클러스터 수'를 자동으로 골라주는지 보여줍니다. 상단은 생쥐 지방조직(GWAT), 하단은 코로나19 감염 생쥐의 폐 데이터입니다. 왼쪽은 클러스터 수에 따른 IC 값, 가운데는 scI...