개발 전문잡지 마이크로소프트웨어의 최신호는 블록체인 기술과 산업, 보안 그리고 연결된 세상에 대한 이야기(Chain Bigbang, 체인 빅뱅)를 담았습니다. 스팀잇, 리모트 워크, 바이오헬스, 블록체인 보안 등 마소 392호의 주요 기사들을 IT조선 독자에게도 소개합니다. [편집자주]
최근에는 의료 빅데이터 활용에 대해 논의가 뜨겁다. 의료 분야는 데이터를 체계적으로 수집해온 분야로, 그 양도 불릴 만큼 방대하다. 논문을 수집해 제공하는 데이터베이스인 '펍메드(PubMed)'에는 각종 질병, 유전체 및 약물 정보가 지속해서 업데이트되고 있다. 최근에는 이를 활용한 인공지능도 상용화되고 있다. 이 분야는 병원 외의 기업 등에서 많은 연구가 이뤄지고 있다.
또 다른 의료 분야의 빅데이터는 환자 개인들의 임상 정보라고 할 수 있다. 정보의 속성상 의료기관, 즉 병원을 중심으로 데이터가 축적됐다. 당연히 각 병원과 의사들은 이런 자료를 활용하는 것에 지대한 관심이 있다. 그러나 병원마다 저장하는 형식이 달라 여러 기관의 자료를 쉽게 통합하지 못한다. 아무리 의미 있는 자료라 한들 지금 상태는 '구슬이 서 말이라도 꿰어야 보배'란 속담처럼 가공되지 않은 원석에 불과하다.
이번 호에서는 공통데이터모델(Common Data Model, CDM)에 대해 심층적으로 알아본다. 데이터 표준화는 연구자들이 연구에 사용할 데이터를 같은 형식으로 저장해 협업 연구, 대규모 분석 및 정교한 도구·방법론을 공유할 수 있게 하는 중요한 프로세스다. 하지만 표준화 작업을 하기 위해서는 오랜 시간과 비용이 소요된다.
이런 문제를 해결하기 위해 등장한 것이 공통데이터모델이다. 이는 여러 병원의 데이터를 효율적으로 활용하기 위해 정의한 표준화된 데이터 구조다. 다기관 공동 연구 수행 시에 기관별로 서로 다른 데이터 구조로 인해 다양한 어려움이 따르는 것을 해결해 주는 방식으로 기관별로 다른 데이터 구조와 의미를 같은 하나의 구조와 의미가 있도록 변환하는 방법이다. 각 병원은 필요한 데이터만 선정해 별도의 데이터 웨어하우스에 저장한다.
박래웅 아주대 의료정보학과 교수, 양광모 삼성서울병원 건강의학센터 교수, 유승찬 아주대 의료정보학과 대학원생의 CDM 기반 바이오헬스 빅데이터 공유망의 자세한 내용은 '마이크로소프트웨어 392호(https://www.imaso.co.kr/archives/2518)'에서 확인할 수 있다.