셀템제약, 머신러닝 논문분석 국제선진기술연구소 구축

셀템제약은 10일 자사 국제선진기술연구소에서 국제 메디컬 저널과 논문들을 수집, 분석, 분류하는 ‘와이드앤 뎁스 스크리닝’ 기법을 개발했고 이를 적용해 신약후보 물질을 찾는다고 밝혔다.

셀템제약에 따르면 이 기술은 먼저 다양한 데이터베이스에 연결해 타겟 자료를 수집한다. 대표적으로 4000만건의 국제 의학 논문을 가지고 있는 펍메드를 R 인터페이스, 파이썬 등의 베이스로 코딩해 페이퍼들을 필터링하고 데이터베이스를 수집한다.

이는 자연어 키워드의 단순한 서칭이 아니라 여러 조건과 기준이 상호적으로 셋팅된 인공어 처리 과정이다. 뿐만 아니라 오픈 API, 웹크롤링을 사용해 다종의 데이터에 접근하고 체계적인 수집이 이뤄진다.

집적된 자료는 변환 및 가공 과정을 거쳐 분석된다. 논문의 텍스트 데이터를 벡터로 표현하고 실험종류를 분류하는 작업을 실시한다. 이때 텍스트를 임베딩하고 적합한 이진 분류 머신러닝 알고리즘을 찾아 그에 대한 일차 검증이 이뤄진다.

여기서 연구소 자체의 레벨링 시스템을 통해 이차 분류 작업이 진행된다. 기존 학계의 논문지표값인 IF, H인덱스 등을 이용하되 자체 논문 레벨 기준을 설정하여 놓칠 수 있는 가치있는 정보까지 찾아 결과를 재평가한다.

평가된 데이터는 핵심 기전에 따라 분류되고 해석된다. 각 기전별로 분류된 데이터는 소재 연구결과의 실험 디자인, 결과 데이터를 모아 메타 애널러시스 기법을 통해 해석된다. 이러한 변환 및 분석 과정은 처리속도에 영향을 지대하게 받기에 셀템제약은 구글의 텐서플로우와 알파고 머신에 사용됐던 하드웨어 TPU를 도입했다고 설명했다.

셀템제약 관계자는 "기존의 연구소들은 논문을 분석할 때 연구원이 직접 수만장의 논문을 요약, 정리하게 했다"며 "그렇게 수작업으로 수개월이 걸리던 업무는 스크리닝 기술에 의해 며칠 단위, 짧으면 몇시간 단위로 줄어들게 됐다"고 말했다.

또 이 관계자는 "각각의 실험과 타겟 물질에 따라 물론 소요시간은 다르겠지만 현실에 적용이 가능한 과학적 인사이트를 얻기 위해 AI머신러닝을 통해 개발중인 연구의 성공률을 높이고 기간을 단축하는 것을 최우선 목표로 하고 있다"고 말했다.

제약업계의 한 관계자는 "앞서가는 바이오 기술의 추세를 획기적으로 획득하고 발전시키는 독창적인 기술 덕분에 앞으로의 셀템제약의 연구가 더욱 기대된다"고 말했다.

조성우 기자 good_sw@chosunbiz.com

기자의 전체기사