AI 공유(Sharing)란 연합 학습(Federated Learning)의 비즈니스 용어(Business Term)이다. 연합 학습은 구글에서 2015년 처음으로 소개했다.

방식은 이렇다. 스마트폰과 같은 사용자 단말에서 발생한 데이터를 서버로 보내는 대신, 오히려 반대로 서버에서 AI 모델을 스마트폰으로 보낸다. 해당 AI 모델은 개인의 단말내에 존재하는 데이터를 이용해 학습을 하고, 그 학습된 파라미터들(딥러닝의 경우 가중치들)만 단말에서 서버로 보낸다. 서버는 여러 단말로부터 전송된 파라미터들을 융합(수학적으로는 가중 평균)해 하나의 모델을 만든다. 다시 사용자의 단말로 보내 공유한다.

이렇게 하면 사용자의 개인 데이터는 구글과 같은 큰 회사가 가져갈 필요가 없다. 사용자들간에 AI만 공유하여, 데이터를 직접 공유하는 것과 비슷한 성능의 AI 모델을 만들 수 있다. 이렇게 하면, 프라이버시도 보호하고, 학습에 사용되는 컴퓨터 사용도 분산화시킬 수 있다. 데이터가 아닌 파라미터만 공유하므로 통신 비용이 절약되는 효과도 있다.

이러한 AI 공유 모델은 기업과 사용자 간에도 가능하고, 기업과 기업 간에도 가능하다. 기업들이 독자적으로 AI 서비스를 하는 경우도 필요하겠지만, AI 공유 방법론을 활용해 서로 간에 지능과 지식을 공유하여 더 발전된 AI 엔진을 만들고 이에 기반해 각 기업의 특성에 맞는 서비스를 만드는 것이 가능하다.

네이처 메디슨을 통해 보고된 코로나19 관련 최초의 AI 공유 실험인 EXAM 소개 그래프 / 네이처 메디슨
네이처 메디슨을 통해 보고된 코로나19 관련 최초의 AI 공유 실험인 EXAM 소개 그래프 / 네이처 메디슨
AI 공유가 가장 활발한 분야는 의료 분야이다. EXAM은 코로나19와 관련한 최초의 AI 공유 실험이다. 2021년 10월 네이처 메디슨(Nature Medicine)에 보고됐다. 전세계 4개 대륙에 존재하는 20개의 의료 기관에서 코로나19 환자 데이터를 공유하지 않고, AI 공유 방식으로 학습했다.

EXAM 공유 실험을 통해 구현한 AI가 각자가 개발한 20개 AI 모델보다 더 잘 작동하는 것을 보여주는 그래프 / 네이처 메디슨
EXAM 공유 실험을 통해 구현한 AI가 각자가 개발한 20개 AI 모델보다 더 잘 작동하는 것을 보여주는 그래프 / 네이처 메디슨
EXAM 공유 실험에서는 데이터를 중앙집중화 하지 않고 각 기관의 데이터로 AI를 훈련시켰다. 그 결과 각자가 개발한 20개 모델보다 EXAM 공유 실험으로 진행했을 때 AI가 더 잘 작동하면서 동시에 더 일반화가 가능한 글로벌 모델 개발을 돕는 것을 확인할 수 있었다.

공유 정도를 다르게 설정할 때 나타나는 결과를 보여주는 그래프 / 네이처 메디슨
공유 정도를 다르게 설정할 때 나타나는 결과를 보여주는 그래프 / 네이처 메디슨
특히, 각 병원이 학습된 인공지능 모델 전부를 공유하지 않은 상황에서 25%만(가중치) 공유한다 하더라도 충분한 성능이 나옴을 보여줬다.

데이터가 특히 적은 소규모 병원이 더 큰 이익을 봤고, 가장 큰 병원도 이익을 봤다. 디지털과 인공지능에 의해 발생할 수 있는 양극화가 오히려 해소될 수 있음을 보여줬다.

의료 분야와 관련해 EXAM 이외에도 UCADI(Unified CT-COVID AI Diagnostic Initiative), PriMIA 프로젝트 사례가 2021년 네이처 메디슨 인텔리전스(Nature Machine Intelligence)에 보고됐다. 여기서도 각 병원이 개발한 AI 모델보다 이를 공유한 글로벌 AI 모델이 모두 이기는 결과를 보였다. 각 병원이 다른 병원과 자신의 데이터를 공유하지 않더라도 AI 공유로 더 좋은 성과를 낼 수 있었다. 각 주체가 인공지능 모델을 공유하는 과정에서 나타날 수 있는 기회주의적 태도를 방지하고 공정하게 기여도를 평가하는 방법론을 연구한 CAreFL 프로젝트는 2022년 미국인공지능학회의 혁신적인공지능 응용상을 수상하기도 하였다.

인공지능 공유는 비단 의료분야에만 적용되는 것이 아니다. 교통 흐름 예측을 위한 모빌리티 서비스 기업 간 AI 공유, 금융 사기 방지를 위한 신용카드 회사 간 AI 공유, 스마트공장에서 용접 로봇 간 AI 공유, 개인건강 모니터링을 위한 AI 공유 등 다양한 사례가 IEEE 사물인터넷 저널과 IJCAI, IEEE 모바일 컴퓨팅 트랜잭션 등 세계 탑 저널과 학술대회에서 2020년대 들어 속속 발표되는 중이다.

아직 학계와 산업계에는 AI 공유의 힘이 잘 전달되지 않았다. 하지만 선구자들은 발빠르게 상용화를 진행중이다. 의료분야에서는 MedPerf(의료계를 위한 오픈 벤치마크 플랫폼)와 같은 비영리기구가 설립됐다. 미국, 캐나다, 독일 등 AI 선진국은 관련 스타트업이 설립됐다. 웹기술이 등장한 후 여러 웹 에이전시와 스타트업이 발전했던 상황과 유사하다.

처음에는 기존 기업집단이나 특정 응용 부문의 인공지능 공유를 위한 솔루션과 서비스를 개발해주는 AI 공유 에이전시가 많이 나타날 것이다. 하지만 결국 AI공유를 기반으로 하는 글로벌 디지털 플랫폼 회사가 등장할 것으로 예상한다. 한국에서는 사용자 중심 인공지능을 표방하면서 오래전부터 공유 플랫폼, 플랫폼 공유 비즈니스 모델을 개척해온 하렉스 인포텍이 최근 AI공유 플랫폼 비즈니스 모델을 세상에 내놓고 있는 상황이다.

이경전 경희대학교 경영대학 & 빅데이터응용학과 교수 klee@khu.ac.kr

이경전 교수는 인공지능과 디지털 비즈니스 모델 등을 연구한다. 한국연구재단 중점연구소 경희대 빅데이터 연구센터와 AI & BM Lab을 이끌고 있다. ㈜하렉스인포텍과 함께 사용자중심 AI를 집중 연구중이며, Riiid와 마인즈랩, LG CNS, SK텔레콤, KT, 현대자동차를 자문중이다. 네이버, 모빌리언스 초기 주주, 벤플, 올윈에어 창업자이며, 국제전자상거래연구원장을 역임하였다. 한국경영학회 이해관계자 자본주의 경영연구회 경영정보분과 위원장, 한국경영정보학회 디지털 ESG연구회원이기도 하다.