뉴턴은 사과 한 알이 떨어지는 것을 보고 세상 만물이 서로 당긴다는 법칙을 어떻게 발견했을까? 이를 학습이라 해야 할 지 추론이라 해야 할지 모르지만, 대단한 일반화다. 오늘날 인공지능(AI)의 가장 큰 과제가 바로 여기에 있다.

빅데이터는 AI와 거의 동의어처럼 사용될 만큼 필수 요소다. AI가 대량 축적된 데이터를 원료로 특정한 패턴을 추출해 군집·분류·예측·최적화 등을 위한 의사결정 및 판단 규칙을 자동으로 학습하는 머신러닝에 기반하고 있기 때문이다.

특히 통계, 확률, 알고리듬에 기반한 전통적 머신러닝 대신에 대량의 노드를 가진 다계층 인공신경망인 심층신경망으로 학습하는 딥러닝 기술이 보편적으로 활용되고 있다. 어려운 수학과 알고리듬을 몰라도 양질의 데이터만 충분히 있으면, 구글의 텐서플로와 같은 심층신경망 프로그램을 이용해 누구나 쉽게 AI를 구현할 수 있다. 충분한 데이터만 있으면 고성능 그래픽카드나 인공신경망칩을 이용해 수천 억개의 뉴런 노드를 갖는 초대형 심층신경망을 고속으로 학습시킬 수 있게 됐다.

따라서 막대한 데이터를 축적하고 고성능 컴퓨터를 갖춘 기업이 AI의 주도권을 가질 수 있다. 구글, 알리바바, 아마존, IBM 등이 AI 개발에 몰두하는 이유다. 보유한 데이터가 많지 않거나 자금이 부족한 기업·대학은 빅데이터 기반 AI 경쟁을 따라가기 힘들다.

하지만 양질의 빅데이터 확보는 쉽지 않다. IBM이 미국 앤더슨 암센터와 제휴해 암 진단 AI를 개발하다가 2017년 초 결별한 이유도 결국 데이터 부족 때문이었다. 앤더슨 암센터에 축적된 막대한 양의 의료정보를 활용했음에도 진단의 정확성을 높이는데 충분하지 않았다. 근래 교체한 신형 컴퓨터시스템 데이터를 활용하지 못한 점도 있지만 양질의 의료데이터가 충분치 않은 것이 원인이었다.

결국 IBM은 의료정보 전문기업을 인수합병하고 자체 연구 및 실험을 통해 의료정보를 생산하는데 골몰하고 있다. 구글도 최근 눈을 스캔해 당뇨성 망막증을 진단해내는 AI를 개발했다. 이를 위해 많은 의사에게 스캔 이미지를 분류시켜 데이터를 얻는데 거금을 지불했을 것이다.

AI 응용분야에서 빅데이터를 얻기 위해 데이터를 분류·표식하고 정제하는데 많은 인력과 비용이 필요하다. 빅데이터를 확보하고 처리하는 비용이 큰 장애물이다. 막대한 자본과 자원을 가진 기업이 빅데이터와 AI를 주도할 수밖에 없다. 각종 규제로 데이터 공유 및 활용을 막고 있는 우리나라에서 AI가 발전하기 어려운 이유다.

빅데이터 기반 AI는 에너지 효율성과 데이터 확보 문제도 갖고 있다. 버지니아 딕넘 델프트공대 교수는 빅데이터에 기반한 최근 AI는 에너지 사용량 당 정확성 측면에서 비효율적이라고 지적한다. 빅데이터를 수집·처리하고 학습하는데 엄청난 컴퓨팅 파워와 에너지를 소모하기 때문이다. AI의 윤리·사회적 문제가 아니라 환경 측면에서 사회적 책임 문제를 제기한다.

최근 최소한의 데이터를 이용한 머신러닝 기술도 개발되고 있다. 수년 전 MIT에서 ‘확률적 프로그래밍’ 기술을 이용해 한 컷의 이미지로 새로운 유형의 객체를 인식하는 것을 학습하는 ‘원샷학습’ 기술을 개발했다. 알파고를 개발한 구글의 딥마인드사도 텐서플로와 같은 머신러닝 도구를 이용해 유사한 원샷학습 기술을 개발했다. 원샷학습 기술을 신약 발견, 로봇에 응용하는 연구도 진행되고 있다.

사실 원샷학습은 사람이 더 잘한다. AI는 특정 동물이나 얼굴을 구분하는데 수백만장의 사진을 학습해야 하지만 사람은 한두장만 보고도 잘 구분하고 인지해낸다. 어린 아이도 동물원에서 코끼리나 기린을 한번 보고 이름을 얘기해주면 다음에 코끼리나 기린을 잘 알아본다. 엄청난 능력이다. 오늘날 심층신경망에 의한 AI는 인간의 학습능력, 일반화 능력에 비하면 전혀 스마트하지도 않고 지능이라 부르기도 민망하다.

사람은 어떻게 한장의 사진만 보고도 다른 동물과 코끼리를 구분하는가? 이전에 본 동물의 이미지 기억과 한번 본 코끼리 이미지와 차이를 어떤 기준으로 판정해내기 때문이라고 한다. 이 차이는 수학적 벡터 공간에서 벡터 간 거리로 설명할 수 있다. 원샷학습 알고리듬도 비슷한 방식으로 수학적으로 추상화된 이미지 공간에서 이미지 간의 차이를 계량화해 특정 개체를 구분하고 인식하는 방법을 사용한다.

AI의 힘은 ‘일반화’에 있다. 결정과 판단을 할 때마다 학습을 해야 한다면 가치가 없다. 학습에서 사용한 데이터 상황이 변경되거나 문제가 달라졌을 때 다시 학습할 필요가 없이 과거 학습한 것을 유용하게 적용할 수 있는 것이 ‘일반성’이다. 다른 상황이나 문제의 데이터 간 정보 교환이 일어난 것이라고 할 수 있다.

데이터를 수집할 때의 상황 또는 컨텍스트와 다를 수 있고 계속 변화할 수 있다. 5년·10년 전 고객 구매데이터나 의료 데이터가 최신 데이터와 확연히 다를 수밖에 없다. 경제상황, 의료수준 및 건강관리 상황이 많이 달라졌기 때문이다. 뉴턴은 사과나무에서 사과가 낙하하는 것을 보고 ‘만유 인력의 법칙’을 발견했다. 단 한 건의 데이터로부터 세상 만물에 통하는 법칙을 발견했으니 인류 최고의 일반화라고 할 수 있다.

과학자는 흔히 과학적 법칙의 불변성을 추구한다. 대상 문제나 컨텍스트가 달라져도 과학적 법칙은 변함없이 작용한다는 것이다. 즉 과학적 법칙과 이론의 일반화를 추구한다. 우리가 잘 알고 있는 에너지 불변의 법칙, 질량 불변의 법칙도 이러한 불변성을 잘 설명해준다.

오늘날 유명 학술저널은 발견한 이론 및 법칙이 얼마나 일반성·범용성이 있는지를 판단할 때 창의성과 함께 불변성을 가장 중요한 학술적 기여로 판단한다. 아인슈타인도 물리법칙은 좌표계와 무관하다는 불변성에 대한 믿음으로 상대성 이론을 발견했다고 한다.

아인슈타인은 여기서 한발 더 나아가 에너지 불변의 법칙과 질량 불변의 법칙을 과감하게 깨뜨리고 에너지와 질량이 서로 호환될 수 있다는 ‘E=mC2’이라는 유명한 등가관계를 만들었다. 불변의 법칙을 깨면서 새로운 법칙을 만들었으니 한 차원 높은 천재적 창의성이라 평가할 수 있다. 이는 일반화에 대한 도전이라고도 할 수 있다.

스탠포드대학 비제이 판데 교수 연구실의 대학원생이자 연구의 공동 저자인 바라스 람선다는 “광범위한 일반화가 가능한 학습 알고리듬을 개발하기 위해 세상 만물에 숨어 있는 불변의 법칙을 찾아 이용해야 한다”고 말한다. 이를 위해 세상 만물의 ‘아름다움’을 공통적으로 이해하는 학습 알고리듬을 개발할 것을 제안한다.

버지니아 딕넘 델프트공대 교수는 사람은 단순히 많은 데이터에서 상관성 패턴을 찾아내는 방식으로 학습하는 것이 아니라 인과관계를 찾아 추론에 활용하고 발견한 사실의 추상화를 통해 학습하기 때문에 스몰 데이터만으로도 잘 학습해 지능적 판단을 할 수 있다고 설명한다.

최근 AI의 머신러닝 알고리듬은 대부분 데이터 간 확률적, 통계적 상관성을 찾는 것이다. 가장 간단한 선형 회귀분석은 독립변수와 종속변수 간 선형적 관계를 정의하는 계수를 찾기 위해 변수에 대한 샘플 데이터로부터 오류가 최소화되도록 추정하는 것이다.

머신러닝, 심층신경망도 큰 틀에서 보면 다르지 않다. 단지 그 관계가 선형적이지 않고 훨씬 복잡한 상관성도 특수한 알고리듬으로 찾아낼 뿐이다. 하지만 이렇게 확률적 상관성으로 학습한 것은 데이터가 조금만 변경돼도 예측하기 힘든 결과를 만든다.

이미지 인식·음성 인식·자동 번역에도 유사한 문제가 있다. 빅데이터에 약간의 오류나 예외가 포함되면 AI 정확도가 크게 저하될 수 있다는 것이다. 사실 데이터는 정의·측정·가공 과정에서 오류나 예외가 많이 포함될 수 있다. 특히 빅데이터는 그 속성상 오류와 왜곡, 노이즈가 많을 수 있다.

통계학에서 예외 데이터를 사전 탐지해 제외시키는 것에 대해 많은 연구가 있었다. 이를 보면 데이터에서 오류나 예외를 탐지해 제거하거나 영향을 최소화하는 것은 쉽지 않다. 결국 사람의 개입이 필요하다.

스몰데이터 AI는 1980년대 유행해 사라진 기호기반 AI의 접근이 필요할 수도 있다. 인간의 지식과 추론 및 의사결정이 설명 가능하고, 이를 컴퓨터로 모델링하고 처리해 전문가를 모사하자는 것이었다. 어려운 수학이 필요한 확률론, 통계학은 최소 데이터로 추정이나 추론의 정확성을 높이는 것으로 볼 수 있다.

심리학, 교육학에서 사람의 학습 과정·방법·전략에 대해 많은 연구를 해왔다. 이제 기호기반 AI, 통계학, 학습이론을 스몰데이터 AI의 개발에 활용할 때가 된 것 같다. 사람은 빅데이터만으로 학습하지 않기 때문이다. 우리도 사과나무를 열심히 살펴보자.

※ 외부필자의 원고는 IT조선의 편집 방향과 일치하지 않을 수 있습니다.

이태억 교수는 KAIST 산업 및 시스템 공학과 교수, 교육원장이며 대한산업공학회 회장입니다. 대통령 직속 규제개혁위원회 위원, 교육부 대학구조개혁위원회 위원, 신성장동력기획단 위원, KAIST 정보시스템연구소장 등을 역임했습니다. 자동화, 정보기술 응용, 산업지능 분야 전문가이며, 일방전달방식강의에서 탈피하는 수업방식 혁신을 통한 교육혁신, 교육의 기회 균등 실현을 위한 온라인대중공개강좌(MOOC) 확산에 노력하고 있습니다. 서울대, KAIST, 오하이오 주립 대학에서 학·석·박사 학위를 받았으며 과학기술정보통신부(옛 미래창조과학부) 및 한국연구재단의 '이달의 과학기술자상'을 수상했습니다.

#스몰데이터 #원샷학습 #뉴턴 #AI #인공지능 #빅데이터 #머신러닝 #알고리듬 #텐서플로 #구글 #알리바바 #아마존 #IBM #일반화 #아인슈타인