기업들에게 인공지능(AI) 도입은 가깝고도 먼 도전이다. 보유하고 있는 데이터를 AI 플랫폼에 적용하면 성과를 곧 얻어낼 수 있을 것으로 기대하지만 결국 원하는 성과를 얻지 못하는 경우가 많다.

많은 전문가들은 그 이유로 ‘데이터’를 꼽는다. 아무리 많은 양의 데이터를 보유하고 있어도 필요한 정보를 담고 있는지, 중복되거나 편향되지는 않았는지, 관리는 제대로 되고 있는지에 따라 결과가 달라지기 때문이다.

문송천 KAIST 명예교수는 "AI가 분명 ‘새로운 세계를 열어주는 문’인 것은 맞다. 하지만 AI가 가져다 쓸 데이터는 절반 이상이 엉터리이고 데이터끼리 연결될 수 있도록 설계하는 전문가도 거의 없다는 것이 문제다"라며 "기업은 물론 정부 기관들도 각 저장소에 분산된 데이터에 대한 관리가 제대로 이뤄지지 않고 있다"고 지적한다.

기업, 정부, 학교 등 데이터를 관리하는 조직에서 성공적인 AI 도입을 위해서는 무엇이 필요할까.

문송천 KAIST 명예교수. 문송천 교수는 국가전산학박사 1호 교수로, 1990년 DB엔진 IM과 분산 DB엔진 DIME를 국내에서 개발했다. 현재는 유럽IT학회 아시아 대표이사로 재직 중이다. / 조상록 기자
문송천 KAIST 명예교수. 문송천 교수는 국가전산학박사 1호 교수로, 1990년 DB엔진 IM과 분산 DB엔진 DIME를 국내에서 개발했다. 현재는 유럽IT학회 아시아 대표이사로 재직 중이다. / 조상록 기자
신뢰성 잃은 AI, 문제는 ‘데이터 품질’

코로나19 이후 기업들의 AI 도입이 증가했다. 데이터 중심의 비즈니스로 전환되고 있음을 나타낸다. 하지만 AI는 기대했던 결과물을 제공하지 못했다. 맥킨지 보고서에 따르면 AI를 이용한 기업들 중 상당수가 ‘AI 모델이 잘못된 정보를 주었다’는 응답을 했다고 한다.

인종차별주의 답변을 내놓았던 마이크로소프트의 채팅 봇 ‘테이(Tay)’나 성희롱 발언, 개인정보 유출 등의 문제를 일으켰던 ‘이루다’는 AI 모델보다 데이터가 더 중요함을 일깨워준다.

문 교수는 "지금도 엉터리 데이터가 많다. 그러니까 데이터 안에 정보가 너무 많이 담겨 있고, 데이터의 중복도 높다. 이러면 데이터를 활용해 무언가 결과물을 얻어내는 데 정확성도 낮을뿐더러 시간도 많이 걸린다"고 지적한다.

AI 모델을 구현하는 데 있어 일반적인 데이터 문제는 중복된 데이터, 표준화 되지 않은 데이터, 편향된 데이터, 분석하기에는 규모가 너무 작은 데이터를 꼽는다.

문 교수는 "진짜 데이터는 지구가 멸망해도 영구불변한 정보를 담고 있어야 한다. 예측된 데이터나 편향된 데이터는 결국 AI를 더 위험하게 만들 수 있다. 신뢰성 있는 AI를 실현하기 위해서는 불확실성, 부정확성, 불평등성의 가능성도 없는 완벽히 정제된 데이터만 사용해야 한다"고 말했다.

좋은 데이터보다 더 중요한 데이터 관리

데이터는 지금 이 순간에도 발생하고 있다. 그러나 모든 데이터를 사용할 수 있는 것은 아니다. 조직에서는 필요한 데이터만 별도로 관리를 한다. 특히 고객 데이터가 비즈니스에 중요한 역할을 하는 기업들은 데이터 관리 시스템에 더욱 신경을 쓴다.

하지만 현실은 데이터 관리가 제대로 되고 있지 않다. IBM의 ‘AI 도입지수 보고서’에 따르면 효율적인 데이터 관리를 위한 데이터 통합·관리 솔루션을 사용 중인 국내 기업은 40% 정도에 불과하다.

문송천 교수는 "데이터는 부피보다 관계성에 더 중점을 둬야 한다. 데이터 간 연관성 없이 외딴섬처럼 떨어져 있으면 가치가 없다. 데이터끼리 연결시키는 것이 일종의 ‘데이터 맵’이라고 하는 DB(데이터베이스)인데, 그런 관계 구조가 형성돼 있어야 품질 높은 결과물을 얻을 수 있다"고 말했다.

그는 이어 "DB라는 건 데이터가 교통지도처럼 다 연결돼 있는 상태를 말한다. 그런 관계 구조가 형성돼 있어야 품질 높은 결과물을 얻을 수 있다"며 "가령 중국발 해킹을 키워드로 한다면 해킹의 원리부터 관련된 사건이 나열되는 체계적인 결과물을 얻을 수 있어야 한다"고 설명한다.

AI 도입을 위한 DB 재정비

데이터 품질과 데이터 관리의 문제를 인식했다고 하더라도 모든 것을 바꿀 수는 없다. 현재의 상황에서 적절한 데이터 관리 솔루션을 이용하고, 데이터 카탈로그(필요한 정보를 빠르게 찾을 수 있도록 분류해놓은 목록) 등을 활용하는 방법을 데이터 전문가들은 권장한다.

문송천 교수 역시 데이터 맵 구축이 필요하다고 지적한다. 그는 "기존의 데이터 설계를 고쳐야 한다. 기본 틀은 그대로 두고 리모델링만 하는 방식으로 개선하면 적은 비용 부담으로 지금의 데이터 문제를 해결할 수 있다. 그것이 데이터 맵이다"고 조언한다.

끝으로 문송천 교수는 "AI에서 데이터 사이언티스트가 각광받고 있지만 정작 더 중요한 건 데이터 설계 전문가다. 정부 역시도 AI 모델이나 드러나는 현상만 따라가지 말고 제대로 된 AI 실현을 위한 근본적인 AI 발전 전략을 세우기를 바란다"고 말했다.

조상록 기자 jsrok@chosunbiz.com