"더 좋은 인공지능(AI)을 개발하고 상용화하기 위해서는 그에 적합한 ‘양질의 데이터’를 확보하는 것이 가장 중요하다."

IT조선이 10일 개최한 ‘인공지능 전망 2022’ 웨비나에서 두 번째 세션 발표자로 나선 윤석원 테스트웍스 대표는 최근 수년에 걸쳐 연구·개발단계에 머물던 다양한 AI 기반 기술들과 서비스가 상용화되고, 관련 시장이 빠르게 성장하는 상황에서 기업들이 AI의 연구개발과 활용에 필수적인 ‘데이터’에 대한 접근법을 바꿔야 한다고 강조했다.

그는 "최근 들어 AI 산업이 활성화되고, 많은 서비스가 상용화 단계로 접어들면서 전에 없던 많은 변화가 보인다"며 "AI를 개발하는 관점에서 필요한 데이터와 상용화하는 관점에서 필요한 데이터가 각각 다르다"라고 말했다. 상용화한 AI 기반 서비스를 더욱 고도화하기 위해서는 처음 연구 개발 수준의 정형화된 데이터만으로는 안되며, 더욱 다양한 상황과 시점, 관점에서 접근한 새로운 데이터가 필요하다는 말이다.

즉, 처음 AI 모델을 구상하고 학습 및 개발하는 단계에서는 쉽게 구할 수 있는 ‘오픈 데이터셋’만으로도 충분하다. 하지만, 실제 AI 서비스를 개발하고 시장에 출시하는 상황에서는 오픈 데이터셋만으로는 한계가 뚜렷하다며 비즈니스에 적합하다지 않다는 것이다.

윤석원 테스트웍스 대표는 기업이 AI 서비스를 상용화함에 있어 ‘양질의 데이터’ 중요성을 강조했다. / IT조선
윤석원 테스트웍스 대표는 기업이 AI 서비스를 상용화함에 있어 ‘양질의 데이터’ 중요성을 강조했다. / IT조선
AI 서비스의 상용화를 위한 새로운 데이터셋 구축에는 어려운 점이 많다고 윤 대표는 말했다. 우선 ‘데이터 분류의 일관성’을 들었다. 서로 다른 목적의 AI 프로젝트를 동시에 진행하다 보면, 각각의 프로젝트의 특성에 맞춰 수집한 데이터를 일관성 있게 분류하는 게 중요한데, 그게 쉽지 않다는 것.

특히 데이터의 분류 과정에서 분류자의 주관성이 반영되면 더더욱 일관성을 유지하기 어렵다고 지적했다. 또한, 데이터의 분류 과정을 얼마나 세분화하느냐에 따라서도 ‘분류의 일관성’이 유지되기 어렵다고 덧붙였다.

이를 해결하기 위한 방안으로 윤 대표는 ‘양질의 데이터’를 많이 확보할 수 있는 것이 중요하다고 강조했다. 윤 대표는 "분류 요소가 많은 낮은 품질의 데이터를 사용하는 경우, 데이터의 양이 적으면 AI 모델의 성능을 원하는 수준까지 구현하기 어렵다. 그렇다고 무조건 많은 데이터를 집어넣으면 원하는 성능의 AI 모델을 구현할 수는 있지만, 그만큼 많은 인력과 비용, 시간이 필요하다"라고 말했다.

즉, 불필요한 분류 요소가 적은 ‘양질의 데이터’를 확보할 수 있다면 훨씬 적은 데이터와 적은 인력, 비용, 시간으로도 원하는 성능의 AI 모델을 빠르고 효율적으로 만들고 서비스할 수 있다는 설명이다.

다만, 기업이 직접 ‘양질의 데이터’를 확보하는 것 자체로도 큰 비용과 시간, 인력 등의 자원이 필요하다고 윤 대표는 지적했다. 그러므로 기업에서 AI 서비스를 개발하고 상용화하는 과정에서 서비스 구축에 필요한 시간과 비용을 최소화하려면 테스트웍스처럼 양질의 ‘프라이빗 데이터셋’을 구축해 제공할 수 있는 데이터 가공 전문 기업이 필요하다는 게 윤 대표의 말이다.

물론 데이터 가공 전문 기업으로서도 양질의 데이터셋 구축은 쉽지 않은 상황이다. 먼저 보안 및 개인정보 보호의 중요성이 커지면서 이전보다 데이터셋 구축에 필요한 데이터만 선별적으로 확보할 방법이 필요하다고 윤 대표는 말했다. 또한, AI 기반 서비스를 고도화하는 과정에서 갈수록 희귀한 데이터를 더 많이 요구하고, 일반적인 방법으로 구할 수 없는 데이터는 직접 만들어야 하며, 그런 과정에서 발생할 수 있는 데이터의 편향을 방지하기가 쉽지 않다고 윤 대표는 토로했다.

이러한 문제를 극복하는 방법으로 윤 대표는 특정 목적의 데이터셋을 구축할 때 그 분야의 전문가를 최대한 확보하는 것을 꼽았다. 특정 분야에서 전문성을 갖춘 전문가일수록 객관적이고 정확한 분류 기준을 만들 수 있어 양질의 데이터 확보에 필요한 일관성을 유지하기 편하다는 것.

또한, 데이터 가공 업체 스스로도 특정 목적의 데이터셋을 구축할 때 그에 관련된 ‘기술’을 충분히 갖춰야 한다고 지적했다. 데이터셋에 필요한 데이터를 수집할 때, 해당 분야에 대한 전문성이 높을수록 더욱 정확하고 양질의 데이터를 축적하기 유리하다는 것이다.

윤 대표는 "많은 기업이 AI 기반 서비스를 준비하고 상용화하는 데 있어 양질의 데이터 확보를 위해 외부의 데이터 가공 전문업체의 힘을 빌리기도 하지만, 필요한 데이터를 장기적으로 꾸준히 수집할 수 있도록 자체 플랫폼을 갖추는 곳도 많다"며 "향후 AI 기반 서비스를 준비하고 있다면 일찌감치 ‘양질의 데이터’를 어떻게 확보하느냐에 대한 고민부터 하는 것이 좋다"라고 발표를 마무리했다.

최용석 기자 redpriest@chosunbiz.com