김계현 슈퍼브에이아이 CRO "사용자 위한 기술"
AI 접목해, 실시간 개발 이끌어…합류 5개월만에 성과
유연한 데이터 가공 플랫폼 ‘스위트’, 데이터계 ‘깃허브’ 꿈꿔

인공지능(AI) 개발에서 가장 많은 시간과 예산이 소요되는 곳은 흔히 데이터 라벨링, 즉 데이터 구축 단계다. 이유는 단순하다. 수작업이 많이 필요하다. 데이터 구축은 음성, 이미지, 텍스트 등 현실에 AI가 이해할 수 있는 이름을 붙이는(라벨링) 단계로, 사람이 아닌 무언가가 대체하기 힘들다.

슈퍼브에이아이는 데이터 가공 플랫폼 스위트에 AI를 도입했다. 김계현 슈퍼브에이아이 CRO(최고연구책임자)는 "학습을 위해서는 데이터가 수백에서 수십만개가 필요할 수 있다. AI가 단순 작업을 하고, 작업자는 난이도 높은 것에 집중한다"라고 라벨링 검수 자동화를 설명했다.

 김계현 CRO는 수작업인 AI개발 과정 자체에 혁신을 준비하고 있다. /IT조선
김계현 CRO는 수작업인 AI개발 과정 자체에 혁신을 준비하고 있다. /IT조선
슈퍼브에이아이가 본격적으로 AI를 적용하기 시작한 것은 김계현 CRO가 올 5월 합류하면서부터다. 김 CRO는 포스텍에서 컴퓨터공학과 박사 학위를 받고, 삼성전자, 인텔 등에서 엔지니어로 활약했다.

AI는 라벨링 과정을 시작으로 라벨러(데이터 라벨링 작업자) 관리에도 쓰일 예정이다. 데이터 라벨링은 수십에서 수백명의 라벨러 협업으로 이뤄진다. 대부분의 AI개발 기업은 인력 관리도 수작업이었다. 라벨러 하나하나의 결과물을 확인해 피드백 주는 것에 그쳤다.

김계현 CRO는 "라벨링 검수 자동화 기능 개발에는 3개월 걸렸다"며 "최근에는 라벨링 퍼포먼스 평가에 집중 중이다. AI로 생산성을 분석하여 지원할 것"라고 말했다.

"수집부터 검수까지" AI 무장한 AI 학습 데이터 가공 플랫폼 '스위트'

데이터 구축은 흔히 '로우 데이터(미가공 원본 데이터) 수집 - 데이터 작업 및 분석 - 데이터 라벨링 - 취합 - 검수 - 분석 및 관리' 과정을 거친다. 국내외 데이터 가공 플랫폼은 흔히 데이터 라벨링 자체만 AI 등을 통해 돕는다. 검수나 로우 데이터 수집 등은 여전히 수작업으로만 해야 했다.

반면, 스위트는 데이터 구축 과정 전반에 걸쳐 자동화 기술로 작업자를 돕는다. 김계현 CRO가 개발을 이끈 라벨링 검수 자동화 기능이 대표적이다.

라벨링 검수는 작업자가 데이터 라벨링 규칙을 잘 따랐는지, 또는 이해하고 있는지 확인하는 과정이다. 만약 이미지 십만 장을 라벨링 했다면, 다시 한번 십만장을 확인해야 한다. 여기에 확실한 라벨링 데이터가 모일 때까지, 라벨링-검수 과정은 여러번 반복된다.

스위트는 모든 데이터 중 확인하지 않아도 되는 이미지를 AI가 보증해 제외한다. 작업자는 AI가 판단하기 어려운 이미지만 검사하면 된다. 검수 데이터도 줄어들고, 반복해서 확인할 필요도 없어진다.

스위트는 AI를 통해 진정한 의미의 자동화 플랫폼으로 거듭났다. /슈퍼브에이아이
스위트는 AI를 통해 진정한 의미의 자동화 플랫폼으로 거듭났다. /슈퍼브에이아이
만약 AI가 검수를 제대로 진행하지 못하면, 프로젝트 자체가 위험할 수 있다. 잘못된 데이터로 AI가 학습하기 때문이다. 이에 대해 김계현 CRO는 "모든 AI는 완벽하지 않다. 스위트 AI도 오류를 낼 수 있다"면서 "이런 오류를 고려해도, 최종 학습에 영향을 미치지 않는 범위에서 데이터를 구분하는 기술을 개발했다. 현재 미국 시장서 특허 출원 진행 중"라고 답했다.

AI는 자율주행 데이터 처리 과정에서도 빛을 발한다. 자율주행을 위한 라벨링은 각 기업마다 조건도 다르고, 라벨 규칙도 수백장이 넘기 일쑤다. 슈퍼브에이아이는 각 기업 규칙을 학습한 AI를 통해 맞춤형 오토 라벨링을 지원한다.

데이터 라벨러를 관리하는 AI기술도 준비 중이다. 많은 기업은 결과물과 실력 등 라벨러 관리에 큰 어려움을 겪고 있다. 스위트는 라벨러가 모니터 앞에서 어려움을 겪는 점을 AI가 판단해 도움을 제공하거나, 프로젝트 디렉터 등과 커뮤니케이션을 주선한다.

이외에도 슈퍼브에이아이는 많은 라벨링을 동시에 수행할 때, 퍼포먼스를 유지 등 다양한 기술, 비디오를 위한 라벨링 툴 등을 개발하고 있거나 완료했다. 단순 기술 개발에 그치지 않고 스위트에 빠르게 적용한다.

김계현 CRO는 "최소 2주마다 정기적으로 업데이트를 진행한다"며 "만약 치명적인 문제가 생긴다면 하루 이내로 핫픽스를 제공할 예정"라고 전했다.

스위트의 진정한 강점 '유연한 플랫폼' … "목표는 데이터계 깃허브"

AI를 품은 스위트 진정한 강점은 따로 있다. 유연한 작업환경을 제공하는 플랫폼이라는 점이다. '데이터계의 깃허브'를 표방하는 스위트는 대부분의 개발자 도구 호환을 지원한다.

여기서 끝이 아니다. '데이터 허브'을 통해 기존의 직선적인 데이터 구축 과정을 벗어난다. 데이터 허브는 일종의 학습 데이터 클라우드 공간으로 실시간 AI개발 환경으로 이끈다. 지금까지 데이터 구축 과정은 A를 해야 다음 단계인 B를 할 수 있다. 중간 수정 사항 반영을 위해서는 전 단계로 돌아가거나, 최악의 경우에는 처음부터 개발을 해야 했다.

스위트에서는 데이터 허브를 통해 부족한 데이터를 보충하거나, 잘못된 데이터를 수정하면 된다. 김계한 CRO는 "스위트에서 AI보다 중요한 점은 바로 이 부분이다. 실시간 개발로 거듭난다"며 "태그가 달린 데이터를 검색할 수 있어, 개발자가 모델설계와 서비스 배포 등에 더 집중할 수 있는 환경을 조성한다"라고 말했다.

깃허브는 ‘깃(컴퓨터 분산 버전 관리 시스템)’으로 새로운 형태의 프로그래밍 협업 시대를 이끌었다. 스위트 역시 데이터 허브와 AI를 통해 기존 AI개발 환경을 변화시킨다. 데이터의 깃허브가 허언이 아닌 셈이다.

김현수 슈퍼브에이아이 대표 / 슈퍼브에이아이
김현수 슈퍼브에이아이 대표 / 슈퍼브에이아이
이런 가능성에 슈퍼브에이아이는 국내보다 해외서 더 큰 관심을 받고 있다. 올해 4월 포브스는 김현수 슈퍼브에이아이 대표를 '아시아에서 영향력있는 30세 이하 리더' 중 한 명으로 선정했다. 스위트 역시 지난 8월 정식 출시와 함께 미국 시장 진출을 본격적으로 추진하고 있다.

글로벌 라이벌 기업과 경쟁을 시작한 스위트지만, 김계현 CRO의 목표는 하나다. 자동화다. 김 CRO는 "스위트는 AI개발을 위한 플랫폼이자 협업 플랫폼"며 "AI 개발 준비 과정을 모두 자동화해보겠다"라고 밝혔다.

그는 이어 "모든 기술은 실제 수치를 바탕으로 준비했다. 뜬구름 잡는 기술이 아닌 실제 작업자가 편리한 기술이다. 앞으로도 계속 선보이겠다"라며 각오를 덧붙였다.

송주상 기자 sjs@chosunbiz.com


관련기사