[AI는 내친구] 'AI가 AI 학습데이터 만든다' 포브스가 주목한 스타트업

입력 2020.09.28 06:00

김계현 슈퍼브에이아이 CRO "사용자 위한 기술"
AI 접목해, 실시간 개발 이끌어…합류 5개월만에 성과
유연한 데이터 가공 플랫폼 ‘스위트’, 데이터계 ‘깃허브’ 꿈꿔

인공지능(AI) 개발에서 가장 많은 시간과 예산이 소요되는 곳은 흔히 데이터 라벨링, 즉 데이터 구축 단계다. 이유는 단순하다. 수작업이 많이 필요하다. 데이터 구축은 음성, 이미지, 텍스트 등 현실에 AI가 이해할 수 있는 이름을 붙이는(라벨링) 단계로, 사람이 아닌 무언가가 대체하기 힘들다.

슈퍼브에이아이는 데이터 가공 플랫폼 스위트에 AI를 도입했다. 김계현 슈퍼브에이아이 CRO(최고연구책임자)는 "학습을 위해서는 데이터가 수백에서 수십만개가 필요할 수 있다. AI가 단순 작업을 하고, 작업자는 난이도 높은 것에 집중한다"라고 라벨링 검수 자동화를 설명했다.

김계현 CRO는 수작업인 AI개발 과정 자체에 혁신을 준비하고 있다. /IT조선
슈퍼브에이아이가 본격적으로 AI를 적용하기 시작한 것은 김계현 CRO가 올 5월 합류하면서부터다. 김 CRO는 포스텍에서 컴퓨터공학과 박사 학위를 받고, 삼성전자, 인텔 등에서 엔지니어로 활약했다.

AI는 라벨링 과정을 시작으로 라벨러(데이터 라벨링 작업자) 관리에도 쓰일 예정이다. 데이터 라벨링은 수십에서 수백명의 라벨러 협업으로 이뤄진다. 대부분의 AI개발 기업은 인력 관리도 수작업이었다. 라벨러 하나하나의 결과물을 확인해 피드백 주는 것에 그쳤다.

김계현 CRO는 "라벨링 검수 자동화 기능 개발에는 3개월 걸렸다"며 "최근에는 라벨링 퍼포먼스 평가에 집중 중이다. AI로 생산성을 분석하여 지원할 것"라고 말했다.

"수집부터 검수까지" AI 무장한 AI 학습 데이터 가공 플랫폼 '스위트'

데이터 구축은 흔히 '로우 데이터(미가공 원본 데이터) 수집 - 데이터 작업 및 분석 - 데이터 라벨링 - 취합 - 검수 - 분석 및 관리' 과정을 거친다. 국내외 데이터 가공 플랫폼은 흔히 데이터 라벨링 자체만 AI 등을 통해 돕는다. 검수나 로우 데이터 수집 등은 여전히 수작업으로만 해야 했다.

반면, 스위트는 데이터 구축 과정 전반에 걸쳐 자동화 기술로 작업자를 돕는다. 김계현 CRO가 개발을 이끈 라벨링 검수 자동화 기능이 대표적이다.

라벨링 검수는 작업자가 데이터 라벨링 규칙을 잘 따랐는지, 또는 이해하고 있는지 확인하는 과정이다. 만약 이미지 십만 장을 라벨링 했다면, 다시 한번 십만장을 확인해야 한다. 여기에 확실한 라벨링 데이터가 모일 때까지, 라벨링-검수 과정은 여러번 반복된다.

스위트는 모든 데이터 중 확인하지 않아도 되는 이미지를 AI가 보증해 제외한다. 작업자는 AI가 판단하기 어려운 이미지만 검사하면 된다. 검수 데이터도 줄어들고, 반복해서 확인할 필요도 없어진다.

스위트는 AI를 통해 진정한 의미의 자동화 플랫폼으로 거듭났다. /슈퍼브에이아이
만약 AI가 검수를 제대로 진행하지 못하면, 프로젝트 자체가 위험할 수 있다. 잘못된 데이터로 AI가 학습하기 때문이다. 이에 대해 김계현 CRO는 "모든 AI는 완벽하지 않다. 스위트 AI도 오류를 낼 수 있다"면서 "이런 오류를 고려해도, 최종 학습에 영향을 미치지 않는 범위에서 데이터를 구분하는 기술을 개발했다. 현재 미국 시장서 특허 출원 진행 중"라고 답했다.

AI는 자율주행 데이터 처리 과정에서도 빛을 발한다. 자율주행을 위한 라벨링은 각 기업마다 조건도 다르고, 라벨 규칙도 수백장이 넘기 일쑤다. 슈퍼브에이아이는 각 기업 규칙을 학습한 AI를 통해 맞춤형 오토 라벨링을 지원한다.

데이터 라벨러를 관리하는 AI기술도 준비 중이다. 많은 기업은 결과물과 실력 등 라벨러 관리에 큰 어려움을 겪고 있다. 스위트는 라벨러가 모니터 앞에서 어려움을 겪는 점을 AI가 판단해 도움을 제공하거나, 프로젝트 디렉터 등과 커뮤니케이션을 주선한다.

이외에도 슈퍼브에이아이는 많은 라벨링을 동시에 수행할 때, 퍼포먼스를 유지 등 다양한 기술, 비디오를 위한 라벨링 툴 등을 개발하고 있거나 완료했다. 단순 기술 개발에 그치지 않고 스위트에 빠르게 적용한다.

김계현 CRO는 "최소 2주마다 정기적으로 업데이트를 진행한다"며 "만약 치명적인 문제가 생긴다면 하루 이내로 핫픽스를 제공할 예정"라고 전했다.

스위트의 진정한 강점 '유연한 플랫폼' … "목표는 데이터계 깃허브"

AI를 품은 스위트 진정한 강점은 따로 있다. 유연한 작업환경을 제공하는 플랫폼이라는 점이다. '데이터계의 깃허브'를 표방하는 스위트는 대부분의 개발자 도구 호환을 지원한다.

여기서 끝이 아니다. '데이터 허브'을 통해 기존의 직선적인 데이터 구축 과정을 벗어난다. 데이터 허브는 일종의 학습 데이터 클라우드 공간으로 실시간 AI개발 환경으로 이끈다. 지금까지 데이터 구축 과정은 A를 해야 다음 단계인 B를 할 수 있다. 중간 수정 사항 반영을 위해서는 전 단계로 돌아가거나, 최악의 경우에는 처음부터 개발을 해야 했다.

스위트에서는 데이터 허브를 통해 부족한 데이터를 보충하거나, 잘못된 데이터를 수정하면 된다. 김계한 CRO는 "스위트에서 AI보다 중요한 점은 바로 이 부분이다. 실시간 개발로 거듭난다"며 "태그가 달린 데이터를 검색할 수 있어, 개발자가 모델설계와 서비스 배포 등에 더 집중할 수 있는 환경을 조성한다"라고 말했다.

깃허브는 ‘깃(컴퓨터 분산 버전 관리 시스템)’으로 새로운 형태의 프로그래밍 협업 시대를 이끌었다. 스위트 역시 데이터 허브와 AI를 통해 기존 AI개발 환경을 변화시킨다. 데이터의 깃허브가 허언이 아닌 셈이다.

김현수 슈퍼브에이아이 대표 / 슈퍼브에이아이
이런 가능성에 슈퍼브에이아이는 국내보다 해외서 더 큰 관심을 받고 있다. 올해 4월 포브스는 김현수 슈퍼브에이아이 대표를 '아시아에서 영향력있는 30세 이하 리더' 중 한 명으로 선정했다. 스위트 역시 지난 8월 정식 출시와 함께 미국 시장 진출을 본격적으로 추진하고 있다.

글로벌 라이벌 기업과 경쟁을 시작한 스위트지만, 김계현 CRO의 목표는 하나다. 자동화다. 김 CRO는 "스위트는 AI개발을 위한 플랫폼이자 협업 플랫폼"며 "AI 개발 준비 과정을 모두 자동화해보겠다"라고 밝혔다.

그는 이어 "모든 기술은 실제 수치를 바탕으로 준비했다. 뜬구름 잡는 기술이 아닌 실제 작업자가 편리한 기술이다. 앞으로도 계속 선보이겠다"라며 각오를 덧붙였다.

송주상 기자 sjs@chosunbiz.com


키워드

관련기사를 더 보시려면,

[AI는 내친구] "AI가 세금 돌려줍니다" 송주상 기자
[AI는 내친구] '리뷰 · 실구매 전환 6배 ↑ '동영상 리뷰 단점, AI가 채웠다 송주상 기자
[AI는 내친구] "포트폴리오 이론, 시장에 맞게 구현" AI가 책임지는 경제적 자유 송주상 기자
[AI는 내친구] 하이, '치료 동반자'로 거듭나는 디지털 치료제 개발 앞장 송주상 기자
[AI는 내친구] 1억 데이터 구축 노하우로 현대차·SKT·네이버 선택 받은 '에이모' 송주상 기자
[AI는 내친구] '투자도 서비스 시대' 금융판 새로 짜는 투자앱 ‘핀트’ 송주상 기자
[AI는 내친구] "AI와 사람 협업으로 업무 자동화 꽃 피울 것" 송주상 기자
[AI는 내친구] AI로 '네트워크 안정화'와 'UX 최적화' 두마리 토끼 잡는다 송주상 기자
[AI는 내친구] 인공지능 아나운서가 일자리를 창출한다? 송주상 기자
[AI는 내친구] ‘2시간만에 앱 취약점 찾는다’ 국내 AI기업이 신기원 열어 송주상 기자
[AI는 내친구] "골든타임 지킨다" 빅브라더 아닌 '브라더'로 변한 CCTV 송주상 기자
[AI는 내친구] 마지막 남은 아날로그 '전화', AI로 디지털화 한다 송주상 기자
[AI는 내친구] 20년 베테랑이 인공지능 '제대로' 배운 사연 송주상 기자
[AI는 내친구] 하버드 로스쿨 학생이 '짝퉁 잡기'에 나선 까닭은 송주상 기자
[AI는 내 친구] "이제는 AI 감정연기시대… 9가지 감정 표현 느껴보세요" 장미 기자