빅데이터를 두고 흔히 ‘21세기의 원유’라고 표현한다. 원유를 잘 정제하면 가솔린, LPG, 경유 등 연료는 물론이고 플라스틱, 아스팔트 등 현대 산업의 필수재를 생산할 수 있는 것처럼 엄청나게 쌓인 데이터를 잘 분석하면 큰 부가가치를 만들 수 있다는 의미에서다.
데이터 분석으로 큰 부가가치를 만드는 대표적인 예로 최근 급부상하는 인공지능(AI)을 꼽을 수 있다. AI에 대한 연구는 지난 수십년간 꾸준이 이뤄졌지만, 과거 30년보다 근래 3년 들어 이룬 성과가 더 많다고 해도 과언이 아니다. 인간의 뇌를 모사한 신경망 네트워크나 딥 러닝 기술의 급속한 발전은 데이터 분석 기술의 발전과 궤를 같이 한다.
이제 남은 건 AI가 엄청난 양의 데이터를 잘 학습할 수 있도록 뒷받침해주는 컴퓨팅 시스템이다. 데이터와 컴퓨팅 시스템, 분석 및 학습 알고리즘 기술 이 세 가지가 곧 성공적인 AI 도입의 필수 요소인 셈이다.
찰스 CTO는 "연료가 되는 데이터의 양은 지수적으로 증가해왔고, 엔진에 해당하는 컴퓨팅 시스템 용량은 무어의 법칙에 따라 갈수록 성능 대비 비용이 낮아졌다"며 "여기에 알고리즘 기술까지 진화하면서 지금은 기술의 변화와 발전 등 모든 것들이 AI를 위해 잘 맞아떨어지는 시점이다"라고 말했다.
그는 데이터의 양이 지수적으로 증가한 이유로 ‘비정형 데이터’의 폭증을 꼽았다. 사진, 동영상, 음성 등이 대표적인 비정형 데이터다. 반대로 정형 데이터란 행과 열로 정렬할 수 있는 정보를 말한다. 이름, 나이, 성별, 연락처 등 액셀에 잘 정리된 고객 장부를 떠올릴 만하다. 정형 데이터는 분류 기준이 명확하기 때문에 아무리 양이 많아도 분석하는 데 큰 어려움이 없는 편이다.
반면, 비정형 데이터는 분류 기준이 명확치 않다. 사진 한 장에도 관점에 따라서는 피사체 수, 인물, 배경, 색감 등 수많은 분류 기준이 존재하는데 이 사진이 1000장, 100만장이라면 분류를 위한 경우의 수가 기하급수적으로 증가한다. 심지어 비정형 데이터는 정형 데이터와 비교해 파일 하나하나의 용량도 훨씬 크다.
일례로 자율주행차는 실시간으로 도로 영상을 수집해 필요한 정보를 분석한 후 즉시 명령을 내리는 하나의 거대한 데이터센터와도 같다. 자동차 업계에 따르면, 한 대의 자율주행차가 한 시간 동안 생성하는 데이터 용량은 4테라바이트(TB)에 이른다. 초고화질 영화 5000여편에 달하는 방대한 양이다.
결국, AI를 위한 컴퓨팅 시스템은 고성능 서버나 GPU와 같이 성능을 대변하는 요소뿐 아니라 방대한 비정형 데이터를 효율적으로 저장하고 처리할 수 있는 스토리지에 이르까지 통합 관점에서 바라봐야 한다는 게 그의 설명이다.
찰스 CTO는 "AI 분석이 실제로 일어나는 구간을 엣지(최종 사용자 영역), 코어(기업 데이터센터), 클라우드로 구분할 수 있는데, 특히 자율주행차와 같은 엣지단에서는 지연시간이 생명이기 때문에 정보를 빨리 처리하는 게 핵심이다"라며 "기업이 AI로 어떤 혁신을 추구할 것인지, 어떤 워크로드가 핵심인지에 따라 온 프레미스(구축형)와 퍼블릭 및 프라이빗 클라우드 등 멀티 클라우드 전략도 고려할 필요가 있다"고 말했다.