빅데이터를 두고 흔히 ‘21세기의 원유’라고 표현한다. 원유를 잘 정제하면 가솔린, LPG, 경유 등 연료는 물론이고 플라스틱, 아스팔트 등 현대 산업의 필수재를 생산할 수 있는 것처럼 엄청나게 쌓인 데이터를 잘 분석하면 큰 부가가치를 만들 수 있다는 의미에서다.

데이터 분석으로 큰 부가가치를 만드는 대표적인 예로 최근 급부상하는 인공지능(AI)을 꼽을 수 있다. AI에 대한 연구는 지난 수십년간 꾸준이 이뤄졌지만, 과거 30년보다 근래 3년 들어 이룬 성과가 더 많다고 해도 과언이 아니다. 인간의 뇌를 모사한 신경망 네트워크나 딥 러닝 기술의 급속한 발전은 데이터 분석 기술의 발전과 궤를 같이 한다.

이제 남은 건 AI가 엄청난 양의 데이터를 잘 학습할 수 있도록 뒷받침해주는 컴퓨팅 시스템이다. 데이터와 컴퓨팅 시스템, 분석 및 학습 알고리즘 기술 이 세 가지가 곧 성공적인 AI 도입의 필수 요소인 셈이다.

찰스 세비어 델EMC 비정형 데이터 솔루션 담당 최고기술책임자(CTO). / 델EMC 제공
찰스 세비어 델EMC 비정형 데이터 솔루션 담당 최고기술책임자(CTO). / 델EMC 제공
찰스 세비어 델EMC 비정형 데이터 솔루션 담당 최고기술책임자(CTO)는 이 세 가지를 자동차에 비유해 ▲데이터=연료 ▲시스템=엔진 ▲알고리즘=운전자로 정의한다. 셋 중 어느 하나라도 뒷받침되지 않으면 이 자동차는 움직이지 않으며, AI 역시 마찬가지라는 게 그의 설명이다.

찰스 CTO는 "연료가 되는 데이터의 양은 지수적으로 증가해왔고, 엔진에 해당하는 컴퓨팅 시스템 용량은 무어의 법칙에 따라 갈수록 성능 대비 비용이 낮아졌다"며 "여기에 알고리즘 기술까지 진화하면서 지금은 기술의 변화와 발전 등 모든 것들이 AI를 위해 잘 맞아떨어지는 시점이다"라고 말했다.

그는 데이터의 양이 지수적으로 증가한 이유로 ‘비정형 데이터’의 폭증을 꼽았다. 사진, 동영상, 음성 등이 대표적인 비정형 데이터다. 반대로 정형 데이터란 행과 열로 정렬할 수 있는 정보를 말한다. 이름, 나이, 성별, 연락처 등 액셀에 잘 정리된 고객 장부를 떠올릴 만하다. 정형 데이터는 분류 기준이 명확하기 때문에 아무리 양이 많아도 분석하는 데 큰 어려움이 없는 편이다.

반면, 비정형 데이터는 분류 기준이 명확치 않다. 사진 한 장에도 관점에 따라서는 피사체 수, 인물, 배경, 색감 등 수많은 분류 기준이 존재하는데 이 사진이 1000장, 100만장이라면 분류를 위한 경우의 수가 기하급수적으로 증가한다. 심지어 비정형 데이터는 정형 데이터와 비교해 파일 하나하나의 용량도 훨씬 크다.

일례로 자율주행차는 실시간으로 도로 영상을 수집해 필요한 정보를 분석한 후 즉시 명령을 내리는 하나의 거대한 데이터센터와도 같다. 자동차 업계에 따르면, 한 대의 자율주행차가 한 시간 동안 생성하는 데이터 용량은 4테라바이트(TB)에 이른다. 초고화질 영화 5000여편에 달하는 방대한 양이다.

결국, AI를 위한 컴퓨팅 시스템은 고성능 서버나 GPU와 같이 성능을 대변하는 요소뿐 아니라 방대한 비정형 데이터를 효율적으로 저장하고 처리할 수 있는 스토리지에 이르까지 통합 관점에서 바라봐야 한다는 게 그의 설명이다.

찰스 CTO는 "AI 분석이 실제로 일어나는 구간을 엣지(최종 사용자 영역), 코어(기업 데이터센터), 클라우드로 구분할 수 있는데, 특히 자율주행차와 같은 엣지단에서는 지연시간이 생명이기 때문에 정보를 빨리 처리하는 게 핵심이다"라며 "기업이 AI로 어떤 혁신을 추구할 것인지, 어떤 워크로드가 핵심인지에 따라 온 프레미스(구축형)와 퍼블릭 및 프라이빗 클라우드 등 멀티 클라우드 전략도 고려할 필요가 있다"고 말했다.