[IT조선 유진상] 빅데이터가 ‘산업영역의 핵심가치’로 떠오르며 데이터 분석 기술이 보편적 경영의 요소로 잡아가고 있는 가운데 ‘데이터 레이크(Data Lake)’가 새로운 키워드로 떠오르고 있다. 일부 업체는 데이터 레이크가 빅데이터에 새로운 기회를 활용하도록 만드는데 있어 본질적인 부분이 될 수 있다고 강조하지만, 아직까지는 데이터 레이크에 대한 공통 정의를 제시하지 못하고 있고 이를 통해 가치를 창출하는 방법도 개발하지 못한 실정이라는 지적이다.

데이터 레이크는 말 그대로 데이터의 호수를 의미한다. 데이터를 사용하기 전에 다양한 종류의 데이터를 저장해 두는 객체 기반 저장소로 풀이할 수 있다. 가트너는 2015년 빅데이터 성장을 이끌 5가지 동인 중 하나로 데이터 레이크의 진화를 꼽을 정도로 빅데이터의 새로운 키워드로 급부상하고 있다.

이에 EMC와 피보탈, 테라데이터 등은 관련 솔루션을 잇따라 발표하며 이 시장을 선점하기 위해 노력하고 있다.

데이터 레이크 대응 솔루션 출시 활발

가장 적극적인 곳은 EMC와 피보탈이다. EMC는 피보탈, VM웨어 등 EMC 패더레이션 기술을 하나로 묶어 빅데이터 관리와 활용을 위한 엔지니어드 솔루션 ‘페더레이션 비즈니스 데이터 레이크(FBDL, Federation Business Data Lake)’를 8일 발표했다.

EMC는 대규모의 정형/비정형 데이터 저장과 하둡, 인메모리, NoSQL, 스케일아웃 MPP 등 다양한 데이터의 관리와 분석, 그리고 실시간으로 분석 결과를 전달하는 전달 및 실행(Surface & Act)을 데이터 레이크의 조건으로 정의하면서 FBDL을 통해 속도와 셀프서비스, 확장성의 요구를 만족시킬 수 있다고 설명했다.

EMC 엔지니어드 솔루션 '페더레이션 비즈니스 데이터 레이크'(그림=한국EMC)
EMC 엔지니어드 솔루션 '페더레이션 비즈니스 데이터 레이크'(그림=한국EMC)


특히 FBDL은 자회사인 VM웨어, 피보탈과 함께 ‘EMC 페더레이션’의 대표 제품들을 한데 모은 엔지니어드 솔루션이다. 기존에 한달 이상 소요되던 데이터 레이크 구축을 단 1주일 내에 완료할 수 있도록 설계됐다는 것이 EMC 측의 설명이다.

분석 레이어는 VM웨어 가상화를 기반으로 했으며 SQL온하둡(SQL-on-Hadoop) 엔진인 호크(HAWQ)를 포함한 피보탈HD(PivotalHD)로 구성됐다. SAS, 타블로(Tableau)의 분석 툴과 연계가 가능하며 클라우데라(Cloudera), 호튼웍스(Hortonworks) 등의 하둡 배포판과도 호환된다. 또 ‘EMC V블록(EMC VBlock)’과 ‘EMC 아이실론(EMC ISILON)’ 등 다양한 스토리지 솔루션으로 정형/비정형 데이터를 효율적으로 저장하고 데이터 증가에 따라 손쉽게 시스템을 확장할 수 있다.

테라데이터는 ‘테라데이타 통합데이터아키텍처(UDA,Unified Data Architecture)’ 기반의 ‘테라데이타 통합 데이터웨어하우스’, ‘테라데이타 애스터 디스커버리 플랫폼’, ‘테라데이타 애스터 앱’, ‘테라데이타 룸’ 등 분석 솔루션을 제공해 데이터 레이크 시장을 공략한다는 방침이다.

‘테라데이타 UDA’는 기존의 DW와 하둡 기반의 비정형 및 정형의 가공 전 원시 데이터(Raw Data)를 저장하는 데이터 레이크(Data Lake)와 다양한 통계와 시각화 도구를 이용한 데이터 탐색 플랫폼으로 구성됐다. 가트너의 로지컬 데이터웨어하우스(Logical Datawarehouse)에 기반한 아키텍처다.

테라데이터의 데이터 레이크 아키텍처(그림=한국테라데이타)
테라데이터의 데이터 레이크 아키텍처(그림=한국테라데이타)


공통정의와 가치창출 방법 제시 필요

중요한 점은 두 업체가 바라보는 데이터 레이크에 대한 관점이 다르다는 점이다. EMC 연합은 데이터 레이크에 대해 데이터웨어하우스(DW)와는 완전히 다른 개념으로 접근하고 있다. 반면 테라데이터 측은 데이터 레이크와 기존 데이터 웨어하우스가 결합돼야 한다는 입장이다.

때문에 관련 업계에서는 데이터 레이크에 대한 공통정의가 없고 이를 통해 가치 창출하는 방법도 개발하지 못한 실정이라고 지적한다. 또 데이터 레이크는 이미 빅데이터 안에서 새로울 것이 없다는 의견도 있다. 뿐만 아니라 데이터 레이크를 충분히 활용하기 위해서는 기업 내 모든 사용자들이 데이터 조작과 분석에 고도로 능숙해야 한다고 지적한다.

가트너는 데이터 레이크가 실질적인 리스크를 가지고 있다고 지적한다. 또 데이터 품질을 어떻게 측정할 지가 분명치 않고, 다른 분석가나 사용자들이 발견한 부분을 어떻게 연결시켜야 할지도 모호하다고 평가한다. 뿐만 아니라 메타데이터나 이를 유지하기 위한 메커니즘이 없으면, 데이터 레이크가 오히려 '데이터 늪'으로 작용할 수 있고, 데이터 사용시 분석가들을 혼란스럽게 만들 수도 있다고 지적했다.

특히 가트너는 “사용자들은 데이터가 어떻게 획득되고 어떻게 구조화되는지에 대하여 이해해야 할 것”이라며 “논리적 데이터 웨어하우스 전략을 개발하기 위해 데이터 레이크 개념 너머의 움직임을 신속히 파악하도록 만드는 것이 필요하다”고 조언했다.

유진상 기자 jinsang@chosunbiz.com