빅데이터 분석 소프트웨어 플랫폼 업체 스플렁크가 하둡 배포판 업체들과 적극 협력에 나섰다. 하둡의 분산 파일 시스템에서 바로 스플렁크 솔루션을 사용할 수 있는 새로운 플랫폼 검증을 위해서다.

 

최근 스플렁크는 하둡에 저장된 데이터의 탐색, 분석 및 시각화를 지원하는 독립 플랫폼 ‘헝크(Hunk)’를 발표했다. 헝크는 데이터 마이그레이션이나 별도의 프로그래밍 과정 없이도 하둡에 저장된 데이터와 상호작용하고 이를 분석할 수 있도록 해주는 솔루션이다.

 

하둡은 저렴한 배치 스토리지에 대량의 데이터를 저장할 수 있는 기술적 토대를 제공했다. 실제로 많은 기업들이 빅데이터의 첫 걸음으로 하둡 인프라를 도입하기 시작하면서 ‘빅데이터=하둡’이라는 인식이 생겨나기까지 했다.

 

그러나 하둡에 저장한 데이터를 분석에 활용하기 위해서는 별도의 분석 플랫폼에 데이터를 올리는 과정이 필요하다. 이와 함께 데이터를 체계적으로 구조화하기 위한 모델링 작업을 위해서는 하둡에 대한 지식을 갖춘 전문 인력과 장시간의 개발 시간이 요구된다. 가트너는 하둡 기반 빅데이터 분석은 소프트웨어 기반 대비 20배 많은 서비스 비용이 사용된다는 점을 지적한 바 있다.

 

앞서 스플렁크는 지난해 하둡에 저장된 데이터를 스플렁크 플랫폼으로 옮겨와 분석할 수 있도록 지원하는 ‘하둡 커넥트’를 발표했다. 그러나 이러한 방식도 데이터의 양이 기하급수적으로 늘어나는 산업군에서는 금세 벽에 부딪쳤다는 것이 스플렁크의 설명이다.

 

산자이 메타(Sanjay Mehta) 스플렁크 프로덕트 마케팅 부사장은 “실제로 스플렁크의 일부 고객들은 하둡 데이터가 옮길 수 없을 정도로 커지는 문제를 호소했다”며 “이에 어떻게 하면 하둡에서 스플렁크와 같은 솔루션을 네이티브하게 이용할 수 잇을 것인가를 고민하게 됐다”고 말했다.

 

헝크는 하둡 내 데이터에 직접 접근하기 위해 ‘버추얼 인덱스(Virtual Index)’라는 기술을 새로 고안했다. 버추얼 인덱스는 마치 데이터가 스플렁크 인덱스로 저장된 것처럼 인식하도록 해 저장된 위치와 상관없이 원하는 데이터에 대한 상호 탐색, 분석 및 시각화를 가능하게 한다.

 

기존 스플렁크 엔터프라이즈 솔루션이 실시간 분석에 초점을 두고 있다면, 헝크는 이미 하둡 내에 존재하는 데이터를 배치 방식으로 분석함으로써 보다 대규모의 통찰력을 이끌어낼 수 있도록 지원한다.

 

현재 스플렁크는 클라우데라, 호튼웍스, 맵알테크놀로지와 같은 주요 하둡 배포판 업체들과 헝크 검증 작업에 나서고 있다. 현재 비공개 베타 프로그램 방식으로 운영되고 있으며, 스플렁크에 따르면 올해 하반기 정식 출시를 목표로 하고 있다.

 

산자이 메타 부사장은 “베타테스터에 따르면 지금까지는 하둡 내의 데이터를 가치 있게 활용하는데 몇 달이 소요됐으나 헝크를 사용한 경우 1시간으로 단축할 수 있었다고 한다”며 “헝크의 비용 청구 방식은 아직 공식적으로 확정되지는 않았으나, 용량 기반이 아닌 노드 기반의 지불 정책을 구상하고 있으며 이것이 하둡 생태계와 잘 맞아 떨어지리라고 본다”고 덧붙였다.

 

노동균 기자 yesno@chosunbiz.com

상품지식 전문뉴스 IT조선