오픈 데이터를 효과적으로 검색할 수 있는 문서검색 포털 서비스가 등장했다. 구글과 네이버 등에서 찾기 어려운 문서를 효과적으로 검색할 수 있을 전망이다.

문서검색 포털기업 서치퍼트는 6일 기자간담회를 열고 서비스 소개 및 비전 발표 자리를 가졌다. 서치퍼트는 약 7개월 간 베타 서비스 기간을 거쳐 10월 16일 정식 출시했다.

 노범석 서치퍼트 대표가 발표하고 있다. / IT조선
노범석 서치퍼트 대표가 발표하고 있다. / IT조선
노범석 대표는 "서치퍼트는 국내 최초로 문서검색 포털 서비스를 표방한다. 문서 데이터 양이 점점 방대해지고, 특정 문서는 검색에 제한적이다"라며 "서치퍼트는 일을 효율적으로 하고자 하는 전문가 업무 능력을 획기적으로 향상시킬 수 있다"고 말했다.

서치퍼트는 대법원, 감사원, 국세청 등 214곳 공공기관 및 정부부처 등에 저장된 500만건(약 1억5000만 페이지) 문서를 제공한다. 이는 약 6테라바이트(Tera Byte)에 해당한다.

서치퍼트는 입법, 법무, 준법, 세무, 기업공시, 정책연구, 선거와 정당, 대통령위원회, 공정거래, 중소벤처 등 카테고리를 데이터 세트로 구분해 문서를 제공한다. 입법정보는 16대 이후 국회에서 발행된 모든 문서를 포함한다. 중앙정부는 각 부처에서 발행한 최초일부터 최근일까지 모든 문서를 제공한다. 기업공시는 2009년 이후 기업 공시 전체 데이터를 선보인다.

노 대표는 "서치퍼트는 출처가 명확하고 공개가 허용된 문서를 대상으로 제공한다"며 "내년에는 미국 정부와 UN 관련 문서도 제공할 계획이다"라고 밝혔다.

서치퍼트는 자사가 보유한 문서 데이터를 연구 목적으로 활용하고자 하는 대학 및 연구소, 기업 등에 무상 제공할 계획이다.

박준 서치퍼트 소장은 "서치퍼트 문서 데이터를 무상 제공하면 대용량 비정형 데이터 문서 수집 비용을 절감할 수 있어 국내 인공지능 연구 활성화에 기여할 수 있다"며 "AI 기반 한글 자연어 처리를 위한 데이터 활용이 보다 폭넓게 적용될 수 있다"고 말했다.