한글과컴퓨터(이하 한컴)가 인공지능(AI) 학습 및 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개한다고 17일 밝혔다.
이번에 공개된 '오픈데이터로더 PDF(OpenDataLoader PDF)'는 한컴이 축적한 문서 처리 기술력으로 바탕으로 개발한 PDF 데이터 추출 엔진이다. 한컴에 따르면 PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 AI 개발 과정에서 큰 제약이 따랐다.
한컴은 이러한 문제를 해결하기 위해 지난 7월 PDF 기술 전문 기업 듀얼랩과 업무협약을 체결했다. 이번 오픈소스 프로젝트는 그 첫 결실로 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하고 이번 기술 공개를 통해 본격적인 확산에 나선다.
공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환한다.
오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다.
한편, 한컴은 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.
정지환 한컴 최고기술책임자(CTO)는 “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”며 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다”고 말했다.
김경아 기자
kimka@chosunbiz.com