“AI 데이터 병목 해소”… 한컴, PDF 추출 핵심 기술 오픈소스로 공개

2025-09-17 김경아 기자

한글과컴퓨터(이하 한컴)가 인공지능(AI) 학습 및 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개한다고 17일 밝혔다.

한컴이 공개한 오픈데이터로더 PDF 공식 깃허브 페이지 / 한컴

이번에 공개된 '오픈데이터로더 PDF(OpenDataLoader PDF)'는 한컴이 축적한 문서 처리 기술력으로 바탕으로 개발한 PDF 데이터 추출 엔진이다. 한컴에 따르면 PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 AI 개발 과정에서 큰 제약이 따랐다.

한컴은 이러한 문제를 해결하기 위해 지난 7월 PDF 기술 전문 기업 듀얼랩과 업무협약을 체결했다. 이번 오픈소스 프로젝트는 그 첫 결실로 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하고 이번 기술 공개를 통해 본격적인 확산에 나선다.

공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환한다.

오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다.

한편, 한컴은 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.

정지환 한컴 최고기술책임자(CTO)는 “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”며 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다”고 말했다.

김경아 기자

kimka@chosunbiz.com