한글과컴퓨터(이하 한컴)는 자사의 PDF 데이터 추출 기술 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’가 글로벌 AI 개발 프레임워크인 ‘랭체인(LangChain)’의 도큐먼트 로더 PDF(Document Loader PDF) 파트 공식 구성요소(Component)로 등록됐다고 3일 밝혔다.

한컴 오픈데이터로더 PDF 랭체인 등록 페이지 / 한글과컴퓨터
한컴 오픈데이터로더 PDF 랭체인 등록 페이지 / 한글과컴퓨터

랭체인은 챗GPT와 같은 대규모 언어모델(LLM)을 기반으로 다양한 인공지능(AI) 애플리케이션을 구축하는 데 널리 사용되는 오픈소스 프레임워크다. 전 세계 수십만 명의 AI 개발자가 활용한다.

‘오픈데이터로더 PDF’는 AI 학습 및 활용 과정에서 고질적인 병목 현상을 유발했던 PDF 문서 내 텍스트, 표, 이미지 등의 데이터를 정확하고 빠르게 추출해 AI가 즉시 활용 가능한 형태로 변환하는 기술이다. 한컴은 이번 랭체인 공식 등록을 통해 PDF 데이터 처리 문제로 어려움을 겪는 전 세계 AI 개발자들에게 ‘오픈데이터로더 PDF’를 PDF 데이터 분야에서 가장 신뢰할 수 있는 솔루션으로 직접 제공할 수 있게 됐다.

정지환 한컴 최고기술책임자(CTO)는 “랭체인 공식 등록은 한컴의 문서 처리 기술력이 글로벌 AI 개발 생태계의 표준으로 인정받은 중요한 성과”라며 “코드 공개에서 더 나아가, 전 세계 개발자들이 가장 활발하게 사용하는 글로벌 AI 프레임워크에 직접 통합됨으로써 AI 시대 데이터 활용의 어려움을 해결하는 데 실질적으로 기여하게 되어 기쁘다”고 말했다.

김경아 기자
kimka@chosunbiz.com