"AI 강국 꿈꾸는데 왜 HWP 고집하나?" [공공DB의 과제④]

김태훈 서강대학교 교수 인터뷰

2025-08-08     홍주연 기자

정부가 '인공지능(AI) 강국 도약'을 선언했지만 공공기관의 HWP 파일 포맷 고집이 AI 개발을 가로막고 있다는 비판이 제기됐다. 김태훈 서강대학교 교수는 최근 IT조선과의 인터뷰에서 "AI 강국을 외치면서 정작 AI 학습 데이터 포맷조차 갖춰져 있지 않다”며 “이 모순부터 해결해야 한다”고 지적했다. 

김태훈 서강대학교 교수가 IT조선과 인터뷰 하고 있다. / 홍주연 기자

귀중한 한국어 데이터, HWP 때문에 '봉인' 상태

현재 우리나라 AI 학습 데이터의 90%는 영어를 기반으로 하고 있다. 한국어 데이터는 10% 남짓에 불과하다. AI 업계에서 공공기관과 공기업이 보유한 방대한 문서 데이터가 AI 주권 확보의 핵심 자원이라고 입을 모으는 배경이다. 하지만 가장 많은 한국어 데이터를 보유한 공공기관이 모두 HWP를 사용해 활용이 불가능하다는 것이 문제다.

김태훈 교수는 "한국어 데이터가 가장 많은 곳은 한국이고, 그 중에서도 한국어 문서를 가장 많이 확보하고 있는 건 한국 공공기관과 공기업이다"이라며 "그런데 HWP 파일 때문에 그 데이터 활용에 어려움이 있다"고 지적했다. 그는 이어 “보물창고에 보물이 가득한데 그 창고를 자물쇠로 채워놓은 것 같다”고 덧붙였다. 

특히 보안 중시 기관의 경우 상황이 더욱 심각하다. 김태훈 교수는 "군은 보안 유지를 위해 군 내부 데이터로만 AI를 학습해야 하는데, 군사 교범부터 시작해서 거의 모든 문서가 HWP 형태로 돼 있다”며 “시작부터 막혀버려 소버린 AI 구축은 불가능하다"고 말했다.

'AI가 이해할 수 없는' HWP 구조의 근본적 한계

HWP의 근본적 문제는 AI가 학습하기 어려운 구조라는 점이다. HWP를 개방형 문서 표준 HWPX로 변환하면 복잡한 XML 코드가 생성된다. 이와 관련해 김 교수는 "사람도 못 읽는 코드를 AI가 어떻게 이해하느냐"며 근본적 한계를 지적했다.

김 교수에 따르면 현재 AI는 사람처럼 이해하며 학습할 수 있어 PDF 파일이나 텍스트를 제공하는 방식으로 이뤄진다. 실제로 한국 공공문서는 복잡한 표 구조가 많이 사용되는데, HWP에서 텍스트만 추출하면 표는 살릴 수 없고 의미 없는 단어 나열만 남게 된다.

김 교수는 "현재 AI 연구자들은 HWP 파일을 PDF 파일로 변환하기 위해 편법으로 마우스 매크로를 쓰고 있다"고 말했다. "HWP 파일을 하나씩 한컴에서 열어서 PDF로 저장하는 방식"이라며 "사실상 표 같은 건 살릴 수 없고, 표에 있는 숫자들은 그냥 못 쓰는 거나 마찬가지"라고 현실을 토로했다.

 국제표준 외면하는 한컴의 '갈라파고스 전략'

김 교수는 한컴이 국제표준을 따르지 않고 자체적인 국가 표준을 따르고 있다는 점을 '갈라파고스 전략'으로 규정했다. "워드(DOCX) 같은 경우에는 정보보호 국제 표준 ECMA 표준, ISO/IEC 표준을 따르고 있는데, HWP는 우리나라 KS 표준을 따르는 XML"이라며 "한국만의 폐쇄적 시장을 만들려는 전략이다"라고 분석했다.

실제로 워드의 경우 마이크로소프트가 유료 서비스를 제공하지만 구글 독스 등 대체재가 많고, 다양한 앱에서 워드 파일을 열 수 있다. 반면 HWP, HWPX는 한컴 제품 없이는 열어볼 수조차 없는 상황이다.

"PDF 변환 API만이라도 개방 해야"

김 교수는 HWP 파일과 관련해 "연구자들이 원하는 건 그렇게 복잡한 기술이 아니다. 그냥 그 파일을 열어서 PDF로 바꿔주는 API 하나만 있으면 된다"고 강조했다. 또한 "기술력이 없다는 건 아닐 거다"라며 "이미 한컴 뷰어에서 PDF로 변환하는 기능을 제공하고 있지 않나. 그걸 API로만 열어주면 되는 일이다"라고 덧붙였다.

김 교수는 소버린 AI 자체의 필요성에는 공감을 표했다. "소버린 AI 확보 자체는 중요한 문제"라며 "HWP 문제 해결 없이는 진정한 소버린 AI 구축이 어렵다"고 말했다. 김 교수는 "AI 강국을 외치면서도 정작 AI가 학습할 수 있는 데이터 포맷조차 제대로 갖춰지지 않은 상황이다"라며 "한컴이 최소한 공공데이터 활용을 위한 기본적인 개방성은 보장해야 한다"고 강조했다.

[알립니다] "AI 연구자의 공공의 적"…30년 집착이 만든 디지털 갈라파고스 [공공DB의 과제] 등 관련

본지는 지난 8월 5일부터 8월 28일까지 "AI 연구자의 공공의 적"… 30년 집착이 만든 디지털 갈라파고스 등 제목으로 HWP·HWPX가 우리나라의 국가 AI 경쟁력을 떨어뜨리고 디지털 갈라파고스로 만든 원인이라는 6건의 기사를 보도했습니다.

이와 관련해 주식회사 한글과컴퓨터는 “데이터 추출이 어려운 바이너리 기반 문서 포맷은 전 세계 공통 문서 포맷으로, HWP만의 특징이 아니다. HWPX의 AI 학습 데이터 추출 수준도 국제표준과 차이가 없고, 선진국들이 국제표준을 도입한 것은 AI 대응 강화 목적이 아니라 디지털 주권 확립 목적이었거나 기존에 쓰던 문서 포맷이 국제표준이 된 것으로 확인됐다. PDF 역시 AI 학습에 부적합한 바이너리 파일이기에 HWP를 대체할 수는 없다”고 밝혀왔습니다.

또한 “특정 사이트에서 문서가 열리지 않는 것은 해당 사이트의 문서 포맷 지원 문제이고, 시각장애인을 위한 스크린리더 기술과 AI의 문서 판독은 전혀 다른 기술이다”라고 덧붙였습니다.

이 보도는 언론중재위원회의 조정에 따른 것입니다.

홍주연 기자
jyhong@chosunbiz.com