머신러닝을 활용하면 단순 작업을 자동화해 업무 시간을 단축시킬 수 있다. 이종국 싸이버로지텍 미래기술개발팀 팀장은 이미지 형태의 계약서에서 주소를 텍스트로 추출하는 프로젝트에 머신러닝을 도입했다.

광학 문자 인식(Optical character recognition, OCR)을 활용하면 쉽게 이미지에서 텍스트를 추출할 수 있다. 하지만 세계 각국에서 전달되는 계약서 포맷이 제각각이라 단순히 텍스트를 읽는 것으로는 주소 추출이 불가능했다.

이종국 팀장은 10개월간 프로젝트를 진행해 머신러닝 분류기를 만들었다. 머신러닝 분류기의 텍스트 추출 성공률은 82%로 고객사가 인정하는 최소 기준을 달성했다. 텍스트 추출기에 적합하지 않은 문서는 별도의 수동 처리 영역으로 분류해 신규 알고리듬 추가로 정확도를 높였다.

수동 처리 영역 분류를 추가한 플로차트 / 마이크로소프트웨어 391호 발췌
수동 처리 영역 분류를 추가한 플로차트 / 마이크로소프트웨어 391호 발췌
이종국 팀장은 성공적인 프로젝트의 진행을 위해서는 적합한 연구환경, 적합한 인력, 적합한 과제가 머신러닝 기술보다 중요하다면서 머신러닝에 집중할 수 있도록 배려한 회사에 감사를 표했다.

머신러닝 기반 텍스트 주소 추출기 개발에 대한 이종국 팀장의 글은 '마이크로소프트웨어 391호(www.imaso.co.kr/archives/1301)'에서 볼 수 있다.