머신러닝을 활용하면 단순 작업을 자동화해 업무 시간을 단축시킬 수 있다. 이종국 싸이버로지텍 미래기술개발팀 팀장은 이미지 형태의 계약서에서 주소를 텍스트로 추출하는 프로젝트에 머신러닝을 도입했다.
광학 문자 인식(Optical character recognition, OCR)을 활용하면 쉽게 이미지에서 텍스트를 추출할 수 있다. 하지만 세계 각국에서 전달되는 계약서 포맷이 제각각이라 단순히 텍스트를 읽는 것으로는 주소 추출이 불가능했다.
이종국 팀장은 10개월간 프로젝트를 진행해 머신러닝 분류기를 만들었다. 머신러닝 분류기의 텍스트 추출 성공률은 82%로 고객사가 인정하는 최소 기준을 달성했다. 텍스트 추출기에 적합하지 않은 문서는 별도의 수동 처리 영역으로 분류해 신규 알고리듬 추가로 정확도를 높였다.
머신러닝 기반 텍스트 주소 추출기 개발에 대한 이종국 팀장의 글은 '마이크로소프트웨어 391호(www.imaso.co.kr/archives/1301)'에서 볼 수 있다.