네이버가 인공지능(AI) 서비스 클로바에 이용자 대화를 저장해 왔다는 사실이 알려지면서 사생활 침해 논란이 불거졌다. 이에 네이버는 이용 약관에 음성 데이터를 저장할 수 있다는 내용을 명시해 전혀 문제될 게 없다는 입장이다. 또 이용자 대화는 서비스 품질을 위해 활용되며, 이용자가 누구인지는 확인할 수 없다고 부연했다.
3일 관련 업계에 따르면 네이버는 클로바에 이용자 대화 내용을 녹음한 뒤 협력사인 그린웹에 의뢰해 음성 내용을 문자화하는 작업을 해왔다. 수년간 이어진 해당 작업은 다양한 실제 이용자 음성을 분석해 AI 인식 수준을 높이기 위해 진행됐다. 그린웹 소속 직원들은 별도 보안계약서를 작성한 뒤 작업을 맡아 왔다.
네이버에 따르면 이용자가 "헤이, 클로바"라고 말을 걸기 시작한 이후부터 대화 음성이 저장된다. 클로바를 호출하지 않으면 대화 내용이 수집되지 않는다. 주로 길찾기, 음악재생, 날씨, 뉴스 등 서비스를 음성 호출하는 내용이 많다.
이를 이유로 일각에서는 음성 데이터를 누군가 듣는다는 사실만으로 사생활 침해가 이뤄진 것 아니냐고 지적한다.
앞서 애플과 페이스북, 구글, 아마존 등 자체 AI를 가진 IT기업들도 유사한 논란에 직면하기도 했다. 실제 이용자 데이터를 내부 직원이 듣고 AI 성능 향상에 활용한다는 사실이 알려지면서다. 아마존 등 일부 기업에서는 이용자 데이터를 외부로 유출시키는 사태까지 발생했다.
비판이 커지자 구글과 애플 등은 이용자 대화 저장을 중지했다. 아마존은 AI의 음성 데이터 수집을 이용자가 직접 차단할 수 있는 기능을 내놨다.
하지만 네이버는 문제가 없다는 입장이다. 데이터 저장은 이용약관에 따른 것이며, 품질 측정과 제고를 위한 조치라는 설명이다.
실제 클로바 이용약관에는 이용자에게 좀 더 좋은 서비스를 제공하기 위해 클로바 이용과정에서 입력하는 데이터(음성명령, 메모, 대화, 연동기기 위치정보) 등을 저장해 품질 개선 및 성능 향상에 활용할 수 있다는 내용이 담겼다.
네이버에 따르면 데이터는 저장 1주일 후 비식별화 처리된다. 1주일은 이용자 등 정보주체 문의가 들어올 경우 이를 반영하거나 처리하기 위해 둔 기간이다. 이 기간 동안에는 AI 기능 향상을 위한 작업에 데이터가 활용되지 않는다. 비식별 처리 이후 직원들이 실제로 듣게 되는 데이터는 전체 이용자 데이터 중 1%에 불과하다는 설명도 덧붙였다.
네이버 관계자는 "실제 직원이 듣게 되더라도 문장이 끊어져 맥락이 이어지지 않아 들어도 누가 무슨 얘기를 하는지 이해할 수 없도록 처리하고 있다"고 설명했다. 그는 이어 "향후 프라이버시 보호 강화를 위해 연합학습과 비감독학습 등에 대한 연구를 진행하는 등 다양한 조치를 취하겠다"고 전했다.