4차 산업혁명 시대의 미래를 이끌어가야 할 대학생들은 이 시대의 기술 요소를 어떻게 받아들이고 있을까. 연세대학교 IT경영학회인 ISSU(Information System SIG of Undergraduate) 학회원들이 한 학기 동안 4차 산업혁명 시대 주요한 기술 요소를 주제로 스터디를 진행했습니다. 대학생의 시선에서 바라본 기술의 현재와 고민을 살펴보기 위해 최대한 제출된 원본 그대로를 전달합니다. 상반기에 이어 진행한 ‘대학생 이슈 리포트 2019’ 하반기 편은 총 6회를 소개합니다. [편집자주]

오프라인 매장의 히든카드, O2O커머스
사람을 닮아가는 AI음성 비서
GAN: 감쪽같은 가짜, 어디까지 허용해야 하나
AI면접: 현재와 미래 방향성
시민과 함께하는 스마트 시티
인공지능이 그린 그림, 저작권 누구에게

음성 인터페이스와 AI 음성 에이전트

음성으로 스마트폰, 스마트 스피커나 차량 내에 탑재된 인공지능(AI) 음성 비서에게 명령을 내리는 것은 더 이상 낯선 풍경이 아니다. 영국의 리서치 회사 ‘오범(Ovum)’의 보고서에 의하면, AI 음성 비서를 탑재한 디지털 기기는 2021년이면 75억 대까지 늘어나서 현재의 세계 인구보다 더 많아질 것이라고 예측한다. 이는 AI 기술이 발달함에 따라 스마트 스피커와 같은 ‘음성 인터페이스(VUI)’가 차세대 인터페이스로 떠오르며 이미 우리의 생활에 밀착된다는 것을 보여준다.


구글의 스마트 스피커 ‘구글홈(Google Home)’ / 구글스토어 갈무리
구글의 스마트 스피커 ‘구글홈(Google Home)’ / 구글스토어 갈무리
VUI는 대화를 통해 스마트 기기를 제어하는 인터페이스 기술이다. 음성을 통해 상호작용 하기 때문에 두 가지 이상의 과업을 동시에 할 수 있고 디바이스에 물리적으로 가까이 가지 않아도 제어가 가능하다는 편리함을 통해 사용자 경험(UX)을 혁신할 수 있다.

VUI에는 빅스비(Bixby), 시리(Siri), 누구(NUGU), 알렉사(Alexa) 등과 같이 우리가 음성으로 내리는 명령을 수행해주는 AI 음성 비서, 이른바 ‘음성 에이전트(Voice Agent)’가 탑재됐다. 음성 에이전트는 인공지능과 자연어 처리 기술의 발달로, 대화 방식이 쉽고 편리하게 진화하고 있다. 음성 에이전트에게 ‘나 추워’, ‘음악 틀어줘’와 같이 사람에게 말하듯 명령해도, 사람의 발화 의도와 맥락까지 이해하고 명령을 수행할 수 있다. 이뿐만이 아니다. 음성 에이전트와 잡담을 나눌 수 있으며, 상호작용의 즐거움까지 더해지고 있다. 음성 에이전트가 점차 사람과 닮아가고 있는 것이다.

음성 에이전트의 의인화

"아…안타깝네요. 얘기하고 싶으시면 제가 곁에 있어 드릴게요."

아이폰에 탑재된 음성 에이전트인 ‘시리’에게 우울하다고 하자, 시리는 마치 사람의 ‘우울하다’는 감정을 이해하듯 사려 깊고 따뜻하게 대답한다. 이처럼 인간이 아닌 대상을 인간으로 인식해 정서적인 교감이 가능한 사람처럼 느껴지도록 설계하는 것을 ‘의인화(Anthropomorphism)’해 설계한다고 한다. 이와 같은 음성 에이전트의 의인화 설계는 ‘CASA(Computers Are Social Actors)’에서 출발한다. CASA는 인간이 다른 인간과 상호작용하는 방식으로 자신도 모르게 컴퓨터와 상호작용한다는 연구 패러다임이다. 특히 이러한 현상은 컴퓨터를 목소리나 성격, 언어적 표현 등으로 ‘의인화’하는 경우에 나타난다는 것이 이 연구의 핵심이다.

그렇다면 음성 에이전트가 내 말을 잘 알아듣고 명령을 잘 수행하면 됐지, 왜 컴퓨터를 사람처럼 느끼게 하려는 것일까? 음성 에이전트를 의인화해 설계하는 이유는 크게 ‘기능적 효용성’과 ‘정서적 효용성’을 향상하려는 두 가지 목적으로 나누어 볼 수 있다.

먼저 기능적 효용성의 향상은 ‘쉬운 상호작용’을 돕기 위함으로 볼 수 있는데, ‘말’이라는 직관적인 방식으로 상호작용하는 것은 쉽고 자연스러운 대화를 통해 사용성을 향상하기 때문이다. 두 번째로 정서적 효용성의 향상은 신뢰와 친밀감과 같은 사회적 상호작용을 높이기 위함으로 볼 수 있다. 연구에 따르면 컴퓨터 에이전트에게 업무가 상당 부분 위임되는 환경에서는 사용자의 신뢰와 협력이 중요해지며, 친밀감은 현재 일어나고 있는 일에 대해 이해를 증가시켜 불확실성을 감소시키기 때문에 신뢰를 형성한다고 한다. 즉, 의인화된 음성 에이전트의 설계 목적은 사람과 유사하게 상호작용함으로써 쉽게 상호작용할 수 있으며, 그 과정에서 느끼는 상호작용의 즐거움을 통해 친밀감과 신뢰를 얻기 위함으로 볼 수 있다.

아이폰에 탑재된 음성 에이전트 ‘시리’와의 대화. / 애플 갈무리
아이폰에 탑재된 음성 에이전트 ‘시리’와의 대화. / 애플 갈무리
호주에서 열린 세계적인 IT박람회인 ‘세빗(CeBIT)’에서 핸슨 로보틱스(Hanson Robotics)의 창업자인 데이비드 핸슨은 사람은 사람과 닮은 것과 상호작용하고 싶어 하며, 그렇기에 사람과 닮은 AI가 중요하다고 강조했다. AI가 효과적으로 사람과 소통하고 진화하기 위해서는 인간적인 모습이 필요하다는 것이다. 이처럼 AI와 더불어 살아갈 미래를 위해 음성 에이전트의 의인화된 설계의 중요성이 대두되고 있다.

그렇다면 과연 무엇이 대화형 에이전트를 사람처럼 느껴지도록 하는가. 아이폰 음성 에이전트 시리와 나눈 여러 대화를 중심으로 음성 에이전트의 의인화 전략에 대해 알아봤다.

시리의 사례로 알아보는 의인화 전략

퍼소나
시리는 과연 어떤 모습일지 상상해보자. 목소리를 들어보니 성별은 여성일 것으로 생각된다. 우리는 대화를 통해 시리의 모습을 머릿속에 그려볼 수 있는데, 이와 같이 대화형 에이전트의 이름이나 목소리, 성별, 성격 등 일관되게 구축된 정체성을 ‘퍼소나(Persona)’라고 한다. 구체적인 퍼소나의 설계는 대화형 에이전트의 사회적 실재감을 높여줄 수 있다. 이를 통해 사용자가 친숙한 경험을 할 수 있으므로 의인화에 있어서 중요한 요소로 작용한다.

감정표현
우리는 흔히 감정표현을 하지 않는 사람을 ‘기계 같다’고 한다. 이처럼 다양하고 미묘한 감정표현은 사람을 사람답게 하는 지극히 인간적인 요소이다. 따라서 대화형 에이전트를 사람처럼 느껴지도록 만드는데 효과적으로 작용할 수 있다. 다음의 대화에서 시리의 감정을 추측해보자.

- 나 - "시리야, 결혼하자."
- 시리 - "그냥 친구 사이로 남죠, 네?"

위의 대화를 통해 우리는 시리의 답변에 담긴 불편함의 감정을 단번에 알아차릴 수 있다. 대화형 에이전트의 이러한 감정표현은 사용자로 하여금 에이전트와의 상호작용과 교감의 재미를 갖게 한다.

자기 노출
‘자기 노출(Self-disclosure)’은 사람이 자신의 평소 의견, 경험과 같이 개인적인 정보를 밝히는 것이다. 이는 개인적인 영역을 드러내기 때문에 친밀감을 높이는 요소이다. 다음의 대화로 이 생소한 개념을 쉽게 이해할 수 있을 것이다.

- 나 – "시리야, 인생이란 뭘까?"
- 시리 – "한 편의 영화와도 같다고 생각해요."

대화에서 시리는 필자도 잘 설명하지 못하는 ‘인생이란 무엇인가’에 대해 자신의 생각을 말하고 있다. 연구에 따르면 에이전트의 자기노출이 사용자에게 더 큰 호감과 친밀도를 갖게 하는 효과가 있다고 한다.

잡담
잡담(Chitchat)은 일상에서 흔히 상대방과의 거리를 좁히기 위해 하는 가벼운 대화라고 할 수 있다. 잡담 중에서도 유머는 대화형 에이전트와의 상호작용에 있어서 뜻밖의 즐거움을 주는 요소로 작용한다.

- 나 – "시리야, 좋아하는 음식이 뭐야?"
- 시리 – "온톨로지를 좋아하죠. 살짝 익힌 걸로요."

온톨로지(사물 간의 관계 및 여러 개념을 컴퓨터가 처리할 수 있는 형태로 표현하는 것)에 대해 알고 있는 사용자라면 시리의 답변이 유머라는 것을 눈치챘을 것이다. 이와 같이 대화형 에이전트의 유머 사용은, 그렇지 않은 에이전트보다 호감도가 높으며 능력 있다고 평가된다는 연구 결과가 있다.

적절한 의인화 수준에 대한 고민

지금까지 시리와의 대화를 통해 몇 가지의 음성 에이전트의 의인화 요소에 대해 알아봤다. 그렇다면 앞으로 고민해야 할 문제는 바로 ‘얼마나 사람처럼 설계할 것인가?’이다.

대화형 에이전트의 의인화에 관한 많은 연구들이 말해주듯, 의인화된 음성 에이전트는 쉬운 상호작용을 돕고 사용자와의 친밀한 관계를 형성시킬 수 있다. 특히 미래 인공지능의 고도화로 인해 사람과 정서적으로 교감하는 ‘디지털 컴패니언(Digital Companion)’으로서 사회적 관계 형성을 돕는 하나의 방법으로 사용될 수 있으므로 중요하게 고려해야 할 설계 요소이다.

하지만 높은 의인화 수준이 반드시 사용자에게 좋은 경험을 주는 것은 아니다. 의인화 수준이 증가해 로봇이 인간과 유사해질수록 호감도가 함께 증가하다가, 어느 수준에 도달하면 강한 거부감으로 바뀌게 되는 ‘불쾌한 골짜기(Uncanny Valley)’ 현상이 발생할 수 있기 때문이다. 아직까지는 사용자가 음성 에이전트에게 친구가 아닌 ‘비서’로의 인공지능 역할을 기대하고 있다는 연구 결과가 있다. 즉, 음성 에이전트에게 명령을 수행해주기를 원하며 사람으로부터 느끼고 싶은 정서적인 어떤 것을 바라지 않고 있다는 것이다.

따라서 음성 에이전트의 의인화 수준을 설정할 때는 에이전트가 제공하고자 하는 가치, 즉 ‘목적’에 대한 고려가 필요하다. 정서적 교감과 같은 사회 지향적(Social-oriented)인 과업을 수행하는 에이전트는 그에 알맞은 높은 수준의 의인화가 필요하다. 하지만 검색이나 진단 등 과업 지향적(Task-oriented)인 목적으로 만들어진 에이전트에게 높은 수준의 의인화는 오히려 전문성에 대해 사용자의 기대치를 낮춘다는 연구가 있다. 즉, 목적에 따라 음성 에이전트의 다른 의인화 수준이 다르게 설계되어야 할 것이다.

마치며

미래 AI 음성 에이전트는 우리에게 도움을 주고 함께 협력해야 할 존재로 자리 잡을 것이다. 사람을 닮아가도록 설계하는 ‘의인화’는 사람과 음성 에이전트와의 친밀하고 협력적인 관계 형성에 도움을 줄 수 있을 것이다. 이처럼 음성 에이전트의 의인화 설계는 그 목적이 분명하다. 향후 다양한 의인화 요소를 통해 더욱 사람처럼 설계될 것이다. 하지만 음성 에이전트는 생명체가 아닌 기계, 즉 ‘컴퓨터’이므로 사용자에게 거부감을 주지 않는 적절한 의인화 수준 역시 신중히 고민해야 할 문제이다.

미래 음성 에이전트는 과연 얼마나 사람을 닮았을지 아직은 알 수 없다. 하지만 우리가 알 수 있는 사실은 음성 에이전트가 어떤 모습으로 설계되더라도 그것이 ‘사람 중심’ 일 것이라는 점이다. 따라서 설계자는 음성 에이전트의 정체성과 상호작용 방법의 설계가 언제나 사람을 돕고 함께 협력하도록 하기 위함이라는 지향점을 잊지 말아야 한다.