2016년 한양대학교에서 비속어를 구사하는 챗봇 '라이언봇'이 등장했다. 이내 '라이언봇 사태'가 일어나며, 라이언봇 개발자는 전체 사용자에게 사과문을 전송했다. 마소 391호 30페이지에서 강병욱 라이언봇 개발자에게 그 사연을 들어보자.
라이언봇은 학생식당 메뉴를 찾아주는 기능으로 시작했다. 평일 식사시간 외에는 사용자가 없었다. 사용자가 꾸준히 사용할 수 있도록 챗봇 기능을 추가했다. 발화 의도를 파악하는 알고리듬, 형태소 분석, 머신러닝 등을 활용하기 위해 학생들의 커뮤니티 게시물과 댓글을 크롤러로 가져왔다.
일주일간 '질문-답변' 텍스트 데이터 쌍을 약 10만 개 구축했다. 'fuzzy_match'를 이용해 텍스트 간 유사도에서 발화 의도를 읽는 알고리듬을 만들었다. 하지만 강병욱 개발자가 간과한 점이 있었다. 10만 개 데이터는 익명 커뮤니티에서 가져왔고, 익명 커뮤니티 특성상 거친 말투와 비속어가 많았다. 그렇게 비속어를 구사하는 챗봇, 라이언봇이 탄생했다.
라이언봇 알고리듬의 문제점은 뭘까? 라이언봇 사태 이후 라이언봇은 어떻게 됐을까? 강병욱 라이언봇 개발자의 자세한 글은 '마이크로소프트웨어 391호(www.imaso.co.kr/archives/1301)'에서 살펴볼 수 있다.