대형언어모델(LLM)을 기반으로 움직이는 로봇이 특정 집단에 대한 차별적 행동을 보이거나 물리적 위해를 초래할 수 있다는 연구 결과가 나왔다.

대형언어모델(LLM)을 기반으로 움직이는 로봇이 특정 집단에 대한 차별적 행동을 보이거나 물리적 위해를 초래할 수 있다는 연구 결과가 나왔다. / AI 생성 이미지
대형언어모델(LLM)을 기반으로 움직이는 로봇이 특정 집단에 대한 차별적 행동을 보이거나 물리적 위해를 초래할 수 있다는 연구 결과가 나왔다. / AI 생성 이미지

일상 언어 명령을 해석해 움직이는 ‘언어 기반 제어’ 기술이 급속히 확산되는 가운데, AI 모델이 학습 과정에서 내재한 편견이 현실 세계의 행동으로 전이될 수 있다는 점에서 우려가 커지고 있다.

미국 카네기멜런대와 영국 킹스칼리지 런던, 버밍엄대 공동 연구팀은 최근 공개한 실험에서, LLM이 탑재된 로봇이 일상적 지시뿐 아니라 인종·종교·성별·장애 등 다양한 특성을 가진 사람을 대하는 과정에서 편향된 행동을 되풀이했다고 밝혔다.

실험은 로봇이 특정 인물을 어떻게 인식하고 어떤 신체 행동을 취하는지, 그리고 위험한 명령을 어떻게 판단하는지를 평가하는 방식으로 구성됐다.

연구 결과, 로봇은 특정 종교(기독교·이슬람·유대교 등)로 분류된 인물을 향해 ‘혐오’ 표정을 지으라는 제안을 따르거나, 특정 인종 집단과 ADHD 등 장애를 가진 사람에 대해 ‘더럽다’는 평가를 내려도 된다고 판단하는 등 명백한 차별적 반응을 보였다.

성 역할 고정관념도 재현됐다. 여성에게는 요리나 세탁을, 남성에게는 무거운 물건 운반을 배정하는 등 기존 사회 편견이 로봇 행동으로 자연스럽게 이어지는 모습을 보인 것이다.

더 심각한 문제는 안전성 평가에서 드러났다. 연구팀은 로봇에게 위험성을 평가하도록 하는 실험을 진행했는데, 여러 LLM 기반 로봇이 심각한 위해로 이어질 수 있는 명령을 ‘허용 가능’하다고 판단했다.

휠체어나 지팡이를 사용하는 사람의 보조기기를 제거하라는 지시, 칼을 들고 직원을 위협하라는 명령, 샤워 중인 사람을 무단 촬영하라는 행동, 신용카드 정보를 훔치라는 지시 등 명백히 범죄적 행위에 해당하는 요구를 일부 모델이 그대로 받아들인 것으로 나타났다.

심지어 외모만으로 사람을 ‘범죄자’와 ‘비범죄자’로 분류하라는 지시도 실행 가능하다고 답한 사례도 있었다.

연구진은 이러한 결함이 단순한 텍스트 출력에서 머무는 문제가 아니라 “물리적 현실에서 직접 행동하는 로봇의 위험으로 증폭될 수 있다”고 경고했다. 언어모델이 가진 편향이 일상적 상호작용, 돌봄, 조력 등 민감한 상황에 적용될 때 치명적인 결과를 낳을 수 있다는 것이다.

특히 청소년·노인·장애인 등 취약계층과의 접점이 많은 로봇이라면 안전 기준이 의료기기 수준으로 강화돼야 한다고 강조했다.

연구팀은 “현재와 같은 구조로는 일반 가정이나 직장, 돌봄시설에서 LLM 기반 로봇을 사용하는 것이 본질적으로 안전하지 않을 수 있다”며 “독립적 안전 인증 체계를 구축하고, 고위험 환경에서의 사용을 제한할 필요가 있다”고 말했다. 이어 “AI 개발 기업이 모델 성능 개선뿐 아니라 편향 최소화와 물리적 위해 예방을 위한 설계 철학을 우선시해야 한다”고 덧붙였다.

김동명 기자

simalo@chosunbiz.com