데이터사이언티스트라면 반드시 한 번쯤 고민해야 할 내용

오늘날 인공지능(AI) 기술은 국가나 기업 등의 의사 결정을 빠르게 가속할 수 있는 획기적인 기술로 꼽힌다.

방대한 데이터에서 유용한 정보를 뽑아내는데 여러 사람이 오랜 시간에 걸쳐 복잡한 연구와 토론을 거쳐야만 했던 것을 매우 짧은 시간에 도출할 수 있기 때문이다.

특히 주어진 데이터만으로 스스로 학습해 목표한 결과를 스스로 찾아내는 AI 모델을 만들 수 있는 머신러닝은 데이터 사이언스 분야의 꽂이라 할 수 있다.

하지만, AI 기술이 빠르게 발전하고, 본격적으로 정부의 정책 수립, 기업의 새로운 사업 추진, 각종 시뮬레이션과 분석 연구의 정확도 향상 등에 적용되기 시작한 이후 문제도 발생하기 시작했다. 익명 속에 숨겨졌던 개인 정보의 노출, 공정하지 못한 편향된 AI 모델의 발생 등 미처 예상하지 못했던 심각하고 중요한 문제들이 속속 발견되고 있다.

이러한 데이터 기반 AI 모델에서 발생하는 문제들은 단순히 데이터에서 목적한 결과를 도출할 수 있도록 설계한 ‘알고리즘’의 개선만으로는 해결할 수 없다. 지금까지 축적된 데이터만으로는 아무리 알고리즘을 잘 설계해도 민감한 개인 정보를 침해하거나, 공정하지 않고 좋지 않은 쪽으로 편향된 AI 모델이 발생할 수 있기 때문이다.

민감한 개인 정보를 보호하면서 정확도 높은 결과만 도출할 수 있거나, 보편적 관점에서 공평하고 정당하며 치우치지 않은 AI 모델을 개발하기 위해서는 단지 수학적인 접근법과 컴퓨터 공학적인 접근법만으로 부족하다. 알고리즘과 이에 기반한 머신러닝은 사람처럼 스스로 선악을 구별하고, 공정함을 구분할 수 있는 스스로의 기준이 없기 때문이다.

이 책은 머신러닝 기반 AI를 개발할 때, 더 안전하고 공정하면서도 정확한 AI 모델을 개발하는 데 도움이 될 수 있도록 다양한 사례와 거기서 발견된 문제점을 소개한다. 최대한 다양한 시점과 관점, 접근법 및 방법론 등을 통해 그런 문제들을 해결할 수 있다는 가능성을 제시한다. 결과적으로 AI의 개발에 있어 ‘사람의 역할’이 얼마나 중요한지 재차 강조한다.


알고리즘 윤리
"안전한 인공지능 알고리즘 설계 기법"
마이클 키언스, 아론 로스 지음 | 이정표 옮김 | 에이콘출판 | 228쪽 | 2만원

#10줄 요약

1. 머신러닝이라고 분류하는 훨씬 복합한 알고리즘은 데이터로부터 자동으로 생성된다. 여기서 사람의 역할은 최종 알고리즘(보통 모델이라고 함)이 데이터로부터 유도되는 절차를 코딩하는 것이며, 모델 자체를 직접 코딩하는 것은 아니다.

2. 머신러닝에서 발생하는 복잡하고 자동화된 의사결정은 설계자의 특성과는 다르게 그 자체의 특성을 갖는다. 이들 모델의 결과가 우리가 지키려는 사회적 규범을 존중하게 하려면, 이러한 목표를 알고리즘에 직접 설계하는 방법을 배워야 한다.

3. 데이터나 알고리즘 규제에 대한 광범위한 요구나 알고리즘의 반사회적 행동에 대한 소비자 및 입법부의 압력, 알고리즘의 해악을 인식하는 일반인의 증가 등의 현상은 과학적 연구의 필요성을 오히려 앞당겨야 한다는 것을 시사한다.

4. 데이터 익명 처리의 역사에서 실패 사례는 수도 없이 많다. 당신에 대한 아주 적은 수의 특정 사실만으로 전 세계 수십억의 사람들 사이에서 또는 대규모의 데이터베이스에서 당신을 충분히 식별할 수 있다는 점이다.

5. 민감한 고객 데이터가 예측 모델을 만드는 데 사용되고, 그 후에는 다양하고 광범위한 주체들에 의해 사용되는 방식으로 ‘공개’돼버리는 시대에 살다보니 프라이버시 보호의 중요성이 급속히 확대됐다.

6. 차분 프라이버시는 데이터 사용을 전면적으로 금지하지 않고도, 실제 데이터를 사용할 수 있게 만드는 가장 강력한 개인 정보 보호 방식 중 하나다.

7. 머신러닝 애플리케이션에서 사용되는 교육용 데이터에는 종종 다양한 종류의 숨겨진(또는 드러난) 편향이 포함되고, 그런 데이터로부터 복잡한 모델을 도출하는 과정에서 편향이 증폭되거나 새로운 편향이 도입된다는 것이다. 설계자가 명확히 명시하지 않으면 머신러닝이 저절로 중립성을 유지하는 경우는 없다는 것이다.

8. 궁극적으로 과학은 정보를 제공해줄 뿐, 어느 수준으로 공정성을 요구할 것인지를 선택하는 것은 항상 인간의 판단과 규범이다. 좋은 알고리즘 설계를 통해 여러 해법을 제시할 수는 있지만, 그중 하나를 선택하는 일은 여전히 사람의 몫이라는 뜻이다.

9. 특정 정보를 사용하지 못하게 하는 방식으로 공정성을 확보하겠다는 발상은 머신러닝 시대와는 맞지 않는 방법이다. 아무리 알고리즘 기반 의사결정 과정에서 특정 정보를 사용하지 못하게 해도, 그 정보를 찾아내어 사용하는 방법이 항상 있기 때문이다.

10. 데이터와 머신러닝이 보편화된 시대에서는 사회적 의사결정을 할 때 공정성과 정확도 간의 상충 관계가 있음을 인정해야 한다.

최용석 기자 redpriest@chosunbiz.com


관련기사