국내 유일의 소프트웨어 전문 잡지 마이크로소프트웨어(이하 마소)가 휴간에 들어간 지 12개월 만에 다시 발간됐다. 조선미디어그룹의 IT전문 매체인 IT조선은 2016년 1월 23일 마소 발행권을 소프트뱅크벤처스로부터 인수하고, 8개월에 걸쳐 복간 작업을 진행해 1월 20일 마소 387호를 발행했다. 새로운 마소는 3개월마다 단일 테마를 집중적으로 다루는 무크(Mook)스타일로 출간될 예정이다.

마소 387호의 주제는 4차 산업혁명 시대를 이끌 기술로 주목받고 있는 '인공지능(AI)'이다. AI는 사물인터넷(IoT), 클라우드, 빅데이터 등과 직·간접적으로 연결돼 기존과는 다른 새로운 서비스의 등장을 이끌고 있다. AI를 이용해 개인화된 콘텐츠나 제품의 구성을 시도하는 예는 이미 우리 주변에서 어렵지 않게 볼 수 있다.

인터넷에 넘쳐나는 글에서 긍정 또는 부정의 감정을 읽어내는 기술도 AI의 동작방식을 이해하는데 도움이 된다. 유재명 퀀트랩 대표는 마소 387호에서 '파이썬(Python)'을 이용한 긍정과 부정의 분석'이라는 주제로 기계학습을 이용한 텍스트 감정 분석의 개요를 소개했다.

텍스트에서 긍정과 부정의 감정을 읽어내 서비스에 적용한 예는 많다. 이를 방대한 데이터에 자동화해 적용할 수 있다면 더할 나위가 없을 것이다. / 마소387호
텍스트에서 긍정과 부정의 감정을 읽어내 서비스에 적용한 예는 많다. 이를 방대한 데이터에 자동화해 적용할 수 있다면 더할 나위가 없을 것이다. / 마소387호
감정 분석을 수행하는 가장 간단한 방법은 긍정적인 단어나 부정적인 단어가 몇 번 나왔는지 세어보는 것이다. 컴퓨터나 스마트폰 리뷰에서 '느리다' 같은 단어가 자주 눈에 띈다면, 리뷰를 다 읽어보지 않더라도 부정적인 리뷰임을 짐작할 수 있다. 이렇듯 긍정 단어와 부정 단어를 모아놓은 것을 '감정 사전'이라고 부른다.

감정 사전을 이용하면 분석 자체는 간단하지만, 감정 사전을 만드는 게 쉽지 않다. 많은 데이터가 필요하기도 하거니와, 어떤 단어는 맥락에 따라 긍정적으로 쓰이기도 하고, 부정적으로 쓰이기도 하기 때문이다.

또 다른 감정 분석 방법은 통계 또는 기계학습을 활용하는 것이다. 인터넷 서비스에서 별점을 매기거나 고객의 구매 패턴을 분석해 다음 구매 행위를 예측하는 것도 컴퓨터에게 패턴을 학습시키는 일종의 기계학습의 하나다.

유 대표는 파이썬으로 기계학습 모델을 구현하는 과정을 소개했다. 파이썬은 R과 함께 데이터 분석가들이 가장 많이 사용하는 프로그래밍 언어로, 특히 기계학습 분야에서 강점을 갖고 있다.

유 대표는 이 강좌에서 파이썬에서 가장 널리 사용되는 기계 학습 라이브러리 '사이킷런(Scikit-Learn)'을 이용했다. 사이킷런은 회귀, 분류, 군집 등 다양한 기계학습 기법들은 물론, 기계학습에 필요한 전처리나 모형 평가 등의 방대한 기능을 제공한다.

사이킷런의 장점 중 하나는 여러가지 기계학습 방법을 일관된 방식으로 수행할 수 있도록 설계돼 있어 한 가지 기법을 익히면 다른 기법도 쉽게 배울 수 있다는 것이다. 데이터가 충분하다면 여기서 소개한 모형 이외의 다른 기법들을 적용해볼 수도 있다.

파이썬을 이용한 긍정과 부정의 분석에 대한 보다 상세한 내용은 마소 387호에서 만나볼 수 있다.