• 프린트
  • 메일
  • 목록
  • 글자크기
  • 크게
  • 작게

[마소 391호] 이미지를 문장으로 설명해주는 딥러닝 모델

입력 : 2018.02.06 12:00:00


오세용 기자

  •  
  •  
  •  
  •  
다니엘 라시먼(Daniel Julius Lasiman)은 트래블로카(Traveloka)에서 머신러닝 엔지니어로 일하며 숙박업소의 이미지에 설명을 넣는 작업을 하고 있었다. 그는 이미지에서 문장을 자동으로 생성할 수 있는 엔진을 만들어 업무효율을 높이고 싶었다. 그는 커패시(Karpathy) 스탠퍼드대 교수가 2016년 발표한 이미지 자동 캡션에 대한 논문을 접한 후 본격적으로 머신러닝 연구를 시작했다.

다니엘 엔지니어는 인공지능이 딥러닝(Deep Learning)의 등장으로 빠르게 발전하고 있다고 보고 논문과 추천 글을 읽으며 독학을 시작했다. 그 후 오리올 빈얄스의 이미지 자동 캡션 논문에서 영감을 받아 논문의 방법론을 구현하는 데 노력을 기울였다. 마소 391호에서는 다니엘 엔지니어의 재구현 과정 및 사례를 '이미지를 문장으로 설명해주는 딥러닝 모델'에서 볼 수 있다.

▲빈얄스의 논문 예시 / 마이크로소프트웨어 391호 발췌

다니엘 엔지니어는 머신러닝 모델 훈련에 플리커 8K 데이터셋을 이용했다. 이 데이터셋에는 학습셋 6000장, 검증셋 1000장, 테스트셋 1000장으로 총 8000장이 준비돼 있다. 빈얄스가 사용했던 'Inception v1' 대신 'Inception v3'를 사용해 CNN(Convolutional Neural Networks)을 구현했고, RNN(Recurrent Neural Networks)은 'singled-layered' LSTM 대신 'multi-layered' LSTM을 사용해 성능을 높였다.

이미지 자동 캡션에 대한 다니엘 엔지니어의 머신러닝 모델 개발기는 '마이크로소프트웨어 391호(www.imaso.co.kr/archives/1301)'에서 확인할 수 있다.



▶ 30만원대 '고려천홍삼진액고' 100세트한정 4만9000원에 할인판매

▶ '116만원' 삼성노트북, 딱! 하루쓰고 '60만원'대 판매

▶ 100% 국내 생산, 김영주골프화 66% 파격할인 '54,000원' 판매

  •  
  •  
  •  
  •  

파워링크 신청하기>



주요기사

[IT조선] 막동TV

0 1 2 3 4
배너
배너
배너
배너