중국 AI 스타트업 딥시크가 오픈AI의 챗GPT 훈련비용 5%에 불과한 자금으로 비슷한 생성형 AI를 내놓은 가운데 실리콘밸리에서 딥시크 견제에 나섰다. 미국 IT업계 반응은 시큰둥한 모양새다. 오픈AI가 했던 방식을 딥시크가 따라하는 모양새라서다.
31일 블룸버그, 파이낸셜타임스, CNN 등 외신에 따르면 챗GPT 개발사 오픈AI와 마이크로소프트(MS)는 딥시크가 AI 모델 훈련을 위해 오픈AI의 데이터를 무단으로 수집했는지에 관한 조사에 착수했다.
오픈AI 대변인은 외신에 “딥시크가 적절하지 못한 방법으로 오픈AI의 AI모델을 ‘증류(Distilling)’했을 가능성을 검토하고 있다”고 밝혔다. 증류는 개발자들이 더 크고 정교한 AI 모델의 성능을 기반으로 더 작은 AI 모델을 학습시키는 일종의 모방 기술을 말한다.
외신은 이번 딥시크 소동에 관해 미국 IT업계가 별다른 반응을 보이지 않는다고 봤다. 증류가 AI 업계에서 자주 사용되는 방식이라는 이유다. CNN은 인터넷에서 무단으로 데이터를 긁어모은 것을 기반으로 AI를 구축한 스타트업인 오픈AI가 딥시크를 향해 사실상 같은 일을 했다고 비난하는 꼴이라고 지적했다. 오픈AI가 무단으로 학습한 데이터를 딥시크가 무단으로 학습했는지를 오픈AI가 조사한다는 것이다.
실제 오픈AI는 뉴욕타임스를 비롯한 여러 콘텐츠 제작자·제작사와 챗GPT 훈련에 저작권자의 허락 없이 저작물을 무단으로 사용했다는 이유로 소송 중이다. 오픈AI는 AI 훈련에 저작물을 사용한 것은 인정하는 대신 공정이용(Fair Use)이라는 법적 개념에 따라 저작권을 침해하지 않는다는 법리 다툼을 벌이고 있다. 공정이용은 저작물을 허가 없이 이용해도 연구·비평·보도 등 특정 목적을 충족하면 저작권 침해가 아니라고 보는 원칙을 말한다.
AI 컨설턴트인 잭 카스 전 오픈AI 시장 개척 책임자는 CNN에 “만약 딥시크가 챗GPT에 대규모로 질의하고 그 응답을 활용해 자체 모델을 학습시켰다면 이는 오픈AI의 API를 무단으로 사용한 것일 수 있다”며 “이번 사안의 사실관계를 떠나 이제 AI 업계가 공정이용과 무단복제의 경계를 명확하게 설정해야 할 시점이 됐다”고 밝혔다.
한편 딥시크는 1월 20일 저가의 그래픽처리장치(GPU)를 이용해 훈련한 고성능 AI 모델 ‘R1’을 공개했다. R1은 챗GPT, 메타의 ‘라마’, 앤트로픽 ‘클로드’ 등 미국 빅테크 주요 AI 모델의 성능과 비슷하거나 그 이상으로 알려져 있다. 세간의 관심이 쏠린 이유는 R1 훈련비용이 557만6000달러(약 79억원)쯤이라서다. 이는 메타가 라마3를 훈련하는데 들인 비용의 10%쯤이다.
변인호 기자
jubar@chosunbiz.com