[줌인IT] 딥시크 충격을 바라보는 서로 다른 시선들
최근 전 세계의 인공지능(AI) 업계에 큰 충격을 준 사건으로 중국의 ‘딥시크(DeekSeek)’가 ‘딥시크-R1’ 모델을 발표한 것을 꼽을 수 있겠다. 지금까지 새로운 AI 모델이 등장하면서 시장에 준 충격은 보통 ‘성능’이었지만 이번엔 달랐다. 딥시크 R1의 성능은 기존의 모델과 큰 차이 없었지만 이를 만들고 쓰는 데 드는 ‘비용’은 시장에 충격을 던졌다. 특히 미국의 빅테크들은 큰 충격을 받는 듯 했고, 미국의 제재에도 중국이 그래픽처리장치(GPU)를 밀수하는 것인가 의심하는 상황도 펼쳐지고 있다.
또 다른 방향에서는 이제 AI 인프라의 본격적인 ‘다변화’ 시점이 다가오고 있다는 의견도 있다. 지금까지 AI 인프라의 핵심 구성 요소로는 특정 제조 업체의 그래픽처리장치(GPU)가 꼽혔고 심하게는 ‘이게 없으면 우리는 아무 것도 할 수 없다’는 것이 중론이었다. AI의 스케일링 법칙은 ‘더 큰 인프라가 더 좋은 모델을 만든다’는 것이었고 확보한 GPU 인프라 규모와 데이터 규모가 현재 모델의 성능과 앞으로의 경쟁력을 결정한다고 믿기도 했다.
딥시크의 등장에서 '비용' 이슈의 그 이면에는 기존의 ‘AI 스케일링 법칙’이 깨질 수 있다는 점에서 큰 충격으로 받아들여진 게 아닌가 싶기도 하다. 딥시크는 지금까지의 AI 모델들이 발표한 개발 비용과 투입된 인프라에 비하면 아주 작은 수준으로 비슷한 성능을 만들어 냈다. 특유의 MoE(Mixture-of-Experts) 기법은 추론에 사용할 때도 더 적은 자원을 사용할 수 있게 해 준다. 이에, 지금까지 GPU에 대한 집착과 AI 스케일링 법칙은 어찌 보면 허상이었을 수도 있다는 인식이 퍼지면서 엔비디아의 주가가 제법 큰 영향을 받는 모습도 보였다.
사실 AI 모델을 위한 인프라에서 GPU가 많이 사용되는 이유는 ‘시간’ 때문이다. 정확히는, 빠르게 모델이 바뀌는 상황에서 개발자들이 알고리즘 뿐만 아니라 새로운 하드웨어 개발 환경에 익숙해질 시간이 부족해 절대적인 실행 효율은 부족하지만 CPU보다 성능이 좋고, 유연성도 있어서 GPU를 선택한 것이 이유다. 이렇게 코드 기반이 쌓이면서 이를 다른 환경으로 옮기기보다는 코드에 하드웨어를 맞춘 것도 엔비디아 중심의 생태계로 굳어진 중요한 이유 중 하나다. 분명 개발 기간도 ‘효율’의 중요한 요소임은 분명하다.
하지만 지금은 이 ‘시간’에 약간의 여유가 생길 조짐이 보인다. 이미 차세대 모델들의 개발에서는 훈련에 사용할 데이터가 부족하고 큰 비용을 투자해 더 큰 데이터와 인프라를 투입함에도 모델의 성능이 제대로 올라가지 않는 특이점이 나타나고 있다. 이렇게 끝없이 높아지는 비용을 언제까지고 감당할 수도 없다. 이미 AI 시대의 지속가능성에 대한 의문은 커지고 있고 올해 AI 관련 시장의 가장 큰 화두는 본격적인 상업적 활용에서의 ‘수익성’이 꼽힌다.
지속가능한 AI 기술의 발전 가능성을 위해 언젠가는 인프라 기술 등의 ‘다변화’가 이뤄져야 하고 딥시크는 이러한 시대 전환의 계기를 던진 게 아닐까 싶다. 다양한 유형의 하드웨어에 대응하는 모델과 프레임워크의 다변화와 함께 모델의 ‘하드웨어 최적화’도 필요하다. 엔비디아의 최신 ‘블랙웰’도 FP4(4비트 부동소수점) 최적화를 하지 않으면 성능과 효율 모두 기존 ‘호퍼’와 비슷한 수준일 뿐이다. 이러한 상황에서 좀 더 다양한 하드웨어의 대응과 최적화는 새로운 AI 기술 수익성 시대를 열고 다변화된 생태계를 만들 수 있을 기회가 될 것이다.
딥시크는 국내에도 희망과 과제를 함께 제시한다. 이 중 희망은 상대적으로 자원과 비용이 열악한 국내 업체들도 충분히 AI 시장에서 경쟁력을 가질 수 있다는 부분일 것이다. 하지만 절대적으로 부족한 자원에 대한 ‘대안’을 찾아야 한다는 점이 과제다. 여러 모로 아직은 시간이 있는 듯 하지만 국내 공급이 부족하다고 아우성치는 엔비디아의 GPU만 하염없이 기다리는 일은 없어야 할 것이다.
권용만 기자
yongman.kwon@chosunbiz.com