챗GPT로 시작된 초거대 인공지능(AI) 열풍은 여러 산업의 판도까지 뒤바꾸고 있다. 그 중 가장 밀접하게 연결된 산업은 반도체다. AI 열풍에 최근 반도체 산업은 AI 연산 처리 능력에 초점이 맞춰진 NPU(Neural Processing Unit) 즉, AI반도체로 집중되고 있다.

AI반도체는 초거대 AI 구현을 위한 컴퓨팅 인프라뿐만 아니라 자율주행, 이미지 분석, AI 그래픽 기술 등에도 적용되기 때문에 반도체 시장의 미래 먹거리라 불릴 만 하다. 시장조사업체 가트너는 2022년 전세계 AI반도체 시장 규모가 2021년 343억달러(44조8000억원)에서 2025년 711억 달러로 성장할 것이라고 내다봤다. 엔비디아, 구글, 인텔, 테슬라 등 글로벌 빅테크 기업들이 일찌감치 비즈니스 영역을 AI반도체로 확장한 이유도 여기에 있다.

국내 기업들도 고삐를 당기고 있다. 삼성전자와 SK하이닉스 등 대기업은 물론 퓨리오사AI, 사피온, 리벨리온 등 국내 팹리스 전문기업들도 나섰다. 그간 AI반도체의 연산 처리 부분에 있어 걸림돌이었던 부분들을 해결하며 앞으로의 국내 AI반도체 시장 전망을 밝게 하고 있다.

이들 국내 업체 중 퓨리오사AI의 설립 멤버인 김한준 CTO는 "AI반도체 시장은 아직 초기 단계다. 빅테크 기업들이 이 분야에 집중 투자를 하고 있지만 아직 해결해야 할 부분들이 많은 상황이어서 국내 스타트업들도 기술력을 가지고 있다면 충분히 경쟁해볼 수 있다"는 확신을 보였다.

퓨리오사AI의 경우 지난해 첫 AI반도체 ‘워보이(Warboy)’를 출시하고 성능 테스트에서 엔비디아를 앞지르는 성과를 보인 바 있다. 김 CTO와 ‘국내 기업의 경쟁력’에 대해 이야기를 나눴다.

김한준 퓨리오사AI CTO  / 조상록 기자
김한준 퓨리오사AI CTO / 조상록 기자
― AI반도체가 CPU나 GPU와 다른 점은 무엇인가.

"AI반도체는 빠르고 효율적이라는 점이 강점인 프로세서다. 기존에는 그래픽처리장치(GPU)가 AI 병렬연산을 대신했다. 그럴 수 있었던 게 몇 천 개의 코어가 데이터를 동시에 처리할 수 있기 때문인데 AI반도체 또한 큰 틀에서는 이 구조와 유사하다.

다만, AI 연산 처리라고 하면 거의 대부분 딥러닝을 지칭한다. 이 구조는 한번 모델이 만들어지면 그 구조가 크게 바뀌지 않기 때문에 프로세서 내부에서의 연산 과정이 비교적 단순한 편이다. 하지만 대량의 데이터를 처리해야 한다는 부분에서는 이를 위한 별도의 기술이 필요하다. 챗GPT만 봐도 한 번 질문하고 답을 얻는 데 1750억개의 파라미터를 읽어내는 과정을 거치게 된다."

― AI반도체가 왜 상대적으로 빠르고 효율적인가. 연산 과정이 상대적으로 단순하기 때문인가.

"엄청난 양의 데이터를 처리하면 그만큼 많은 에너지가 필요하게 된다. 그래서 GPU와 비교한다고 가정하면 같은 양의 데이터를 처리할 때 더 적은 에너지를 사용하는 것이 중요하다.

보통 GPU의 구조를 보면 데이터를 저장하는 D램과 이를 연산 처리하는 S램(칩 내의 메모리)으로 나눠진다. S램은 연산이 주요 기능이기 때문에 많은 데이터를 보관할 수 없고 연산할 때마다 D램에서 데이터를 가져온다. 이 과정에서 에너지가 소모된다.

AI반도체는 S램을 상대적으로 크게 만들어 데이터가 오가는 프로세스를 효율화 한다. 그때 그때 데이터를 가져오지 않아도 되기 때문에 연산 속도가 빨라지고 에너지 소모는 줄어들게 되는 것이다."

― AI반도체가 에너지를 적게 사용하는게 당연히 좋은 것은 알겠다. 근데 왜 이 부분이 더 중요해질까.

"앞서도 언급했지만 AI 모델이 한번 추론 과정을 거칠 때마다 파라미터(매개 변수)를 한 번씩은 D램에서 가져와야 한다. 이 과정에서 발생하는 에너지 비용은 데이터센터를 운영하는 기업 입장에서는 상당한 부담으로 작용한다. 이 비용을 줄일 수 있는 AI반도체가 있다고 하면 당장 교체하고 싶을 것이다.

운용 비용을 줄이는 목적도 있다. 반도체는 많은 열을 발생시킨다. 데이터센터는 이 열을 빼내는 별도의 장치까지 운용해야 된다. 열은 제품의 성능이나 내구성에도 영향을 미치기 때문에 고장난 제품을 수리 또는 교체하는 등의 관리도 지속적으로 이뤄져야 한다. AI반도체가 이 모든 것을 0으로 만드는 것은 아니지만 기존보다 줄일 수는 있다.

가장 중요한 부분은 앞으로 처리해야 하는 초거대 AI는 더 커지는데 기존 시스템에서는 분명 한계가 있을 것이다. 그러면 AI반도체의 장점의 필요성이 불가피해질 것이다."

― AI반도체는 구글, 엔비디아, 인텔 등 글로벌 빅테크 기업들이 적극적으로 드라이브를 걸고 있다. 단순하게 놓고만 봐도 반도체 산업의 핵심 기술을 보유한 기업들이 당연히 AI반도체 시장까지 지배할 것이라는 계산이 나온다.

"딥러닝 연산이 과학 연산이나 그래픽 연산보다 단순한 것은 사실이다. 하지만 뉴럴 네트워크 구조가 서로 다르기 때문에 D램에서 데이터를 불러오는 과정에서 복잡성이 발생될 수밖에 없다. 이는 하드웨어 구조로는 해결하기 어렵다. 결국 컴파일러라고 하는 소프트웨어에 의존해야 한다.

구글의 TPU를 예로 들면 분명 고성능인 것은 맞다. 다만 AI를 트레이닝과 추론으로 구분했을 때는 트레이닝에 더 특화돼 있다. 하지만 최근 초거대 AI 인프라 기반의 챗GPT, 스테이블 디퓨전 등의 생성 AI는 추론(인퍼런스- 학습을 마친 모델로 실제 과제를 수행하는 과정) AI 영역이다.

이 추론 부분에 있어서는 반드시 빅테크 기업의 제품이라고 해서 고성능을 발휘하는 것은 아니다. 추론 연산은 복잡성을 해결해야 하기 때문에 소프트웨어 기술이 중요하다. 그런 점에서는 퓨리오사AI를 포함해 리벨리온(Rebellions, 한국), 그래프코어(Graphcore, 영국), 그로크(Groq, 미국) 등 국내외 기업들이 오히려 더 좋은 성과를 내고 있다. 때문에 AI반도체 시장에서 만큼은 빅테크 기업과 충분히 경쟁해 볼 수 있다고 생각된다."

― 추론 연산을 할 때 복잡성이 생겨날 수밖에 없는 것인가. 이 부분이 좀 와닿지 않는다.

"보통 딥러닝 연산을 하는 AI반도체는 대량의 매트릭스 곱하기 연산 유닛(MXU)들로 구성됐다. 여기에는 소수의 거대한 MXU를 넣을 수도 있고, 다수의 작은 MXU를 넣을 수도 있다. 예를 들어 구글 TPU의 MXU는 128 × 128 구조로, 1만6000개의 연산을 수행할 수 있는 소수의 거대한 MXU에 속한다.

이러한 구조가 AI 트레이닝 단계에서는 데이터 모양이 거대한 매트릭스 형태에 맞게 들어가기 때문에 성능을 충분히 활용하는데, 추론 단계에서는 얘기가 달라진다.

추론에서는 매트릭스 활용 구조나 배치가 다양해지고 데이터 양도 격차가 크다. 쉽게 말해 연산하려는 데이터 모양이 거대한 MXU 형태에 알맞지 않을 수 있다는 것이다. 기존의 구조를 그대로 활용한다면 경우에 따라서는 80%를 활용할 수 있지만 10%도 활용 못하기도 한다.

이를 해결하는 방법은 있다. 연산 유닛을 좀더 작은 단위로 묶는, 다수의 작은 MXU 구조로 AI반도체를 만들면 된다. 이 경우에도 데이터의 이동 구조가 복잡해져 오히려 연산 성능이 제대로 나오지 않게 된다는 문제가 생긴다. 결국 이를 해결하기 위해서는 컴파일러라고 하는 소프트웨어 기술이 필요한 것이다."

― 결국 AI반도체의 경쟁력은 소프트웨어인 것 같다.

"그렇다. 사실 AI반도체가 지향하는 부분은 ‘에너지 대비 성능’이다. 같은 에너지 내에서는 더 좋은 성능을 내야 하고, 반대로 같은 성능이라면 더 적은 에너지를 사용해야 한다. 에너지 대비 성능에 우선돼야 하는 필요 조건이 있다면 ‘사용자가 원하는 AI 모델을 실행할 수 있어야 한다’는 ‘프로그래머빌리티(Programmability)’다.

현재까지 많은 NPU 사용자들이 AI 모델을 실행했을 때 실패한 경험이 있을 것이다. 이유는 AI반도체 기업들이 주로 하드웨어 기반이기 때문에 소프트웨어가 만들어지기 전에 반도체가 설계된다는 점에 있다. 다양한 AI 모델을 사용할 수 있도록 하는 컴파일러 소프트웨어가 부족하기 때문에 사용자들이 실제 다양한 AI 모델을 실행하려고 하면 번번히 실패하게 되는 것이다.

AI 모델에 GPU가 주로 사용되고 있는 것도 컴파일러를 갖고 있기 때문인데, 만약 사용자가 원하는 AI 모델을 AI반도체에서도 동등하게 사용할 수 있다고 인식되는 순간부터는 AI반도체 수요가 급팽창할 것이라고 예상된다."

퓨리오사AI의 첫 AI반도체 ‘워보이(Warboy)’가 장착된 카드 / 조상록 기자
퓨리오사AI의 첫 AI반도체 ‘워보이(Warboy)’가 장착된 카드 / 조상록 기자
― 퓨리오사AI의 차별점도 소프트웨어인가.

"맞다. 퓨리오사AI는 다수의 MXU를 컴파일러에 의해 다양한 모양의 거대한 MXU로 구성할 수 있도록 함으로써 상대적으로 낮은 소프트웨어 복잡도로 다양한 데이터 형태의 연산을 효율적으로 수행할 수 있도록 했다.

특히 내년에 양산을 계획하고 있는AI반도체는 엔비디아의 고성능 반도체와 동급 혹은 그 이상의 성능을 보이면서도 에너지는 절반 이하로 사용하게 된다. 그렇게 할 수 있는 이유는 딥러닝의 연산에 특화돼 좀더 낮은 하드웨어 복잡도를 가지며, 소프트웨어에 의해 더 높은 에너지 효율을 달성할 수 있는 구조를 갖기 때문이다. 반면 GPU는 모든 종류의 병렬처리 연산을 해야 하기 때문에 하드웨어 복잡도를 가질 수밖에 없는 구조다."

― 반도체 관련해서 삼성전자와 SK하이닉스를 언급 안 할 수 없다. AI반도체에서 메모리를 공급해주는 D램의 역할이 크다는 것은 이해하겠다. 다만 향후 AI반도체 시장의 비중이 커진다면 아무래도 파운드리보다는 팹리스 기업들의 영향력이 더 커지지 않을까라는 생각이 든다.

"삼성전자, SK하이닉스는 앞으로도 반도체 시장의 대표 플레이어 역할을 할 것이다. 두 기업은 메모리 반도체에서 가장 앞선 기술을 보유하고 있다. AI반도체의 설계, 특히 초거대 AI를 위한 AI반도체에 있어 메모리의 성능과 에너지 효율성은 매우 중요하기 때문이다. 개인적으로 두 기업은 AI반도체를 포함한 고성능 컴퓨팅 영역의 중요성을 알고 있기 때문에 메모리 이상의 시도를 할 것으로 예상된다.

이를 위해서는 우리와 같은 팹리스 기업들과 협력하는 것이 반도체 시장의 영향력을 넓히는 데 도움이 될 것이라고 생각한다. 인텔이 2019년 이스라엘 AI반도체 스타트업 하바나랩스를 인수하고 AI반도체 ‘가우디2’를 선보인 것처럼 말이다."

― 끝으로 AI반도체 산업이 어떻게 발전할 것인지 묻고 싶다

"지금 빅테크 기업들이 운용하는 데이터센터에는 대부분 GPU가 채택됐다. 앞으로 초거대 AI 인프라 구축 비중이 더 커진다면 GPU 비용 부담이 커질 수밖에 없다. 결국 AI 연산에 특화된 AI반도체를 찾을 수밖에 없게 될 것이다. 이미 성숙한 컴퓨팅 시장과는 달리 AI반도체 시장은 아직 초기 단계이기 때문에 앞으로 폭발적 성장이 일어날 것으로 기대된다.

활용 영역도 다양해질 것이다. 현재는 주로 초거대 AI 트레이닝과 추론에 활용되지만 자율주행 차에서 AI 모델을 실행할 때도, 구글 포토 등에서 사진을 분류하고 사람을 인식하는 AI 모델에도, 낮은 해상도의 게임이나 영상을 높은 해상도로 변경하는 기술에도 더 활발하게 사용될 것이다."

조상록 기자 jsrok@chosunbiz.com