최근의 ‘인공지능(AI)’ 열풍은 컴퓨팅 환경의 근간에도 변화의 계기를 만들고 있다. 특히 최신 AI 모델 연산을 빠르게 수행할 수 있는 ‘AI 가속기’는 전 세계적으로 국가의 전략적 자산으로까지 다뤄질 만큼 높은 관심을 받고 있다. 이 분야에서 가장 앞선 기업으로는 ‘엔비디아’가 꼽히지만, 엔비디아 이외에도 다양한 업체들에서 다양한 형태의 ‘가속기’가 등장하고 있는 게 현재의 상황이다.

AI 가속기 시장을 바라봄에 있어, 대다수 AI 모델 연산의 근본에는 ‘행렬 연산’이 있다. 이에, AI 모델 연산을 빠르게 수행할 수 있는 것이 꼭 '그래픽처리장치(GPU)’일 필요는 없다. 오히려, GPU는 근본적인 목적이 ‘그래픽 연산’ 처리인 만큼, AI 모델 연산에는 비효율적인 측면도 있다. 또한 AI 모델의 훈련과 추론에 요구되는 연산의 특성도 다르고, 데이터센터와 엣지, PC와 모바일 등 AI 모델을 운영하는 환경의 상황도 모두 다르고, 하나의 제품이 모든 상황에 대응할 수도 없다.

이에 데이터센터와 엣지, PC와 모바일 등 디바이스에서 AI를 다루기 위한 ‘가속기’들은 모두 각자의 목표와 시장 접근 전략을 가지고 있다. 엔비디아나 인텔, AMD 등의 글로벌 대기업들은 시장 전반의 ‘범용성’을 염두에 두고 움직이지만, 모두가 그런 것은 아니다. 최근 등장하는 클라우드 서비스들의 전용 가속기는 그들의 서비스 모델에 최적화된 모습이다. 국내 제조사들의 가속기 또한 대형 통신사와 클라우드 환경이 우선 고려된 것이 특징이다.

엔비디아 H100 SXM5 GPU 8개가 탑재된 GPU서버 / 권용만 기자
엔비디아 H100 SXM5 GPU 8개가 탑재된 GPU서버 / 권용만 기자

글로벌 칩 제조사들, 시장 전반의 ‘범용성’ 중심 움직임

AI 가속기 시장에서 가장 주목받는 업체라면 역시 대형 글로벌 칩 제조사들일 것이다. 특히 이 시장에서는 기존 컴퓨팅 시장의 양대 중앙처리장치(CPU) 제조사인 인텔과 AMD, 그래픽처리장치(GPU) 시장에서 큰 영향력을 가진 엔비디아와 AMD가 꼽힌다. 물론 최근 각 사의 제품군 구성을 보면, 세 회사 모두 CPU와 GPU는 물론 데이터센터를 위한 플랫폼 전반을 모두 갖추고 있다.

흔히 엔비디아와 AMD, 인텔의 데이터센터용 AI 가속용 프로세서를 ‘GPU’라고 하지만, 엄밀히 말하면 이는 적합치 않다. 세 회사의 프로세서 모두 태생은 최신 GPU 아키텍처에서 왔지만, 기능 측면에서는 연산 기능에 집중해 그래픽을 위한 처리 기능을 최소화했거나 아예 빼 버리기도 했다. 

이에 엔비디아의 경우 현재 그래픽용 아키텍처는 ‘에이다 러브레이스(Ada Lovelace)’, 연산용은 ‘호퍼(Hopper)’로 분리됐고, AMD는 그래픽용 ‘RDNA’, 연산용은 ‘CDNA’로 분리돼 있다. 인텔은 단일 Xe 아키텍처에서 다양한 제품군이 파생되는데, 데이터센터용 ‘Xe-HPC’는 연산 특화 구성이다. 이에 ‘호퍼’나 ‘CDNA’, ‘Xe-HPC’ 기반 제품은 GPU라 부르기보다는 ‘AI 가속기’로 부르는 게 더 적합할 것이다.

인텔 가우디 2 AI 가속기 / 권용만 기자
인텔 가우디 2 AI 가속기 / 권용만 기자

GPU 기반에서 온 이들 AI 가속기의 장점은 뛰어난 병렬성과 나름대로의 범용성을 모두 갖추고 있다는 것이다. 특히 엔비디아의 경우 2006년 GPU에서 범용 연산을 구현할 수 있는 ‘CUDA’ 환경을 처음 선보인 이후 지속적으로 기능과 성능을 확장시켜 온 바 있다. 그리고  2017년 ‘볼타(Volta)’ 아키텍처에서부터 선보인 ‘텐서 코어(Tensor Core)’는 행렬 연산에서 곱셈 이후 결과를 행렬에 더하는 연산 과정을 한 번에 수행해, 기존의 CUDA 코어로 연산하는 것보다도 크게는 수 배까지 높은 성능을 제공할 수 있다.

한편, 현재 시장의 주요 AI 가속기 중 인텔의 ‘가우디’는 출발점이 다소 달랐다. 엔비디아와 AMD의 가속기나 인텔의 ‘데이터센터 GPU 맥스’ 시리즈는 GPU 아키텍처 기반에서 출발했지만, ‘가우디’는 태생부터 딥러닝을 위한 ‘가속기’로 시작했다. 이에 ‘가우디’의 구성은 엔비디아나 AMD의 가속기 대비 단위 유닛의 구성이 크고 수가 적은 편이다. 또한 최신 ‘가우디 3’의 성능 향상에서는 ‘텐서 코어’와 ‘행렬곱 엔진’ 수 증가가 큰 영향을 미쳤다.

행렬곱 성능을 높이기 위한 시도는 꼭 가속기에만 있는 것은 아니다. 인텔이 2019년 선보인 2세대 제온 ‘캐스케이드 레이크(Cascade Lake)’에 처음 적용한 VNNI(Vector Neural Network Instruction)는 행렬곱을 위한 세 단계의 연산을 한 번에 수행할 수 있어 이론상 성능을 3배 높일 수 있었다. 또한 4세대 제온부터 탑재된 AMX(Advanced Matrix Extensions)는 대규모 행렬 연산을 효율적으로 처리할 수 있게 해, 관련 성능을 크게는 10배까지 높일 수 있다. 이들 기능을 잘 활용하면, CPU로도 GPU급 성능이 가능하다.

엔비디아 GPU의 강점은 범용적인 ‘소프트웨어 스택’ 완성도에도 있다. / 엔비디아 홈페이지 갈무리
엔비디아 GPU의 강점은 범용적인 ‘소프트웨어 스택’ 완성도에도 있다. / 엔비디아 홈페이지 갈무리

GPU 기반 가속기는 이제 제법 다양한 연산에 사용할 수 있는데, 이러한 범용성을 완성하는 것은 ‘소프트웨어’다. 하드웨어의 연산 유닛을 직접 활용할 수 있는 프로그래밍 모델에서부터, 하드웨어와 주요 소프트웨어 개발 프레임워크를 연결하는 소프트웨어 스택까지 모두 충실하게 갖춰져야 하드웨어의 가능성을 효과적으로 활용할 수 있다. 물론 최근의 AI 시장에서는 파운데이션 모델의 ‘대세’가 등장하면서, 상대적으로 주요 ‘프레임워크’ 수준에서의 하드웨어 지원과 최적화 측면이 중요하게 여겨지는 모습이다.

현재 이러한 소프트웨어 지원 부분에서도 가장 앞선 위치에 있는 곳은 엔비디아다. 사실, 이제 엔비디아의 핵심 경쟁력은 ‘CUDA’가 아니라, 이를 기반으로 텐서플로우(Tensorflow), 파이토치(PyTorch) 등 주요 프레임워크와 모델들에 최적화된 환경을 제공하고 있다는 데서 찾아야 할 것이다. 특히 엔비디아의 ‘AI 엔터프라이즈’ 플랫폼 구성은 인텔이나 AMD가 아직 바로 따라올 만한 수준은 아닌 것으로 평가된다.

인텔과 AMD가 이러한 엔비디아의 플랫폼 전략에 대응하는 핵심은 ‘개방성’이다. 하지만 이 ‘개방성’ 또한 단지 오픈소스로 공개만 한다고 끝나는 것은 아니고, 적극적인 투자를 통해 생태계 전반의 호응을 얻어야 한다. 인텔은 전사적으로 ‘원API(oneAPI)’ 플랫폼으로 이에 대응하고 있고, AMD는 ‘ROCm’ 플랫폼을 선보이고 있는데, 두 회사간 경쟁에서라면 인텔이 좀 더 커뮤니티의 움직임을 주도하는 데 적극적으로 나서는 모습이다. 그리고 이런 모습은 주요 ‘고객 사례’로 나타나고는 한다.

AMD 인스팅트 MI300X 8개 구성 플랫폼 / 권용만 기자
AMD 인스팅트 MI300X 8개 구성 플랫폼 / 권용만 기자

특정 용도에 최적화된 글로벌 빅테크들의 ‘자체 가속기’ 구현

현실적으로, 현재 AI를 위한 ‘가속기’를 선택할 때 가장 편리한 제품은 엔비디아의 제품이다. 소프트웨어 환경도 잘 갖춰져 있고, 많은 사람들이 사용하면서 만들어진 사례와 노하우도 가장 풍부하기 때문이다. 이에 소프트웨어 개발력이나 운영력이 다소 떨어지더라도 도입 후 성과를 내는 과정이 상대적으로 수월하다. 다른 관점에서 보면 비용으로 시간과 노력을 사는 개념일 수 있는데, 오늘날처럼 빠른 변화 속에서 시간의 가치가 높을 때는 선택에 중요한 요인이 된다.

하지만 충분한 ‘기술력’을 갖추고 있다면 다른 선택도 가능하다. 대표적인 곳이 연구소 급의 슈퍼컴퓨터 시설이나 글로벌 하이퍼스케일 급 클라우드 사업자, 통신 사업자 등이다. 이렇게 자체 역량이 충분히 갖춰진 경우에는, 엔비디아의 가속기가 아니더라도 좋은 조건에 하드웨어의 잠재력이 높은 제품을 도입해 소프트웨어 최적화로 가치를 극대화한다는 선택을 고려할 수 있을 것이다. 

이런 부분은 현재 전 세계 슈퍼컴퓨터 성능 순위를 매기는 ‘톱 500’ 에서 찾아볼 수 있다. 현재 1위 시스템은 AMD의 CPU와 GPU를 사용하는 미국 오크리지 국립연구소의 ‘프론티어’고, 2위는 인텔의 CPU와 GPU를 사용한 미국 아르곤 국립연구소의 ‘오로라’다. 그리고 일본의 ‘후가쿠’는 아예 Arm 아키텍처 기반으로 자체 개발한 CPU를 사용한다. 이렇게 자체적인 소프트웨어 역량이 있다면, 꼭 특정 하드웨어에 구애받을 필요도 없다.

AMD 알베오 V70 AI 가속기 / 권용만 기자
AMD 알베오 V70 AI 가속기 / 권용만 기자

AI 연산 가속에 있어 ‘텐서 코어’는 AI 성능에 큰 영향을 미치며, 주요 ‘AI 가속기’들의 핵심에도 이러한 텐서 코어가 있다. 그리고 사용하고자 하는 모델의 특성을 좁힐 수 있다면 극단적으로 이에 필요한 ‘텐서 코어’ 등의 유닛만 남기고 나머지는 제거해 버리는 극단적 최적화도 가능하다. 이러면 제한된 자원에서 최고의 효율을 구현할 수 있고, 이런 효과를 기대하는 것이 글로벌 클라우드 사업자들이 선보이는 ‘자체 가속기’들이다.

이러한 접근법을 사용한 대표적인 사례가 구글의 ‘TPU(Tensor Processing Unit)’다. 현재는 5세대까지 등장한 이 TPU는 AI 등의 워크로드를 위한 ‘텐서 코어’를 핵심으로 구성했으며, 구글의 클라우드 서비스에서 사용할 수 있다. 이런 극단적 구성이 가능한 이유는 클라우드 서비스 상에서 사용할 수 있는 모델과 프레임워크 등의 환경을 특정할 수 있고, 하드웨어와 소프트웨어가 서로 최적화될 수 있는 기술 여건이 모두 갖춰져 있기 때문이다.

메타(Meta) 또한 자체적으로 사용하는 추론용 가속기 ‘MTIA(Meta Training and Inference Accelerator)’가 있다. 이 가속기는 메타 내부의 랭킹 및 추천 광고 모델의 AI 워크로드 처리에 사용될 것으로 알려졌으며, 외부로의 판매 계획은 없다. 이렇게 특정 환경과 모델에서 사용을 특정할 수 있다면, 필요한 요소만을 실리콘에 가속기 형태로 구현해 높은 성능과 효율을 충분히 구현할 수 있다.

마이크로소프트 또한 지난해 애저 클라우드 인프라를 위해 설계된 ‘마이아 100(Myria)’ AI 가속기를 소개했다. 이 가속기는 대규모 언어 모델 학습과 추론에 적합한 구성으로, 오픈AI와 설계 단계부터 협력한 것으로 알려졌다. 아마존웹서비스(AWS)도 2020년 아마존 알렉사(Alexa)의 추론 워크로드 등을 위한 전용 가속기 ‘인퍼런시아(Inferentia)’를 도입해, 기존 범용 가속기 대비 더 저렴한 비용에 더 향상된 성능을 구현했다고 소개한 바 있다.

한편, 이 분야에서 가장 유연한 솔루션은 아예 사용자가 직접 하드웨어 로직을 프로그래밍 할 수 있는 FPGA(Field-Programmable Gate Array)다. FPGA의 경우 고정 기능을 가진 칩과 범용 프로세서 사이에서 양 쪽의 장점을 모두 가진 것이 장점이지만, 직접 회로를 설계해야 하는 점이 진입 장벽으로 남아 있다. 개당 가격은 비싸지만 양산을 위한 최소 수요를 맞추지 못하는 경우 선택할 수 있는 솔루션이기도 하다. 이 분야에서는 AMD가 인수한 ‘자일링스(Xilinx)’, 인텔에 인수됐다 스핀오프된 ‘알테라(Altera)’가 대표적이다.

사피온 X330 AI 가속기 칩 / 사피온
사피온 X330 AI 가속기 칩 / 사피온

국내 주요 AI 가속기 제조사, 대형 통신사 고객 갖춘 점 눈길

국내에서도 이런 ‘AI 가속기’를 만드는 곳이 있다. 그리고 국내 업체들의 초반 움직임은 글로벌 빅테크들처럼의 ‘범용성’ 보다는 어느 정도는 ‘고객 맞춤형’으로부터 시작해 시장을 확장해 가는 모습을 보이는 것이 특징이다. 대표적인 사례가 ‘사피온’과 ‘리벨리온’이다. ‘사피온’은 태생부터 SK텔레콤의 관련 부서에서 분사했고, ‘리벨리온’은 KT 그룹의 투자를 받으면서 KT 클라우드를 통한 상용화 지원을 받고 있는 것으로 알려져 있다.

사피온은 SK텔레콤 내의 관련 사업부가 2021년 초 ‘SK ICT 연합’ 출범과 함께 분사한 것으로, 태생부터 SK텔레콤 등 그룹사의 지원을 받아 왔다. AI 가속기 프로젝트는 2016년부터 진행된 것으로 알려졌는데, 초기 버전의 가속기는 자일링스의 FPGA를 기반으로 구현돼 SK텔레콤의 ‘누구(NUGU)’ 서비스에 활용되는 등으로 검증, 발전돼 왔다. 현재 상용화된 ‘X220’은 SK브로드밴드 가산 IDC에 7.6페타옵스(POPS) 성능의 신경망처리장치(NPU)팜도 구축돼 있다.

한편, 사피온은 지난 11월 차세대 ‘X330’ 칩을 발표했다. 이 ‘X330’은 칩당 16기가바이트(GB) 메모리와 367테라플롭스(TFLOPS) 성능을 제공하며, TSMC의 7나노미터(nm) 공정을 사용해 상반기 양산 예정이다. 제품화 측면에서는 칩과 카드 뿐만 아니라 서버 탑재와 클러스터 구현, 클라우드 서빙 플랫폼까지 고려하고 있으며, SK텔레콤이나 계열사들, 혹은 NHN클라우드 등 기존 주요 고객사들의 지원 또한 상용화 사례 구현에서 중요한 역할을 할 것으로 기대된다.

리벨리온의 ‘아톰’ 탑재 카드 / 리벨리온
리벨리온의 ‘아톰’ 탑재 카드 / 리벨리온

사피온이 ‘SK’ 계열과의 협력이 돋보인다면, 리벨리온은 ‘KT’와의 협력이 눈에 띈다. 리벨리온의 ‘아톰’은 KT 클라우드가 2023년 5월 선보인 클라우드 기반 NPU 인프라 서비스에 탑재된 사례가 있다. 또한 KT 그룹은 리벨리온에 지난 2022년 300억원대 투자에 이어, 지난 2월 KT클라우드와 KT, KT 인베스트먼트 등에서 총 330억원 투자를 유치한 바 있다. 

향후 리벨리온은 기존 ‘아톰’을 고도화한 ‘아톰 플러스’와 대규모언어모델(LLM)에 특화된 차세대 ‘리벨(REBEL)’ 출시를 준비 중이다. KT 클라우드는 리벨리온과의 투자, 협력관계를 기반으로 NPU 인프라 서비스를 확충하고, 중장기적으로는 공공시장 뿐만 아니라 엔터프라이즈 시장까지 공략한다는 계획이다. 이러한 과정에서 KT는 서비스 사업자로써 사용자와 인프라 사이의 ‘간극’을 좁히는 중요한 역할을 할 것으로 기대된다.

퓨리오사AI는 ‘카카오엔터프라이즈’와의 관계를 주목할 만 하다. 퓨리오사AI와 카카오엔터프라이즈는 지난 2022년 3월 파트너십을 발표한 바 있고, 이팝소프트의 ‘말해보카 사전’의 상용 서비스에 활용하는 등의 사례도 발표된 바 있다. 이 외에도 다양한 국가 컨소시엄에 참여하고 있는 부분도 눈에 띈다.

한편, 퓨리오사AI는 이러한 클라우드 사업자와의 협력 이외에도 가속기 하드웨어와 이를 탑재한 서버의 직접 판매에도 제법 적극적인 모습으로, 최근에는 에이수스와 보드 양산 공급 계약을 체결하기도 했다. 리벨리온 또한 하드웨어 수준의 유통에서 칩 자체의 유통보다는 보드, 보드를 탑재한 서버 단위의 비즈니스를 준비하고 있는 것으로 알려졌다.

국내의 주요 가속기 업체들이 핵심 고객을 대형 통신, 클라우드 사업자로 우선 잡는 이유는 현실적인 ‘물량’과 ‘지원’의 문제인 것으로 보인다. 특히 개발력을 갖춘 통신사나 클라우드 사업자의 경우, 적절한 가속기와 모델, 개발력의 조합으로 기성 GPU 대비 좀 더 최적화된 서비스를 구현하고 경쟁 우위를 가지면서 모두가 이득을 얻는 ‘윈-윈’ 관계를 기대할 수 있기 때문이다. 향후에는 클라우드 서비스 경험을 기반으로 하이브리드 클라우드나 독립 인프라로까지 채택을 기대할 수 있을 것이다. 

권용만 기자 yongman.kwon@chosunbiz.com

관련기사