초창기 IT 기술의 핵심의 대부분은 미국에서 시작했지만 지금은 전 세계적인 분업화 체계가 자리잡은 지 오래다. 현재 우리가 쓰는 컴퓨터만 해도, 미국이 프로세서와 구조를 설계하고 대만이 만들면, 한국에서 만든 메모리와 함께 중국이나 동남아, 인도 등에서 제품화되는 흐름이다. 이러한 IT 기술의 글로벌 공급망에서 한국은 2022년 기준 메모리반도체 시장에서 한국의 점유율은 60.5%, D램(DRAM)점유율은 70.5%에 이를 정도로 대체가 어려운 위치를 차지하고 있다.
최근 ‘생성형 AI(인공지능)’가 등장하면서 프로세서와 GPU(그래픽처리장치) 뿐만 아니라 메모리 기술에도 큰 변화의 계기가 생겼다. 변화의 핵심은 ‘HBM(High Bandwidth Memory)’으로, 엔비디아나 AMD, 인텔 등의 데이터센터용 고성능 AI 가속기에 주로 사용된다. 지난해 D램 시장 내 HBM의 매출 비중은 20% 정도로 추산됐지만 올해는 34%까지 높아질 것으로 전망된다. 이 시장을 주도하는 업체는 엔비디아의 GPU 등에 탑재되고 있는 ‘SK하이닉스’가 꼽힌다. 또한 삼성전자와 SK하이닉스의 메모리 사업 희비를 가른 것도 ‘HBM’ 기술이 꼽힌다.
기술 개발 초창기 HBM은 상대적으로 복잡한 구조 대비 얻을 수 있는 성능 이점이 적어 큰 관심을 받지 못했다. 하지만 생성형 AI의 등장 이후 HBM은 이전과는 성격이 크게 다른 AI 연산 가속을 위한 성능을 얻을 수 있는 현존 유일한 기술로 꼽히며 관심이 크게 높아졌다. 보통 HBM을 쓰는 이유로는 ‘속도’를 생각하는데, 전송 속도 이면에는 현재의 칩 설계와 제작, 시스템 설계 등에서 당면한 현실적 한계에 대한 문제들이 있다. 이에 현재 HBM은 분명 값비싼 기술이지만, AI 성능 향상을 위한 가장 효율적인 기술이라는 역설적인 위치에 있다.
HBM의 매력은 성능과 용량 모두에서의 ‘면적 효율’
HBM은 2010년 AMD와 SK하이닉스의 제안으로 시작해 2013년 JEDEC(Joint Electron Device Engineering Council)의 표준 규격이 됐다. HBM은 기존의 메모리 기술과 비교해 패키징 방법에서부터 분명한 차이가 있다. 기존의 메모리는 다이 한 개가 제품 한 개가 되지만, HBM은 베이스 다이 위에 D램 다이 몇 개를 쌓아 올린 형태다. 용량은 메모리 다이를 적층해서 만들고, 전송 속도는 베이스 다이의 성능을 높여서 만든다. HBM 스택당 전송 버스 폭은 일반 메모리보다 수십 배 큰 1024비트라, 칩 당 전송 성능은 HBM3E에 이르면 1.2TB/s에 이른다.
HBM이라 하면 가장 먼저 떠오르는 건 ‘속도’지만, HBM의 진정한 매력은 속도가 아니다. 다른 기술적 제약이 없다면 HBM의 전송 성능은 기존 DDR 계열 메모리로도 충분히 달성할 수 있기 때문이다. 데이터의 전송 속도는 한 번에 전송하는 데이터의 양과 전송 빈도의 곱이다. 이에 일반적인 DDR5나 GDDR7급 메모리를 사용해도, 충분히 많은 수의 메모리 칩을 병렬 연결하면 충분히 전송 속도를 확보할 수 있다. 이미 이러한 구성은 최신 시스템 아키텍처에서 멀티 채널 메모리 구성으로, 그래픽카드에서는 여러 개의 메모리 칩을 사용한 버스 구성으로 볼 수 있다.
하지만 당면 문제는 ‘면적’이다. GPU에 사용되는 GDDR7의 경우 칩당 32비트 버스 폭을 사용해 HBM의 1024비트급 인터페이스를 위해서는 32개의 칩을 사용해야 한다. 이 때 당면하는 문제는 물리적인 거리에 따른 ‘배치’다. 가능하면 GPU와 메모리 간 거리는 짧으면 좋고 각 메모리와 GPU간 거리도 같으면 좋은데, 사용해야 할 칩 개수가 너무 많아지면 이 모든 조건을 충족시킬 수 없다. 칩과 메모리를 포함한 전체 시스템의 면적이 커지는 것도 문제다. GPU 주위에 전원부나 입출력 관련도 있어야 하므로 메모리 배치만 우선할 수도 없는 노릇이다.
이런 부분에서 HBM은 여러 모로 획기적인 돌파구를 제시한다. 용량 측면에서는 메모리 다이를 위로 쌓아 올렸고, 성능 측면에서는 베이스 다이에서 칩까지 1024비트 인터페이스로 연결된다. 현재 일반 사용자용 그래픽카드 중 가장 높은 성능을 갖췄다는 엔비디아 ‘지포스 RTX 5090’의 메모리 시스템이 16개 칩 구성으로 512비트 폭의 GDDR7 메모리로 1.8TB/s 정도 성능을 보이는데, 이를 HBM으로 만들면 HBM3 두 개로는 조금 모자라지만 HBM3E 두 개로는 이를 훨씬 넘어설 수 있다. 면적 측면에서는 칩 16개가 들어갈 공간을 칩 두 개로 줄일 수 있고, 용량도 충분하다.
현재 생성형 AI와 LLM(거대언어모델) 시대에는 AI 모델이 하나의 요구를 처리하기 위해 읽어들여야 할 데이터의 양이 이전과는 비교할 수 없이 늘었다. 또한 AI 모델이 더 정교한 작업을 처리할 수 있도록 성능이 높아지기 위해 모델의 파라미터 수는 지속적으로 커지고 있고, 메모리에도 용량은 물론 전송 속도 요구 또한 빠르게 높아지고 있다. 업계에서는 현재 구조에서 처리 성능에 발목을 잡는 병목점이 메모리 성능과 용량이라고 지적한다. 이미 기존의 GPU와 메모리 간 구성의 균형 공식은 깨졌고, 앞으로는 GPU 로직 대비 더 많은 메모리 용량과 성능을 할당해야 한다는 것이다.
이러한 관점에서 최신 HBM 기술은 데이터센터 등 고성능 AI 인프라 환경에서 현재 당면한 GPU 등 연산 처리 장치와 메모리 간 새로운 균형을 맞출 수 있는 유일한 선택지로 꼽힌다. 수십 개의 칩으로 구현해야 할 성능을 칩 하나로 해결하는 것을 넘어, 이 HBM을 여러 개 사용해 지금까지는 현실적으로 불가능했던 성능을 구현하며 새로운 시대에 요구되는 균형 측면의 요구를 맞출 수 있을 것이기 때문이다.
비용과 복잡성은 부담, 모두가 HBM 쓸 필요는 없어
HBM의 성능과 밀도 측면의 효율은 데이터센터용 GPU와 AI 가속기 시장에서는 ‘비싸도 효율적인’ 역설적인 상황을 만들었다. 이는 AI 가속기들이 처리하는 AI 워크로드가 지금까지의 작업과는 이질적인 밸런스를 요구하기 때문이다. 하지만 이러한 특정 영역을 벗어나면 다른 환경에서는 또 다른 밸런스가 필요하고, 여전히 대부분의 환경에서 HBM은 ‘고가의 오버스펙 메모리’ 다. 애플리케이션이 요구하는 수준 이상의 성능은 보통 제대로 활용되지 못하는 잉여 성능으로 낭비되는 경우가 많다.
제조와 제품화에서의 복잡성도 부담이다. HBM은 제조 단계에서부터 TSV(실리콘 관통 전극: Through Silicon Via)를 사용한 적층 기술이 필요하다. 제품화 단계에서는 GPU 등 연산 장치와 연결에 1024개 배선이 필요하다. 작은 패키지에서 1024개 배선을 연결하기 위해서는 현실적으로 ‘반도체 스케일’의 배선이 필요하고, 보통은 TSMC의 CoWoS(Chip-on-Wafer-on-Substrate)나 인텔 포베로스(Foveros) 패키징 기술을 사용해 칩과 HBM을 직접 연결하는 모습이다.
이러한 HBM의 특징 덕분에 몇 년 전까지도 HBM은 ‘틈새 시장’으로 취급됐다. 삼성전자는 이 시장에서 한 번 철수까지 했을 정도다. 하지만 최근에는 세계적인 AI 주도권과 인프라 확보 경쟁에 따른 수요 증가에 힘입어 글로벌 D램 시장 내 HBM의 매출 비중은 2024년 20% 정도에서 2025년에는 34% 정도까지로 높아질 것으로 예상된다. 기업들의 IT 투자 중 상당 부분이 ‘AI 인프라’에 집중되는 모습으로, 국내에서도 GPU 서버의 수요 급증이 지난 해 전체 서버 시장의 성장을 이끌었던 바 있다.
HBM은 현재의 AI 기술 발전에 가장 주목받은 존재 중 하나임에는 분명하지만 이것이 ‘차세대’인지는 다른 고민이 필요하다. 지금까지의 여정을 보자면 HBM은 기술적 가능성과 한계 모두 뚜렷해서 현재 메모리 기술의 ‘대안’은 될 수 있지만 ‘대체’하는 존재는 되지 않을 것으로 보인다. 이는 HBM의 특성상 제품 적용에서 비용이 높고, 패키징의 까다로움이나 구성의 유연성 등이 부족하며, 여전히 일부 특수 용도 이외에서는 HBM의 성능을 모두 활용하지 못하는 상황이다. 기존 메모리 기술 또한 꾸준히 발전하고 있어 일반적인 수요의 요구들은 충분히 만족시키는 모습이다.
현재 시장에서 HBM에 대한 주목도가 높아져 있지만, 사용처는 극도의 고성능 메모리가 필요한 영역으로 제한돼 있다. 대표적인 사례가 엔비디아와 AMD의 최신 데이터센터용 GPU나 인텔의 가우디 AI 가속기, 구글의 TPU(Tensor Processing Unit), AWS의 트레이니움(Traimium) 시리즈 가속기 등에 탑재된 것이다. 하지만 엔비디아와 AMD의 경우 연산에 집중한 데이터센터용 GPU에는 HBM을 사용하지만, 일반 소비자나 워크스테이션용 카드에는 목적에 따라 기존 GDDR 메모리를 사용한다. 인텔의 경우 ‘제온 맥스’ CPU에서 HBM을 사용했지만, 이는 고성능 컴퓨팅에 특화한 구성이었다.
한편, HBM에 대한 관심은 특히 글로벌 톱 1, 2위 제조사가 있는 국내에서 유독 높아 보인다. 국내에서 삼성전자와 SK하이닉스의 실적 명암을 가른 것도 이 HBM이 꼽힌다. SK하이닉스의 경우 지난해 4분기 기준 HBM 매출 비중은 40% 이상이었고 올해는 50% 이상에 이를 것으로 전망되고 있다. HBM 시장의 ‘큰 손’으로 꼽히는 엔비디아에 납품 한 것이 큰 역할을 한 것으로 꼽힌다. 삼성전자는 아직 엔비디아의 최신 세대 GPU에 HBM을 납품하지 못한 상태다. 최근에는 젠슨 황 CEO가 한국 기자단만 보면 집요한 질문에 다소 날선 반응을 보이기까지 할 정도였다.
삼성전자의 경우 최근 AMD의 ‘MI350 시리즈’ 데이터센터용 GPU에 12단 HBM3E 제품을 납품하는 것으로 확인됐다. AMD는 MI350 시리즈 GPU에 탑재되는 12단 HBM3E에 삼성전자와 마이크론의 제품을 사용한다. 삼성전자가 MI350 시리즈 GPU에 HBM3E를 공급하면서, 삼성전자의 HBM3E가 실제 활용할 수 있는 제품이라는 부분은 증명할 수 있게 됐다. 하지만 데이터센터용 GPU 시장에서 AMD의 비중은 여전히 상대적으로 작아, 지금까지의 시장 판도를 뒤집을 정도는 아니라는 평도 있다.
HBM이 보여준 또 다른 가능성 ‘적층 구성’
한편, 현재 12단 적층의 HBM3E까지 상용화되면서 일반적인 메모리 역시 용량을 높이기 위한 적층 구성이 가능할지도 논의되는 모습이다. 사실 구조가 간단하지 않지만 못할 건 없어 보인다. HBM의 생산 구조를 활용하면서 적층 단수를 낮추고, 베이스 다이의 특성을 GDDR 정도로 맞추면 패키지 단에서는 충분히 호환도 가능할 것이다. 물론 기존의 비적층형 메모리보다는 구조와 비용 등에서 불리하지만, 고용량 메모리 요구를 위한 특화 제품으로는 고려할 수도 있겠다.
사실 이러한 ‘적층 구성’은 메모리 이외에는 이미 실증을 넘어 상용화 단계에 들어갔다. 대표적인 부분이 ‘플래시 메모리’다. 플래시 메모리의 경우 셀이 미세화될수록 물리적으로 내구성이 줄어들며, 평면 구조에서는 2010년 중후반대 16nm 쯤에서 물리적 한계에 근접했었다. 하지만 이후 각 제조사들이 3D 방식 적층 구성을 선보이고 지속적으로 용량을 높여 왔다. 반도체 공정 미세화는 ‘면적’만 따진다는 맹점을 이용한 것이기도 한데 이 또한 적층 단 수가 높아지면서 여러 도전에 직면하고 있다.
로직 반도체의 경우는 공정과 패키징 양 쪽으로의 적층 구성이 논의된다. 패키징에서는 서로 다른 방법으로 만든 다이를 관통전극 등으로 직접 연결하는 패키징 기술이 이미 나와 있다. 반도체 제조공정 측면에서는 차세대 공정으로 등장할 GAA(Gate-All-Around) 공정의 다음 세대로 게이트를 수직 적층하는 구조가 논의되고 있다. 이전 ‘핀펫(FinFET)’이 게이트를 수평 구조에서 수직 구조로 세워 면적 효율을 확보했던 움직임의 연장선으로도 볼 수 있다. 이 적층형 GAA 구조가 등장하면 트랜지스터 집적률은 또 한번 큰 도약이 가능할 것으로 기대된다.
한편, 2022년 선보인 삼성전자의 GDDR6W는 이와는 다르게, 탑재된 다이들을 직접 연결하는 물리적 적층 구조와 패키징 수준에서의 변화를 추구한 모습이다. GDDR6와 동일한 패키지 크기지만 용량과 대역폭 모두 두 배 가량 향상됐다. 내부적으로는 팬아웃 웨이퍼 레벨 패키지(FOWLP) 기술로 두 개의 GDDR6(x32)를 탑재하고 외부 입출력도 두 배(x64)로 늘어났다. 이는 단순한 형태로 구현한 적층 사례인데 향후 적층 수가 늘어나면 HBM처럼 적층된 메모리 다이를 모아 주는 베이스 다이 같은 존재가 필요할 것으로도 보인다.
권용만 기자
yongman.kwon@chosunbiz.com
- 엔비디아 ‘슈퍼칩’ 놀라운 성능 이면의 변화는 ‘메모리 연결’ [AI 메모리 시대 ①]
- 한미반도체, HBM4 전용 'TC본더 4' 생산 돌입…글로벌 공급 확대 박차
- 또 삼성 넘는 SK하이닉스…2Q 영업익 9조 눈앞
- 美 마이크론, HBM 수요 급증에 실적 순항…전년比 매출 37%↑
- 오라클, OCI에 AMD ‘MI355X’ GPU 도입… “하이퍼스케일러급 첫 사례”
- [단독] 6세대 D램 수율 '0→40%'…삼성 HBM4 연내 양산 청신호
- AMD, 삼성 HBM 택했다… SK하닉 품은 엔비디아와 2파전 예고 [AMD AAI 2025]
- ‘엔비디아 투자’ 코어위브, 비트코인 채굴 기업 인수
- 커세어·MSI·에이수스, 게이머 사로잡는 여름 공세[PC마켓]
- 메모리와 스토리지가 만나는 교차점 ‘CXL’ [AI 메모리 시대 ③]
- AI 전력질주 시대, 애플이 사라졌다 [줌인IT]
- “메모리 한계 타파” 도전 나선 새로운 모듈 기술들 [AI 메모리 시대 ④]
- 데이터센터를 하나의 ‘GPU’처럼 묶는 연결 기술 경쟁 [AI 메모리 시대 ⑤]