“메모리 한계 타파” 도전 나선 새로운 모듈 기술들 [AI 메모리 시대 ④]
DIMM을 넘어 CXL·MRDIMM까지… 메모리 연결 방식의 진화
컴퓨터는 소프트웨어로 뭐든지 할 수 있을 것만 같은 존재지만 그 근원에서는 종종 물리적 한계에 직면하고는 한다. 한없이 빨라질 것 같던 컴퓨터의 동작 속도는 결국 빛의 속도와 실리콘의 물리적 한계에 가까워지고 있고, 쉽게 늘릴 수 있을 것 같던 전송 속도도 물리적인 연결 방법의 한계에 직면하고 있다. 더 많은 데이터를 전송하기 위해서는 동작 속도를 더 올리거나, 혹은 데이터가 전송되는 물리적인 선로를 더 늘려야 한다. 양 쪽 모두 물리적인 변화를 고려해야 하는 부분이다.
아키텍처와 칩 수준의 메모리 기술 변화에 종종 가려지지만, 이를 쓰는 방법의 변화 또한 중요한 변화의 계기가 된다. 이 ‘쓰는 방법’의 차이는 흔히 시스템의 메모리 아키텍처 같은 논리적 영역을 먼저 생각하고는 하는데, 시스템에 연결되는 물리적 방법 또한 개선의 여지가 논의되고 있다. DDR5 기반에서 전통적인 소켓 방식 DIMM, SODIMM 규격의 한계가 ‘DDR5-6400’ 정도로 여겨지는 가운데 메모리 업계에서는 이를 넘어설 새로운 규격의 준비가 본격화되고 있다.
메모리 두 개 한꺼번에 쓰는 효과 내는 ‘MRDIMM’
‘MRDIMM(Multiplexed Rank DIMM)’은 서버 업계에서 최근 주목받은 새로운 메모리 규격이다. 이 새로운 메모리 규격은 인텔의 ‘제온 6 P-코어’ 프로세서 기반 플랫폼에서부터 지원되며, 동작 속도는 기존 DDR5 대비 두 배 가량 높은 ‘DDR5-8800’부터 시작한다. DDR5 RDIMM(Registered DIMM)과 물리적인 소켓 규격도 동일해 별도의 소켓을 마련하지 않고도 같은 플랫폼에서 DDR5 RDIMM과 MRDIMM을 동시에 지원할 수 있는 점도 특징이다.
이 ‘MRDIMM’은 메모리 업계에서 생각했던 메모리 대역폭 증가를 위한 색다른 방법 중 하나다. 지금까지 x86 기반 시스템에서 주로 쓰이던 메모리 모듈의 전송 버스 폭은 프로세서의 외부 버스 폭과 같은 ‘64비트’였다. 이러한 규칙 안에서 몇 개의 칩이 모여 ‘랭크(Rank)’를 구성하고, 이러한 메모리 구성은 표준안에 정의돼 있다. 이에 고용량 메모리의 경우 단일 메모리 모듈 안에 두 개의 랭크를 사용하기도 하는데 대표적인 사례가 양면에 메모리 칩이 장착된 ‘양면 메모리’다.
지금까지는 이렇게 하나의 모듈에 두 개의 랭크를 넣더라도 시스템은 두 개의 랭크에 동시에 접근하지 못했다. 또한 모듈을 나가서 메모리 컨트롤러와 연결되는 경로도 한 개였다. 일반적으로는 이런 상황에서 프로세서가 메모리 대역폭을 늘리는 방법으로 사용한 것이 ‘멀티 채널’로, 여러 개의 메모리 컨트롤러에 메모리 모듈을 연결해 동시에 접근하는 방법이었다. 현재 ‘제온 6’의 경우 12채널 메모리 컨트롤러를 사용하며, 각 채널당 최대 두 개의 메모리 모듈을 사용해 총 24개 슬롯을 제공한다.
MRDIMM이 성능을 높인 방법은 메모리 모듈 안에 각자 존재하던 두 개의 ‘랭크’에 동시에 접근, 활용하는 것이다. 이를 통해 메모리 모듈 차원에서도 ‘듀얼 채널’같은 효과를 내 최대 두 배의 전송 성능을 낼 수 있게 된다. 각 랭크는 64바이트 전송 폭을 가지지만 중간에서 데이터 버퍼를 통해 이를 통합, 프로세서로는 128바이트 폭으로 데이터를 보내는 구조다. 물리적으로는 기존 DDR5 메모리와 같지만 논리적으로는 달라서, 이 MRDIMM 메모리는 지원 가능한 최신 플랫폼과 함께 사용해야 한다.
실제 제온 6 시스템에서의 메모리 구성 제원을 보면 이 메모리의 특성을 좀 더 명확히 볼 수 있다. MRDIMM의 경우 태생적으로 ‘2랭크’를 가지는 만큼 구성도 ‘2랭크’에서부터 ‘4랭크’까지 사용한다. 제온 6 P-코어 프로세서 기반 플랫폼 기준으로 MRDIMM을 사용할 때는 메인보드에 마련된 소켓당 24개의 메모리 슬롯 중 12개만 사용할 수 있다. 이런 부분은 프로세서의 메모리 컨트롤러 내부적으로도 이 MRDIMM을 어떻게 다루고 있는지 짐작할 수 있게 해 주는 부분이다.
한편, 이 MRDIMM은 이전에 2022년 말 SK하이닉스와 르네사스가 함께 선보인 바 있는 ‘MCRDIMM(Multiplexer Combined Ranks DIMM)’으로 논의되던 규격이 좀 더 확장되면서 표준으로 정의된 것이기도 하다. 이미 삼성전자와 SK하이닉스, 마이크론 모두 제품이 준비된 상태다. 현재 발표된 용량대는 모듈당 32GB부터 256GB 정도까지로, 일반적인 DDR5-4800의 두 배에는 약간 못미치는 ‘DDR5-8800’ 수준의 동작 속도로 등장했다. 향후 2세대 MRDIMM은 이보다 향상된 1만2800MT/s(Megatransfers per seconds)로 성능이 높아질 예정이다.
모듈 수준의 물리적 속도 한계 넘기 위한 새 규격 ‘CAMM’
MRDIMM이 전송 속도 향상을 위해 ‘병렬 확장’을 추구했다면, 새로운 ‘CAMM(Compression Attached Memory Module)’은 메모리의 전송 속도 향상을 위한 전통적인 방법인 ‘동작 속도 향상’을 위한 방법이다. 지금까지 시스템에 메모리를 추가하는 데는 메인보드의 메모리 소켓에 마련된 금속 핀이 메모리 모듈의 핀과 맞물리는 방식이었는데, 메모리의 동작 속도가 지속적으로 높아지면서 기존의 방식에는 점차 한계가 다가오고 있다는 평가다. 메모리 업계에서는 현재의 DIMM 방식이 대응할 수 있는 한계 속도로 ‘DDR5-6400’을 제시하기도 했다.
이미 최신 노트북 PC 등에서는 기존 설계가 물리적 한계에 직면하고 있다. 최근 몇 년간 고속 LPDDR5/5x 메모리를 사용하는 노트북에서는 이를 메인보드에 직접 붙이는 형태로 시스템을 디자인해 왔다. 이런 디자인은 한번 만들면 변경이 불가능하지만, 원하는 성능과 효율을 얻기 위해서는 대안이 없는 상태였다. 최근 애플의 M시리즈 칩이나 인텔의 코어 울트라 200V 시리즈 프로세서는 아예 프로세서 패키지에 메모리까지 통합한 구성을 사용하기도 했다.
CAMM은 이러한 한계를 극복하기 위해 새롭게 제시된 표준이다. 이 규격은 델이 처음 개발했지만 JEDEC(국제반도체표준화기구: Joint Electron Device Engineering Council)의 표준으로 제정되면서 새로운 시대로의 길을 열었다. JEDEC의 표준 규격은 ‘CAMM2’로 명명됐고, 이후 일부 데스크톱과 노트북 PC 제품에 채택된 바 있다. 향후 메모리의 고속화, 고용량화 등에 따라 CAMM2 규격이 서버에도 사용될 것으로 보인다. 엔비디아도 이와 비슷한 SOCAMM을 내놨다.
CAMM은 기존 DIMM이나 SODIMM과 비교해 더 작고 얇은 모듈을 만들 수 있다는 점이 장점이다. 가장 큰 차이는 메모리와 메인보드가 연결되는 ‘인터커넥트’로, 지금까지의 소켓 타입과 달리 ‘LGA(land grid array)’ 타입으로 연결되고 나사로 고정된다. 이러한 새로운 방식의 연결을 통해, 물리적인 핀 연결 밀도를 이전보다 크게 높이면서도 안정성까지 잡을 수 있다. 모듈과의 연결에서 배선 길이를 최소화할 수 있어 동작 속도를 높이면서도 시스템 설계의 유연성까지 확보할 수 있다.
CAMM2 표준은 DDR5 뿐만 아니라 저전력 메모리 LPDDR5/5x까지 지원할 수 있다. 하지만 표준 규격에서는 메모리 유형간 핀 배열이 달라 혼용은 불가능한 것으로 알려졌다. 또한 물리적으로 고밀도 핀 배열을 가진 덕분에, 한 개 모듈에서 듀얼 채널 모드를 사용할 수도 있는 등 유연한 구성이 가능한 점도 눈에 띈다. DDR5를 사용하는 경우에는 메모리 구성의 복잡한 조합을 단순하게 만들 수 있고, LPDDR5/5x를 사용한다면 지금까지는 업그레이드가 불가능하던 디자인을 업그레이드 가능한 디자인으로 바꿀 수도 있다.
엔비디아가 제시한 ‘SOCAMM’도 CAMM의 변형이다. LPDDR5x를 사용하는 이 SOCAMM은 CAMM 특유의 LGA 방식 접촉부라는 공통점이 있지만 핀 수가 더 많아 물리적으로 호환되지는 않는다. 엔비디아는 이 SOCAMM을 물리적으로도 면적 효율적으로 만들어 프로세서 주변에 근접 배치하기 용이하도록 했다. 메인보드에 직접 메모리를 부착하는 방법 대비 업그레이드나 유지보수 등에서도 더 용이하다. 이 메모리는 태생적으로 엔터프라이즈 AI 서버보다는 컨슈머 디바이스 쪽에 가까운 모습으로, ‘DGX 스파크’ 등에서부터 활용될 것으로 알려진 바 있다.
향후 CAMM 방식은 기존의 DIMM 방식을 대체하며 표준으로 자리잡을 것으로 보인다. 하지만 현재의 DIMM 방식에서도 소소한 개선들로 한계를 높여가고 있는 모습이다. 일반 소비자용 시장에서는 에이수스 등 메인보드 제조 업체들은 표준 DIMM 소켓 디자인 최적화로 성능을 보증할 수 있는 한계 속도를 높여 가고 있으며, 메모리 모듈에 클록 드라이버 칩을 장착한 CUDIMM(Clocked Unbuffered DIMM)으로 신호 불안정성을 완화시키고 동작 속도를 끌어올리는 시도도 있다.
권용만 기자
yongman.kwon@chosunbiz.com