새롭게 등장하는 슈퍼컴 시스템을 미리 알고 싶다면 어디서 시작해야 할까? 그 답은 미국 에너지성이 여러 기업과 함께 차세대 슈퍼컴퓨터의 개발 및 도입을 추진하는 CORAL(Collaboration of Oak Ridge, Argonne, Lawrence Livermore Laboratory) 사업에서 찾을 수 있다.

미국 에너지성은 다수의 대규모 컴퓨팅 시스템을 운영하고 있다. CORAL은 에너지성 산하의 대표 연구소 오크리지(Oak Ridge), 아르곤(Argonne), 리버모어(Lawrence Livermore) 국립연구소 등이 함께 추진하는 사업이다. 각각 분리돼 있지만 필요에 의해 하나처럼 운영된다.

이들 연구소는 서로 협력해 연구개발에 필요한 예산을 통합 집행한다. 3개 기관 모두의 전문성이 하나로 활용돼 기관 간 협업이 가능하다. 기업체 입장에서는 하나의 제안서만으로 대응이 가능하기 때문에 제안 내용이 보다 충실해진다. 더 많은 기업이 사업에 지원할 수도 있다.

오크리지 국립연구소의 써미트(Summit), 리버모어 국립연구소의 시에라(Sierra), 그리고 아르곤 국립연구소의 오로라(Aurora) 슈퍼컴 등이 이 사업으로 추진됐다.

써미트와 시에라는 6~9개월 정도 늦어졌지만 구축이 마무리되고 있고, 오로라는 2021년에 엑사플롭스(ExaFLOPS) 시스템인 A21을 구축하는 것으로 계획이 변경됐지만 현재 이들 슈퍼컴 시스템은 모두 구축이 원활히 진행되고 있다.

 미국 에너지성 슈퍼컴퓨터 로드맵. 오크리지 국립연구소 ‘서미트’, 리버모어 국립연구소 ‘시에라’ 시스템 구축이 마무리 되고 있으며, 엑사스케일 시스템으로 A21, 프론티어, 엘카피탄 슈퍼컴이 계획돼 있다. /  미국 에너지성 갈무리
미국 에너지성 슈퍼컴퓨터 로드맵. 오크리지 국립연구소 ‘서미트’, 리버모어 국립연구소 ‘시에라’ 시스템 구축이 마무리 되고 있으며, 엑사스케일 시스템으로 A21, 프론티어, 엘카피탄 슈퍼컴이 계획돼 있다. / 미국 에너지성 갈무리
당초 이 사업에 필요한 제안요청서는 2014년에 접수돼 2014년과 2015년에 각각 선정됐다.

당시 미국 에너지성은 기존 시스템을 구매하는 방법이 아니라 완전히 새로운 시스템을 요구했다. 2~3년 후의 슈퍼컴을 미리 제안하고 이를 개발하기로 했다. 이렇게 개발된 시스템은 이후 슈퍼컴퓨터 시장에서 상용화되고 주력 제품으로 판매된다. 미국 정부가 기업을 간접적으로 지원하는 의미도 있는 셈이다.

제안요청서에서 재미있는 점은 설치되는 3개 시스템의 아키텍처가 2개 이상이어야 한다는 조건이 붙었기 때문이다. 기업 간 경쟁으로 보다 높은 가치를 얻을 수 있다. 사용자에게는 다양한 환경을 제공할 수도 있다. 이는 슈퍼컴 아키텍처의 흐름이 불분명한 현재상황에서 중요한 고려 사항이다.

이와 관련해 기술개발에 필요한 NRE(Non-Recurrent Engineering) 세부 사업 2개가 진행되고 있다. 시스템에 대한 요구사항을 함께 전달하고 관리하면서 보다 나은 결과물을 얻을 수 있다. 하나의 개발에 문제가 생겼을 경우 보다 효율적인 대응도 가능하다.

기술적으로는 현재 기관에서 운영하는 프로그램에 대해 4~6배의 성능향상을 보여야 한다. 이론성능은 100페타플롭스(PetaFLOPS, 1초에 10경회의 연산을 수행)를 넘어야 한다. 또 전력소모는 20MW를 넘지 않고 설치는 2017년, 검수는 2018년 완료해야 한다.

최근 미국 에너지성은 아직 CORAL 사업이 끝나지 않은 상황에서 미국 엑사플롭스 시대를 본격적으로 열수 있는 CORAL-2 사업을 발주했다. CORAL-2 사업은 CORAL의 기본적인 틀을 유지한다.

첫 번째 시스템은 오크리지 국립연구소에 2021년 설치, 2022년 검수를 완료할 프론티어(Frontier) 슈퍼컴이다. 아키텍처는 A21와 달라야 한다는 조건이 있다.

두 번째 시스템은 리버모어 국립연구소에 2022년 설치돼 2023년 검수를 완료할 엘카피탄(El Capitan)이다. 아키텍처 제한은 없다.

아르곤 국립연구소도 추가 시스템을 구축할 수 있다. 그 경우 엘카피탄 시스템과 동일한 아키텍처를 가져야 한다. 예산상황 및 A21의 설치 등 변수가 있을 것으로 예상된다.

A21 시스템을 포함하면 구축되는 엑사스케일 슈퍼컴퓨터는 최대 4개며 2~3개 아키텍처가 가능하다. 5월에 제안을 마감하고 금년 말 또는 내년 초에 선정할 계획이다.

두 사업을 비교하면 슈퍼컴의 흐름을 읽을 수 있다. CORAL-2 시스템 예산은 각 4억~6억달러(4300~6500억원)으로 CORAL에 비해 2~3배 증가했다.

예를 들어 써미트 가격은 2억달러(2300억원)다. 써미트의 전작인 현재 미국 최고 슈퍼컴 타이탄(Titan) 가격은 1억달러(1100억원)다. CORAL-2 사업 전체규모는 무려 18억달러(1조 9000억원)에 달한다.

전력소모도 함께 증가하고 있다. CORAL-2에서는 시스템 전력을 40MW이내로 규정한다. 이는 CORAL에 비해 2~3배 증가한 셈이다. 예를 들어 써미트 전력소모는 15MW로 추정되며 이는 타이탄의 8MW에 비해 약 2배다.

이렇게 슈퍼컴의 전력소모 및 가격이 가파르게 증가하는 중요한 이유는 무어의 법칙 둔화다. 반도체 집적도의 증가세가 둔화되고, 데나드 스케일링(Dennard Scaling)이 끝나면서 쉽게 전력소모를 통제할 수 없게 됐다.

지난 수십 년 동안 누려왔던 '공짜점심(Free Lunch)'이 끝나고 성능을 높이기 위해서는 더 많은 비용과 노력을 지불해야 하는 시대가 본격적으로 도래한 것이다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

이지수 소장은 미국 보스턴대학에서 물리학 박사를 했고 독일 국립슈퍼컴센터 연구원, 한국과학기술정보연구원(KISTI) 슈퍼컴퓨팅센터 센터장, 사단법인 한국계산과학공학회 부회장, 저널오브컴퓨테이셔널싸이언스(Journal of Computational Science) 편집위원, KISTI 국가슈퍼컴퓨팅연구소 소장을 거쳐 현재는 사우디 킹 압둘라 과학기술대학교(KAUST) 슈퍼컴센터장을 맡고 있습니다.

관련기사