"섬과 섬 사이에 다리를 만들 때 처음부터 끝까지 연결돼 있지 않다면 그것을 다리라고 부를 수 없습니다. 끝까지 완성되지 않은 다리는 건널 수 없기 때문입니다. 카카오의 이중화는 완성되지 않은 다리와 같았습니다. 우리의 부족한 이중화는 이중화 역할을 다하지 못했고 결국 장애를 막지 못했습니다."

남궁훈 카카오 전 대표가 ‘이프 카카오 2022’에서 발언하고 있다. / 이프 카카오 갈무리
남궁훈 카카오 전 대표가 ‘이프 카카오 2022’에서 발언하고 있다. / 이프 카카오 갈무리
7일 남궁훈 카카오 전 대표는 온라인으로 진행된 카카오 개발자 콘퍼런스 ‘이프 카카오(if kakao) 2022’에서 이 같이 밝혔다. 이날 카카오는 10월 15일 판교 SK주식회사 C&C 데이터센터 화재로 발생한 서비스 먹통 사태 원인조사 결과 및 재발방지 대책을 발표했다.

이프 카카오는 ‘만약 카카오가 한다면 어땠을까’를 주제로 카카오의 기술력을 소개하는 행사다. 올해 이프 카카오는 ‘만일 카카오가 이랬다면’을 주제로 먹통 사태를 분석했다.

카카오 비상대책위원회 재발방지대책 공동 소위원장을 맡은 남궁 전 대표는 이번 먹통 사태로 ▲과거 원인 분석 ▲현재 재발 방지 대책 수립 ▲미래 투자 계획 등 세 가지 관점의 실천 과제를 세웠다고 강조했다. 카카오는 특히 인프라 조직을 강화하기 위해 고우찬 카카오엔터프라이즈 부사장을 영입해 카카오 내 IT 엔지니어링 전문가로 구성된 전담조직을 만들기로 했다.

미흡한 이중화 시스템에 인력·자원 부족

카카오는 우선 이확영 그렙 공동대표에게 원인조사를 맡겼다. 이확영 대표는 카카오톡 개발에 참여한 외부 전문가로서 카카오의 서비스와 인프라를 경험했다. 비대위 원인조사 소위원장을 맡은 그는 카카오의 이중화, 위기 대응 과정의 미흡함을 파악했다.

이확영 원인조사 소위원장은 "데이터센터 전체에 문제가 생겨도 다른 데이터센터에 이중화가 됐다면 빠른 복구가 가능했을 것이다"라며 "카카오는 판교 데이터센터 내에서만 이중화를 했다"고 지적했다. 그는 이어 "여기에 장애복구 인력과 자원도 부족하고 장애 대응 커뮤니케이션 채널의 혼선도 있었다"고 말했다.

실제 카카오는 서비스를 운영하는 여러 시스템에서 사용하는 캐시서버와 오브젝트 스토리지만 이중화 해 판교 데이터센터에 설치했다. 판교 데이터센터에만 이중화를 마련한 상태에서 판교 데이터센터가 마비되자 캐시서버, 오브젝트 스토리지를 사용하는 서비스의 복구가 늦어진 것이다. 카카오 로그인이나 카카오톡 사진 전송 기능이 이에 해당한다.

카카오는 또 하나의 데이터센터에 장애가 발생할 때 다른 데이터센터로 자동 전환을 하는 시스템도 판교 데이터센터에만 설치했다. 이는 자동 전환이 불가능하도록 했다. 이 과정에서 수동으로 전환 작업을 진행하면서 복구가 늦어졌다. 사용자 서비스에 직접 필요한 시스템 외의 운영 도구 이중화도 미흡했다.

장애복구 인력과 자원 부족도 치명적이었다. 이확영 소위원장은 카카오가 평소 대응체계를 갖췄어도 이번처럼 데이터센터 전체 장애를 가정하면 준비가 부족하다고 평가했다. 아울러 카카오가 사내 커뮤니케이션 및 모니터링 채널로 카카오톡과 카카오워크를 사용하는 점도 문제가 됐다고 봤다.

카카오는 카카오톡, 카카오워크가 작동하지 않았을 때 이를 대응할 채널도 준비하지 않았다. 대응 초기 컨트롤 타워도 부재했다. 먹통 사태가 발생하자 카카오 공동체 개별조직이 동시다발적으로 장애에 대응할 수밖에 없었던 이유다. 전체적으로 이를 조율하고 협업을 지원하는 전사 조직이 없기 때문이다.

이 소위원장은 "전체 시스템 이중화는 가장 약한 시스템의 이중화를 따라간다"며 "때문에 개별 시스템의 미흡한 이중화가 전체적인 장애를 유발했다"고 분석했다. 그는 이어 "개별 부서나 시스템마다 다른 이중화 수준 및 체계 등으로 문제가 생기지 않도록 회사 차원에서 체계적인 이중화를 준비했어야 한다"고 강조했다.

향후 5년간 3배 이상 규모로 인프라 투자 확대

카카오는 그동안 카카오톡 등 주요 서비스를 3곳 이상의 데이터센터에 다양한 형태로 분산 배치해 운영하며 이중화 조치를 했다고 여겨왔다. 하지만 이번에 화재가 발생한 판교 데이터센터에 많은 기능이 집중돼 있었던 것이 문제였다. 카카오는 판교 데이터센터에서 3만2000여대의 서버를 사용하고 있다. 카카오는 이러한 먹통 사태 재발을 막기 위해 CEO 직할 IT 엔지니어링 조직 편성을 검토 중이다.

고우찬 재발방지대책 공동 소위원장은 "아직 IT 엔지니어링 조직 규모 산출 단계는 이르지 못했지만 국내 최고의 IT 엔지니어링 전문가를 적극 영입하겠다"며 "대규모 장애를 대비하는 재해복구위원회를 신설하겠다"고 말했다.

카카오는 또 각종 자연재해나 사건사고가 발생해도 서비스가 중단되지 않도록 대비하는 비상대응계획(BCP)도 강화할 방침이다. 현재 외부 전문가 자문을 구해 BCP의 취약성을 진단하고 준비하겠다는 것이다. 카카오는 국내에는 보편화되지 않았지만 주요 글로벌 기업들이 도입한 기술도 연구개발(R&D) 예정이다. 카카오는 이렇게 개발한 툴을 오픈 소스로 공개해 업계에 기여하겠다는 계획이다.

데이터센터 구조도 개편한다. 고우찬 소위원장은 "데이터센터를 삼중화 플러스 알파 구조로 개선하려 한다"며 "3개의 데이터센터 중 하나가 무력화되는 상황에서도 이중화를 담보하는 안정성을 갖고 있다"고 설명했다. 그는 이어 "하나하나가 초기 투자비를 제외해도 연간 몇백억 혹은 몇천억 단위의 투자 결정이 있어야 실행할 수 있는 것들이다"라며 "카카오는 향후 5년 동안 지난 5년간 투자금액의 약 3배 이상 규모로 투자를 확대하겠다"고 강조했다.

이외에도 카카오는 2024년 안산에서 완공 예정인 자체 데이터센터에 이번 먹통 사태로 얻은 교훈을 적용하기로 했다. 4600억원이 투입된 카카오 안산 데이터센터는 24시간 무중단 운영을 위해 전력·냉방·통신을 이중화하고 있다. 카카오는 안산 데이터센터의 무정전 전원장치(UPS)실과 배터리실을 방화격벽으로 분리 시공한다. 또 전기배전(EPS)·UPS·배터리를 하나의 섹터로 묶어 총 4개의 섹터를 확보해 전력 안정성을 극대화할 계획이다.

카카오는 판교 데이터센터처럼 배터리실 화재가 발생하는 경우에 대비해 삼중 진화 대책도 구성한다. 밀폐된 전기 판넬별 개별 소화장치를 설치했고, 규정치 이상의 소화가스를 비치할 예정이다. 소화가스 부족에 대응할 수 있도록 다른 층의 예비 소화가스를 사용할 수 있는 시스템도 구축한다. 소화가스를 활용한 진화가 실패한다면 화재 발생 구간을 차단하고 냉각수를 채워 방염·방열하도록 했다. 침수·해일·강풍·지진 등의 재난재해 대비책도 마련한다.

남궁훈 전 대표는 "카카오의 서비스 안정화가 우리 최우선 과제이며 사회적 책임이라는 것을 항상 명심하겠다"며 "이미 사고는 발생했지만 지금이라도 반성하고 개선해 미래에는 이런 사고가 발생하지 않도록 최선을 다하겠다"고 말했다.

변인호 기자 jubar@chosunbiz.com