[이학무의 테크리딩] 포스트 애플이 될 테슬라(상)

기술이 세상을 빠르게 바꾸고 있다. 기술을 직접 개발하지 않는다 하더라도 각자의 영역에서 필요한 만큼의 기술에 대한 이해가 필요한 세상이 되었다. 학생은 미래의 직업을 선택하기 위해서 그리고 이미 직업을 가진 사람은 각자 직업의 미래를 예상하기 위해서 세상을 바꾸는 기술에 대해서 이해해야만 한다. IT조선은 [이학무의 테크리딩]을 통해서 기술을 이해하기 위한 기초 다지기와 이를 기반으로 필수적인 기술 이해 방법을 제공한다. <편집자주>

비전인식 기술

8월 20일 열린 테슬라의 ‘인공지능 데이(AI Day)’ 행사를 본 후 테슬라가 포스트 애플이 될 수 있다는 확신이 들었다. 애플이 과거 아이폰3GS를 선보였던 것처럼 테슬라는 향후 2~3년 내에 전기차 산업에 혁신적인 영향을 미칠 신차를 출시할 것으로 보인다.

자동차 산업을 휴대폰 산업과 비교분석할 때 꼭 염두해 두어야 하는 것은 제품의 라이프 사이클이다. 자동차의 사이클은 휴대폰보다 5~7배 더 길다. 휴대폰의 수명은 2~3년 정도지만 자동차는 10~15년이다. 새로운 휴대폰 모델은 1년에 1~2개씩 나오지만, 자동차는 5~7년이 걸린다. 신차 개발 기간 역시 휴대폰보다 5~7배 더 길다. 테슬라를 정확히 보려면 애플보다 5~7배 더 긴 호흡으로 바라봐야 한다.

아이폰을 테슬라 자동차와 비교해 보자. 우선, 애플은 2007년 최초의 아이폰을 출시했고, 2008년 3G 이동통신망을 지원하는 아이폰3G를 출시했다. 그리고 2009년 기존 제품보다 2배 더 빠른 연산 속도를 지원하며 동시에 300만 화소 카메라, 동영상 녹화 기능을 가진 아이폰3GS를 출시했다.

테슬라는 최초의 아이폰에 해당하는 모델S를 출시했고, 스마트폰 대중화를 이끈 아이폰3G에 준한 모델3를 선보였다. 아이폰의 폭발적인 성장을 이끈 아이폰3GS는 테슬라의 완성된 FSD(Full Self Driving) 기능이다. 공교롭게도 아이폰3GS가 기존 제품과 비교해 동일한 외관에 성능만 개선한 모델이었다는 것을 고려하면 테슬라도 유사한 흐름을 이어간다.

테슬라는 FSD 상용화 시기에 폭발적으로 성장할 것으로 보이는데, AI Day에서 그 시점에 대한 힌트를 얻을 수 있었다. 필자는 기술적인 난이도, 개발 기간, 경쟁업체와의 기술 격차 등을 가늠하기 위해 AI Day를 최대한 깊이 있게 이해하고자 했다.

자율주행 중인 테슬라 자동차 모습 / 테슬라완전자율주행을 완성하기 위한 첫 단추는 바로 비전인식이다. 비전인식은 다시 물체인식과 공간인식으로 나눠진다. 물체인식은 주행하고 있는 방향 주변에 어떤 물체들이 있는지를 확인하는 것이다. 공간인식은 그 물체가 어디에 위치하고 있는지 확인하는 것이다.

비전인식은 인간이 운전할 때 빠르게 인지하는 정보들이다. 완전자율주행는 인공지능이 해당 정보를 정확하게 인지하는 것에서 시작한다. 테슬라 차량은 이 정보를 카메라 영상 만으로 추출한다. 이러한 방식은 운전할 때 눈으로 사물을 인식하는 인간의 방식을 가장 근접하게 모방한 것이다.

테슬라의 비전인식은 다음과 같이 이뤄진다. 먼저, 1280x960 해상도 영상을 입력 받는다. 물론, 1280x960 해상도는 풀HD도 아닌 HD에 해당한다. 정보의 양이 충분하지 않다는 오해를 받을 수 있다. 하지만 영상 정보는 오직 사진 1장의 해상도로 평가해서는 안된다.

동영상은 같은 해상도의 사진을 초당 30장씩 찍어 완성된다. 동일한 정지 장면을 1초만 찍어도 이론적으로는 30배 더 선명한 영상 정보를 만들 수 있다. 움직이는 물체를 촬영할 때는 동적 정보를 얻을 수 있다. 자동차 운행 중에는 차량도 이동하지만 동시에 주변 행인과 다른 차량도 이동 중이다. 동적 정보가 정지 장면의 정보보다 훨씬 중요하다. 테슬라는 일반 동영상보다 더 많은 초당 36장의 사진을 이어붙인 동영상을 사용한다.

또 하나 중요한 영상 정보는 동적영역(DR : Dynamic Range)이다. DR은 픽셀 하나의 밝기 레벨을 나타낸다. 일반적인 영상에서 DR은 256단계 또는 1024단계로 표시한다. 하지만 테슬라는 4096단계로 입력한다. 이는 어두운 환경에서도 AI가 물체를 정확하게 인지하도록 돕기 위함이다. 자율주행 환경에서는 해상도보다 DR이 더 중요하다.

이렇게 입력 받은 영상은 특징 추출기에 들어가며, 추출기는 20x15, 40x30, 80x60, 160x120 해상도 영상을 추출한다. 이때 20x15 영상은 512장, 160x120 영상은 64장 추출한다. 인공지능은 20x15 영상으로 화면의 전체적인 정보를 알 수 있고, 160x120 영상으로 구체적인 정보를 확인다.

각각의 영상에는 인공지능이 이해할 수 있는 특징 정보가 담긴다. 주변이 막혀 있고, 구획선이 나눠져 있으며, 차들이 곳곳에 정지해 있고, 주변은 나무로 조경이 되어 있다는 특징 정보를 기반으로 인공지능은 이곳이 주차장이라고 인지한다. 이 때 20x15 저해상도 특징 영상에서 구획선, 나무, 차 등 대략적인 정보를 파악하고, 160x120의 고해상도 특징 영상에서 세부적인 디테일을 유추한다.

전체적인 환경을 인식하는 것과 세부 대상을 인식하는 것은 상호보완적이어야 하므로, 테슬라 AI는 BiFPN(Bidirectional Feature Pyramid Network)을 사용한다. 가령, 도로 끝에 명확하게 보이지 않는 물체가 있을 때 인간은 일단 그것을 자동차로 인식한다. 마찬가지로 인공지능 역시 BiFPN를 활용한다. 명확히 분간 되지 않는 물체가 멀리 위치했을 때, 저 해상도 특징 영상의 도움을 받아 그 물체가 도로의 끝에 있다는 정보를 감안해서 자동차 일 것으로 유추하여 인식한다.

다만, 특징 영상을 기반으로 인공지능이 도로 상황을 판단하고, 신호등과 교통표지판을 판단하고, 물체의 정체를 판단하는 것은 또 다른 학습 요소다. 하나의 특징 추출기에서 나온 특징 정보를 기반으로 상황별로 각각 프로세싱을 거쳐 물체가 무엇인지 인지한다. 그 과정이 하나의 몸통에서 여러 개의 머리가 연결된 구조로 보이기 때문에 이를 ‘하드라넷(HydraNets)’이라고 한다. 이를 통해 테슬라 인공지능은 전방에 차가 몇 대 있고, 차선은 어떤 모양이고, 사람은 있는지 등을 판단한다. 하지만 인공지능은 내 차를 기준으로 해당 물체들이 현재 어디에 위치하고 있는지 아직 알 수 없다.

테슬라는 인간이 공간 지각 능력으로 물체의 위치를 인지하는 것과 마찬가지로 벡터스페이스 전환 기술을 통해 위치를 인지한다. 벡터스페이스는 위치, 방향, 속도 데이터가 있는 가상공간이다. 인공지능에 가상공간을 만들어 놓고 영상데이터를 이 공간에 맵핑해 최종적으로 벡터스페이스를 구현한다. 벡터스페이스 구현을 자세하게 설명하자면, 우선 학습을 통해 훈련된 인공지능은 입력되는 각 영상의 픽셀에서 7개의 데이터를 추출한다. 7개의 데이터는 가상공간 상의 xyz 좌표 3개, 픽셀이 이동하는 xyz 방향 좌표 3개, 그리고 이 픽셀이 이동하는 속도를 나타내는 숫자 1개이다. 이러한 데이터는 초당 36장의 영상과 8대의 카메라에서 들어 오는 영상 정보를 종합해서 만들어진다.

앞서 언급한 것과 같이 영상 정보는 동적 정보를 포함하고 있어 3차원 벡터스페이스를 구성하는 데 도움을 준다. 여러 픽셀이 모여 하나의 물체가 되는데, 그 물체에 포함된 모든 픽셀은 이동 방향과 속도에서 공통적인 특징을 갖는다. 따라서 해당 정보를 통해 물체를 더 정확하게 인식할 수 있다. 심지어 사물에 장애물이 가려져 있어도 물체의 존재를 추적해 유추할 수 있다. 이로써 인간이 인식하는 것과 동일한 수준의 3차원 공간 인식이 가능하다.

테슬라 운행을 위한 준비는 모두 끝났다. 이후 운행 계획을 하고 이를 컨트롤 하는 내용은 다음 편에서 다룰 예정이다.

이학무 미래에셋증권 통신서비스 애널리스트 leehakmoo@gmail.com

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

이학무 미래에셋증권 애널리스트는 반도체, 핸드폰, 디스플레이 등 IT 산업뿐 아니라 전기차, 배터리 및 신재생에너지 산업까지 다수의 성장산업을 분석한 신성장 산업 분석 전문가다. 공학을 전공하고 비즈니스를 20년간 분석한 경험을 바탕으로 세상을 이끄는(lead) 기술 읽기(read)를 제공한다.