이글루코퍼레이션, 도로교통 암호화 트래픽 합성 데이터셋 개발
도메인 지식 기반 합성·증강 기술로 데이터 부족 문제 해결
이글루코퍼레이션이 국가 기반 시설인 도로교통 환경(ITS, C-ITS, BIS)을 대상으로 암호화 트래픽 합성 데이터셋을 개발하며 인공지능(AI) 기반 보안 기술 혁신에 나서고 있다. 데이터셋에 합성 기법을 적용해 보안·네트워크 도메인 지식(Domain Knowledge)을 바탕으로 실제 데이터의 부족과 불균형 문제를 효과적으로 해소하는데 기여했다.
특히 실제 환경에서 확보하기 어려운 다양한 공격 특징을 데이터셋에 반영함으로써, AI 기반 위협 탐지 모델의 정확성과 신뢰도를 크게 높였다는 점에서 의미가 크다. 더 나아가 암호화 통신 증가로 고도화하는 도로교통 인프라의 사이버 위협에 대응하기 위한 국가적 보안 역량 확보에도 중요한 전환점이 될 것으로 전망된다.
도로교통 인프라를 겨냥한 은밀한 사이버 위협 대응이 국가적 과제로 떠오르고 있다. ITS/C-ITS는 핵심 인프라로, 공격 발생 시 국민 생활과 사회경제에 큰 피해를 줄 수 있다. 특히 공격자가 암호화 통신을 이용해 행위를 은폐하고 탐지를 우회하고 있으며, 기존 보안장비 중심의 복호화 기반 대응기술은 한계를 드러내고 있다. 이에 글로벌 기업들은 암호화된 환경에서도 위협을 식별할 수 있는 AI 기반 네트워크 위협탐지 기술 상용화에 속도를 내고 있다.
그러나 이러한 AI 기반 탐지기술의 기반이 되는 고품질 학습·검증 데이터셋은 도로교통 환경에서 거의 구축돼 있지 않은 상황이다. 데이터 부족과 불균형은 탐지 모델의 정확도, 편향성, 중요 정보 노출 등 다양한 문제를 유발한다. 이 때문에 최신 합성·증강 기술을 통한 데이터 품질 확보가 국가 차원의 시급한 과제로 떠오르고 있다.
이글루코퍼레이션은 한국도로공사 주관 ‘도로교통 공공 서비스·인프라의 암호화 사이버 위협에 대한 네트워크 행위기반 보안관제 기술 개발’ 과제에 공동연구기관으로 참여해 도로교통체계 정상·비정상 행위 연구와 합성 데이터셋 개발을 수행하고 있다. 이를 통해 개발된 ‘서버 트래픽 데이터 합성 기술’은 외부 기관의 성능 테스트에서 성능 기준치를 충족하며 그 기술적 신뢰성을 입증했다.
이번에 구축한 합성 데이터셋은 AI 보안 모델의 데이터 부족과 불균형 문제를 근본적으로 해소하는 핵심 기술이다. 이글루코퍼레이션은 실제 환경에서 확보 가능한 공격 데이터의 양과 다양성이 제한적이라는 한계를 해결하기 위해, 원본 데이터의 특성을 학습한 알고리즘(CTGAN, TVAE, PMF+부트스트랩)을 활용해 데이터를 증강했다. 20여년간 축적한 고유의 도메인 지식을 중심으로 대형언어모델(LLM)을 보조 도구로 활용해 실제 환경에서 포착하기 어려운 변종 공격 특징까지 포함한 고품질 데이터셋을 완성했다.
정일옥 이글루코퍼레이션 AI연구실장은 “2021년 한국인터넷진흥원(KISA) 데이터셋 구축 사업을 통해 보안 장비별 로그·트래픽 데이터를 직접 수집·가공하며 대규모 보안 장비 데이터셋 구축을 수행했고, 이를 기반으로 AI 탐지 모델을 학습·개발해 왔다"며 "최근에는 확보한 자체 합성 기술을 적용해 데이터셋을 지속적으로 증강·고도화함으로써 모델 성능을 더욱 강화하고 있다”고 밝혔다. 이어 그는 “앞으로도 암호화 트래픽 내 미세한 비정상 행위까지 탐지하는 ‘네트워크 행위 기반 보안관제’ 기술의 정확성을 극대화하고, 이를 도로교통 환경에 적용해 국가 중요 인프라를 한층 더 안전하게 보호하는 데 기여할 것”이라고 밝혔다.
정종길 기자
jk2@chosunbiz.com