우리나라 기업들의 인공지능(AI) 기반 거대언어모델(LLM) 도입 및 활용이 가속화되는 가운데 구조화된 데이터를 활용하는 것이 LLM의 성능을 좌우한다는 주장이 나왔다. 

황민영 셀렉트스타 부대표가 27일 웨스틴조선 서울 오키드룸에서 열린 ‘AL&CLOUD 2024’ 콘퍼런스에서 발표를 진행하고 있다. /IT조선
황민영 셀렉트스타 부대표가 27일 웨스틴조선 서울 오키드룸에서 열린 ‘AL&CLOUD 2024’ 콘퍼런스에서 발표를 진행하고 있다. /IT조선

황민영 셀렉트스타 부대표는 27일 웨스틴조선 서울 오키드룸에서 열린 ‘AL&CLOUD 2024’ 콘퍼런스에서 “AI 기반 LLM의 성능을 좌우하는 것은 결국 구조화된 데이터다”라고 밝혔다. 

황 부대표는 “LLM 학습을 위한 다양한 데이터 활용법이 있지만 데이터를 트레이닝 시키는데 텍스트의 제한이 있다”며 “이 때문에 주어진 데이터 등에 근거하지 않은 허위 정보를 생성하는 ‘할루시네이션’ 문제가 나오는 것이다”라고 말했다. 

그는 할루시네이션으로 최근에는 RAG에 대한 국내 기업들의 관심이 높아지고 있다고도 설명했다. RAG는 LLM이 질문에 대한 응답을 생성하기 전 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조해 새로운 데이터 기반의 답변을 생성하는 프로세스를 의미한다. 

황 부대표는 “최근에는 기존 데이터를 활용해서 할루미네이션과 같은 LLM의 실수를 최소화하는 것이 트렌드로 자리잡고 있다”며 “실제 현장에서는 고려해야 할 변수가 더욱 많은 만큼 기업들은 데이터 구조화를 통한 LLM을 사용할 수 있어야 한다”고 설명했다. 

또한 “이에 따라 LLM을 바로 도입하고 구축하는 것보다는 POC단계부터 거쳐야 한다”며 “POC레벨부터 시작해 모델을 선정하고 데이터 구조화를 통해 각 사에 맞는 모델 구축, 품질 평가 등의 순서대로 LLM을 적용해야 한다”고 강조했다. 

송가영 기자 sgy0116@chosunbiz.com