메타가 최신 대규모 언어모델(LLM) '라마3'를 오픈소스로 공개했다. 또 메타는 라마3를 페이스북과 인스타그램, 왓츠앱 등 자사 소셜미디어(SNS)에 적용한다.

메타 로고. / 메타
메타 로고. / 메타

19일 메타는 자체 개발한 차세대 대규모 언어모델 라마3를 사전훈련과 미세조정을 마친 80억개(8B)와 700억개(70B) 매개변수 모델 두 가지를 공개했다고 밝혔다. 또 두 모델은 MMLU(다중작업언어이해) 테스트에서 구글 ‘제미나이프로 1.0’을 앞섰다고 강조했다.

메타는 라마3 성능 향상이 사전 훈련과 사후 훈련 과정을 고도화해 이뤄졌다고 설명했다. 사전 훈련을 위해 데이터셋 양을 늘리고, 필터링 과정을 거쳐 고품질 데이터만을 선별했다는 설명이다. 

메타에 따르면 라마3는 15조 이상 토큰으로 훈련됐고 이는 라마2 대비 7배 이상 많은 것이다. 특히 코드량은 4배 더 많다. 또한 라마3의 사전 훈련에는 일상적인 질문부터 과학, 기술, 공학, 수학(STEM) 분야, 코딩, 역사 지식에 이르기까지 다양한 분야의 데이터셋이 사용됐다. 이를 통해 모델이 보다 여러 영역에서 활용될 수 있도록 했다. 

아울러 사전훈련의 규모를 확대하고 보다 고도화된 '지시 미세조정' 과정을 진행했다. 지시 미세조정된 모델은 전문가와 자동화된 도구를 활용한 레드팀 훈련을 통해 부적절한 답변의 가능성을 최소화했다.

메타는 SNS 플랫폼용 챗봇인 메타AI도 공개했다. 지난해 9월 베타 서비스를 시작한지 7개월 만이다. 라마3 기반으로 만들어진 메타AI는 페이스북과 인스타그램 등에 내장돼 사용자 질문에 답하고, 이미지 생성을 할 수 있다.

메타 관계자는 "보다 투명하고 안전한 AI 개발을 위한 개방형 접근 방식에 따라, 8B와 70B 매개변수 모델을 먼저 선보이며 연구원과 개발자의 피드백을 통해 지속 발전시켜나가겠다"며 "현재 훈련 중인 더 큰 규모의 모델 역시 추후 오픈소스로 공개할 계획이다"라고 말했다. 

라마3 모델은 메타 홈페이지에서 다운로드가 가능하며 AWS, 데이터브릭스, 구글 클라우드, 허깅페이스, IBM 왓슨x, 마이크로소프트 애저 등 다양한 플랫폼에도 공개될 예정이다. 하드웨어 측면에서는 AMD, AWS, 델, 인텔, 엔비디아와 퀄컴이 파트너로 함께한다.

이선율 기자 melody@chosunbiz.com