[디지털경제뉴스 박시현 기자] 데이터브릭스 코리아는 29일 기자간담회에서 데이터브릭스가 3월 24일 새로운 오픈소스 AI 모델 ‘돌리(Dolly)’를 출시했다고 발표했다.
이날 데이터브릭스 코리아의 솔루션즈 아키텍트 팀장 장경운 상무는 “돌리는 기존의 오픈소스 대형 언어모델(LLM)을 고품질 훈련 데이터로 한 대의 머신에서 단 3시간 학습시키는 것만으로 챗GPT와 유사한 획기적인 명령어 추종 기능을 구현할 수 있음을 보여줬다”고 강조했다. 명령어 추종을 위해서는 반드시 가장 최신이나 최대 규모의 모델들이 필요한 것이 아니라는 것을 나타낸 것이다. 이는 GPT-3는 매개변수가 1,750억개인데 반해 데이터브릭스의 돌리는 단 60억개에 불과하기 때문이다.
◆데이터브릭스 ‘돌리’, 저렴하고 비용 효율적으로 명령어 추종 기능 구축할 수 있는 LLM…매개변수 단 60억개에 불과 = 장경운 상무의 설명에 따르면 데이터브릭스는 돌리의 코드를 오픈소스로 공개해 사용자들이 돌리를 데이터브릭스에서 어떻게 재현될 수 있는지도 보여준다. LLM의 보편화에 기여할 돌리는 극소수의 기업만이 구현 가능한 LLM이 아닌 모든 기업이 제품과 서비스의 개선을 위해 직접 맞춤화하고 사용할 수 있는 모델이 될 것으로 기대를 모은다.
2022년 11월 명령어 추종 모델인 챗GPT가 출시되면서 전 세계적으로 열풍이 일어났다. 이 모델은 웹 상에 있는 수조 개의 단어로 학습됐기 때문에 개발에 엄청난 양의 GPU가 필요했다. 이후 구글을 비롯한 다른 회사들도 자체적인 명령어 추종 모델을 내놓기 시작했다. 특히 2023년 2월 메타는 80,000시간 이상 GPU로 학습된 고품질 언어모델(명령어 추종형 모델은 아님) LLaMA가 사용하는 가중치를 학계 연구자들에게 공개했다. 올해 3월 스탠퍼드 대학은 인간이 주고받는 것과 같은 50,000개의 질문과 답변으로 구성된 데이터셋을 기반으로 LLaMA를 미세 조정해 Alpaca라는 명령어 추종 언어 모델을 선보였으며, 놀랍게도 이 모델은 챗GPT와 같은 상호작용을 보여줬다.
데이터브릭스의 돌리는 챗GPT가 가진 놀라운 명령어 추종 기능을 보다 저렴하고 비용 효율적으로 구축할 수 있는 LLM이다. Alpaca 팀의 연구는 최신 모델로 고품질의 명령어 추종 기능을 구현할 수 있다는 것을 보여줬지만, 데이터브릭스는 훨씬 이전의 아키텍처를 가진 수년 된 오픈소스 모델도 작은 양의 명령어 학습 데이터셋을 가지고 미세 조정함으로써 명령어 추종 기능 구현이 가능하다는 것을 증명했다.
돌리의 작동 원리는 기존 오픈소스 모델인 EleutherAI의 60억 개의 파라미터 모델을 Alpaca의 데이터를 사용하고 미세하게 조정해 원래 모델에는 없는 브레인스토밍 및 텍스트 생성과 같은 명령어 추종 기능을 이끌어내는 것이다.
돌리의 기반이 되는 모델은 매개변수가 60억개로 GPT-3의 1,750억 개에 비해 현저히 적을 뿐 아니라, 2년이나 된 모델인데도 이렇게 잘 작동한다는 것이 특히 놀라운 부분이다. 이는 챗GPT와 같은 최신 모델의 질적 개선에 기여한 요인은 보다 규모가 크거나 더 미세 조정된 기반 모델이 아닌 명령어 추종 훈련 데이터라는 사실을 시사한다.
◆‘돌리 코드’ 오픈소스로 공개, 모든 기업이 제품과 서비스 개선에 활용 가능 = 돌리라는 이름은 최초의 복제 포유류인 양 ‘돌리’에서 온 것인데, 이는 LLaMA에서 영감을 받은 Alpaca의 오픈소스 클론이기 때문이다. 엔터프라이즈 AI의 보편화는 아직 초기 단계로 여전히 해야 할 일이 많이 남아 있지만, 돌리의 기반 기술은 명령어 추종 모델을 자체적으로 구축하고자 하는 기업들에게 새롭고 흥미로운 기회를 제공할 것이다.
데이터브릭스는 챗GPT가 기반으로 하는 InstructGPT 관련 논문에 설명된 지침을 따르는 기능에 대해 돌리를 평가했으며, 텍스트 생성, 브레인스토밍 및 오픈 Q&A 등 전반적인 면에서 InstructGPT와 동일한 수준의 기능을 보유하고 있는 것을 확인했다. 여기서 특히 주목할 부분은 생성된 텍스트의 품질보다는, 오래된 오픈소스 모델을 소규모의 고품질 데이터셋을 통해 미세 조정함으로써 명령 추종 기능을 크게 개선했다는 점이다.
기업들이 API를 통해 독점 모델을 제공하는 중앙집중식 LLM 제공업체에 데이터를 보내는 대신 자체 모델을 구축하는 것을 선호하는 데에는 여러 가지 이유가 있다. 보통 AI를 필요로 하는 문제들과 기업의 데이터셋은 가장 민감하고도 독점적인 지적 재산이 될 수 있기 때문에 이를 제3자에게 넘기는 것이 달갑지 않을 수 있다. 또한 조직마다 모델 품질, 비용, 원하는 동작 측면에서 서로 다른 균형을 이룰 수 있다. 따라서, 대부분의 머신러닝(ML) 사용자는 모델을 직접 소유하는 것이 장기적으로 봤을 때 이상적이라고 보여진다.
데이터브릭스는 간단한 데이터브릭스 노트북(notebook)을 오픈소스로 공개해 사용자들이 데이터브릭스에서 돌리를 직접 구축할 수 있도록 하고 있다.
돌리의 출시는 데이터브릭스가 모든 조직이 LLM이 가진 힘을 활용할 수 있도록 지원하겠다는 노력의 첫 걸음이다. 데이터브릭스는 모든 조직과 개인의 생산성을 혁신시키게 될 AI의 무한한 잠재력을 믿으며, 앞으로 이와 관련한 새로운 소식들을 더욱 전할 예정이다.
데이터브릭스는 “이번 돌리 출시는 여러 훌륭한 조직의 노력과 인사이트가 모여 만들어진 결과이다. 특히 EleutherAI의 오픈 소싱과 GPT-J 훈련이 없었다면 돌리를 구현할 수 없었을 것이다. 데이터브릭스는 스탠퍼드 기초 모델 연구 센터(Stanford Center for Research on Foundation Models) Alpaca 팀의 혁신적인 아이디어와 데이터에서 큰 영감을 얻었다. Self-Instruct에 관한 원저 논문에서는 작은 데이터셋이 놀라운 성능을 발휘할 수 있다는 핵심 아이디어를 얻을 수 있었다. 또한, 수많은 모델과 라이브러리를 호스팅, 오픈소싱 및 유지 관리해준 허깅페이스(Hugging Face)에도 깊은 감사를 표한다”고 밝혔다.
한편 생성형 AI는 새롭게 떠오르는 신흥 기술로, 사실의 정확성, 편향성, 공격적인 반응, 일반적인 독성, 환각 등을 LLM에서 해결하는 방법에 대한 연구는 아직 초기 단계에 있다. 돌리는 다른 언어모델과 마찬가지로 때때로 이러한 동작을 보일 수 있다.