인텔, AI 가속기 ‘가우디 3’로 기업용 생성형 AI 시장 독점 구조 타개 나서

엔비디아 H100 대비 추론 성능 우위 강조…기존 가우디 2 대비 AI 컴퓨팅 4배, 메모리 대역폭 1.5배 성능 향상

팻 겔싱어 인텔 CEO가 ‘인텔 비전 2024’에서 ‘가우디 3’를 소개하고 있다.

[디지털경제뉴스 박시현 기자] 인텔은 연례 행사인 ‘인텔 비전 2024’에서 AI 가속기 ‘인텔 가우디 3’를 선보였다.

인텔은 “가우디 3는 가격 대비 성능, 시스템 확장성, 가용성 등 모든 측면에서 이점을 갖춘 매력적인 생성형 AI 대안으로 주목받고 있다”며, “가우디 3를 앞세워 기업용 생성형 AI 시장의 독점 구조를 타개하는데 나설 것”이라고 밝혔다.

인텔에 따르면 ‘인텔 가우디 3’는 AI 분야에서 주로 사용되는 부동 소수점 형식인 BF16에서 기존 모델인 가우디 2 대비 AI 컴퓨팅에서 4배, 메모리 대역폭에서 1.5배, 대규모 시스템 확장을 위한 네트워킹 대역폭은 2배 향상됐다.

인텔 가우디 3는 대규모 언어 모델(LLM) 및 멀티모달 모델에서 AI 학습 및 추론을 위한 성능과 생산성을 대폭 높였다. 인텔은 가우디 2의 입증된 성능과 효율성을 기반으로 개방형 커뮤니티 기반 소프트웨어 및 업계 표준 이더넷 네트워킹을 통해 고객에게 시스템을 보다 유연하게 확장할 수 있는 선택권을 제공한다.

기업들은 AI에 대한 접근성을 확대하고 생성형 AI 프로젝트를 모색하면서 투자수익률(ROI) 및 운영 효율성을 충족하는 개방적이고 비용 효율적이며 에너지 효율적인 솔루션과 제품을 요구하고 있다.

인텔 가우디 3는 이러한 요구사항을 충족하고 개방형 커뮤니티 기반 소프트웨어와 개방형 산업 표준 이더넷을 통해 다양한 기능을 제공해 기업이 AI 시스템과 애플리케이션을 유연하게 확장할 수 있도록 지원한다.

효율적인 대규모 AI 컴퓨팅용으로 설계된 인텔 가우디 3는 5나노미터 공정으로 제조되며 이전 제품보다 크게 향상된 성능을 제공한다. MME(Matrix Multiplication Engine), 텐서 프로세서 코어(TPC), 네트워킹 인터페이스 카드 등 모든 엔진을 병렬로 활성화할 수 있도록 설계되어 빠르고 효율적인 딥러닝 연산 및 확장에 필요한 가속화를 지원한다. 주요 기능은 다음과 같다.

▪AI 전용 컴퓨팅 엔진: 인텔 가우디 3는 고성능, 고효율 생성형 AI 컴퓨팅용으로 설계됐다. 각 가속기는 64개의 AI 맞춤형 및 프로그래밍 가능한 TPC와 8개의 MME로 구성된 이종 컴퓨팅 엔진을 갖추고 있다. 각 인텔 가우디 3 MME는 6만 4천개의 병렬 연산을 수행할 수 있어 높은 수준의 연산 효율성을 제공하며, 딥 러닝 알고리즘의 기본 연산 유형인 복잡한 행렬 연산을 능숙하게 처리할 수 있다. 가우디 3의 고유한 설계는 병렬 AI 작업의 속도와 효율성을 가속화하고 여러 데이터 유형을 지원한다.

▪LLM 용량 요구사항을 위한 메모리 가속: 128GB의 HBM2e 메모리 용량, 3.7TB의 메모리 대역폭, 96MB의 SRAM으로 더 적은 수의 인텔 가우디 3에서 대규모 생성형 AI 데이터세트를 처리할 수 있는 충분한 메모리를 제공하며, 특히 대규모 언어 및 멀티모달 모델을 제공하는 데 유용해 워크로드 성능과 데이터센터 비용 효율성이 향상된다.

▪기업용 생성형 AI 위한 효율적인 시스템 확장: 24개의 200Gb 이더넷 포트가 모든 인텔 가우디 3 가속기에 통합돼 있어 유연한 개방형 표준 네트워킹을 제공한다. 이를 통해 효율적인 확장이 가능해 대규모 컴퓨팅 클러스터를 지원하고 독점 네트워킹 패브릭이 한 벤더에 종속될 필요가 없다. 인텔 가우디 3는 단일 노드에서 수천 개까지 효율적으로 스케일업 및 스케일아웃할 수 있도록 설계되어 생성형 AI 모델의 광범위한 요구사항을 충족한다.

▪개발자의 생산성을 위한 개방형 산업 소프트웨어: 인텔 가우디 소프트웨어는 파이토치 프레임워크를 통합하며 생성형 AI 개발자에게 가장 널리 사용되는 AI 프레임워크인 허깅 페이스 커뮤니티 기반 최적화 모델을 제공한다. 이를 통해 생성형 AI 개발자는 높은 추상화 수준에서 작업해 사용 편의성과 생산성을 높이고 하드웨어 유형 간에 모델을 쉽게 이식할 수 있다.

▪가우디 3 PCle: 가우디 3 PCle 애드인 카드가 제품군에 새로 추가됐다. 저전력으로 높은 효율성을 제공하도록 맞춤 설계된 새로운 폼팩터는 미세 조정, 추론 및 RAG 등의 워크로드에 이상적이다. 600와트의 풀 하이트 폼 팩터로, 128GB의 HBM2e 메모리 용량과 초당 3.7TB의 대역폭을 제공한다.

인텔 가우디 3는 주요 생성형 AI 모델에 대한 학습 및 추론 작업에서 높은 성능 향상을 제공할 수 있다. 특히 가우디 3는 엔비디아 H100 대비 평균적으로 다음과 같은 성능을 제공할 것으로 예상된다.

▪라마2 70억개 및 130억개의 매개변수와 GPT-3 1750억개의 매개변수 모델에서 학습 시간 50% 단축

▪라마2 70억개 및 700억개의 매개변수 모델에서 50% 빠른 추론 처리량 및 40% 향상된 추론 전력 효율성 제공. 더 긴 입력/출력 시퀀스에서 더 큰 추론 성능 이점 제공

▪라마2 70억개 및 700억개 매개변수와 팔콘 1800억개 매개변수 모델에서 엔비디아 H200 대비 30% 빠른 추론

인텔 가우디 3는 2024년 2분기에 범용 베이스보드 및 개방형 가속기 모듈(OAM)의 산업 표준 구성으로 OEM에 제공될 예정이다. 가우디 3를 시장에 출시할 주요 OEM 업체는 델 테크놀로지스, HPE, 레노보, 슈퍼마이크로 등이다. 인텔 가우디 3 가속기의 정식 출시는 2024년 3분기로 예정돼 있다.

인텔 가우디 3는 AI 및 고성능 컴퓨팅용 인텔의 차세대 GPU인 ‘팔콘 쇼어’의 기반이 될 전망이다. 팔콘 쇼어는 인텔 가우디와 인텔 Xe IP를 인텔 oneAPI 사양에 기반한 단일 GPU 프로그래밍 인터페이스와 통합할 예정이다.

박시현 기자 다른기사 보기