AI 스타트업 딥시크(DeepSeek)가 저비용·고효율을 가능하게 한 ‘전문가 혼합(Mixture of Experts, MoE)’ 방식의 핵심 요소를 오픈 소스로 공개했다. 이는 지난주 예고한 핵심 기술 공개 계획의 일환이다.
딥시크는 25일(현지시간) 깃허브(GitHub)를 통해 ‘딥EP(Deep Expert Parallelism)’라는 인공지능(AI) 모델 통신 라이브러리를 공개했다. 이 라이브러리는 ‘V3’ 및 ‘R1’ 모델의 핵심 기술로 꼽히는 MoE 방식을 최적화해 효율적인 작동을 지원하는 것이 특징이다.
MoE 최적화 핵심 기술, ‘딥EP’ 공개
MoE 방식은 다수의 전문가 모델 중 특정 쿼리에 가장 적합한 전문가를 선택해 활용하는 구조를 갖는다. 딥EP는 이러한 전문가 모델 간 병렬 계산(Expert Parallelism, EP) 과정에서 발생하는 데이터 처리량을 극대화하고, 대기 시간을 줄이는 GPU 커널을 제공한다.
이는 딥시크 모델의 핵심 최적화 요소 중 하나로 꼽힌다. 업계에서는 딥시크의 AI 모델을 단순히 다운로드받아도 논문에서 발표된 수준의 성능을 내기 어려운 이유 중 하나로 MoE 최적화 기술의 부재를 지적해왔다. 이번에 공개된 딥EP는 이러한 한계를 극복하기 위한 필수적인 요소 중 하나로 평가된다.
딥EP는 특히 GPU에서 토큰이 전송되고 집계되는 과정에서 발생하는 비효율성을 개선하는 데 초점을 맞추고 있다. MoE 전송 및 결합 커널(MoE Communication & Fusion Kernel)로 불리는 고처리량·저지연(All-to-All) GPU 커널을 제공하여, 모델 학습 및 추론 과정에서 데이터 교환을 간소화하고 속도를 높인다.
또한, 딥EP는 딥시크의 V3 논문에 설명된 기술과 일치하는 저정밀도 연산(FP8 포함)을 지원함으로써, 연산 성능을 극대화하면서도 비용을 절감할 수 있도록 설계됐다.
‘오픈 소스 위크’… 핵심 AI 기술 순차 공개
딥시크는 지난주 X(구 트위터)를 통해 이번 주를 **‘오픈 소스 위크(Open Source Week)’**로 지정하고, 총 5개의 오픈 소스 저장소(Repo)를 순차적으로 공개하겠다고 예고한 바 있다.
24일에는 **GPU 최적화 MLA 디코딩 커널 ‘플래시MLA(FlashMLA)’**를 공개했으며, 딥EP는 그 두 번째 공개 프로젝트다. 두 기술 모두 GPU 리소스를 보다 효율적으로 활용해 데이터 처리량을 늘리고 연산 속도를 향상시키는 역할을 한다.
개발자 커뮤니티는 딥시크의 이번 행보를 환영하는 분위기다. 한 X 사용자는 “딥시크는 다시 한번 AI 인프라의 한계를 넓히고 있다”고 평가했으며, AI 산업 솔루션 업체 드래곤스케일 인더스트리(DragonScale Industry)의 스티븐 피멘텔 CTO는 X를 통해 “딥시크가 모델 훈련에 사용한 기술을 오픈 소스로 공개함으로써, 학습 절차에 대한 ‘거짓말’ 논란을 효과적으로 반박했다”고 밝혔다.
‘V3 모델 훈련 비용 논란’… 핵심 비용 제외 지적도
다만, 여기서 말하는 ‘거짓말’ 논란은 기술적인 부분이 아니라 모델 훈련 비용과 관련된 것이다. 딥시크는 V3 모델의 훈련 비용이 557만 달러(약 74억 원)밖에 들지 않았다고 발표했지만, 전문가들은 이 비용이 순수한 사전 훈련 비용만을 의미하며, 실제 총 비용을 반영하지 않았다고 지적했다.
구체적으로, 훈련 비용 발표에서 GPU 구입비, 엔지니어링 비용, 관련 기술 개발비, 인건비 등은 모두 제외됐다는 점이 논란의 핵심이다.
딥시크, 핵심 AI 기술 추가 공개 예고
한편, 딥시크는 이번 주말까지 모델 개발에 활용한 기술을 매일 하나씩 추가 공개할 예정이다. 남은 오픈 소스 프로젝트에 대한 기대감이 높아지는 가운데, AI 연구 및 개발 커뮤니티는 이번 공개가 AI 모델 최적화와 비용 절감에 어떤 영향을 미칠지 주목하고 있다.
답글 남기기