목록으로
AI앱플레이스테크76

Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지

'꽃 어디' 앱 아이콘

Flower Where

꽃구경 명소를 찾는 가장 쉬운 방법
'꽃 어디' 지금 설치하세요

Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지

#AI아키텍처 #MoE #DeepSeek #LLM #딥러닝

지난주 DeepSeek V4가 공개됐을 때 두 가지 숫자가 동시에 눈에 들어왔을 겁니다. 1.6조(1,600,000,000,000) 파라미터라는 어마어마한 규모, 그리고 출력 100만 토큰당 $3.48이라는 GPT-5.5($30)의 10분의 1 수준 가격. 이 두 숫자는 언뜻 모순처럼 보입니다. 더 크면 더 비싸야 하는 게 아닐까? 그 답이 바로 Mixture of Experts, 줄여서 MoE 아키텍처입니다.

먼저 '파라미터'가 무엇인지부터

MoE를 이해하려면 먼저 파라미터가 무엇인지 짚어야 합니다.

AI 모델의 파라미터는 모델이 학습을 통해 습득한 지식을 저장하는 숫자들입니다. 뇌의 시냅스 연결 강도와 비슷한 개념으로 생각할 수 있습니다. GPT-4가 약 1.8조 파라미터, Claude Opus 4.6이 수천억 파라미터 규모로 추정됩니다. 파라미터가 많을수록 더 많은 지식을 담을 수 있지만, 추론(inference) — 즉 사용자의 질문에 답하는 과정 — 에서 이 파라미터를 얼마나 사용하느냐에 따라 계산 비용이 결정됩니다.

여기서 핵심 질문이 나옵니다. "모든 파라미터를 매번 다 써야 할까?"

기존 방식 — 밀집 모델(Dense Model)

전통적인 AI 모델 아키텍처에서는 입력이 들어올 때마다 모델 내 모든 파라미터가 계산에 참여합니다. 이런 방식을 밀집 모델(Dense Model)이라고 합니다.

"오늘 서울 날씨 어때?"라는 질문에 답할 때도, "이 Python 코드의 버그를 찾아줘"라는 요청을 처리할 때도, 모델 안의 모든 파라미터가 동원됩니다. 날씨 질문을 처리할 때 코딩 관련 지식을 담은 파라미터들도 쓸데없이 활성화되는 셈입니다.

모델이 커질수록 이 비효율은 기하급수적으로 커집니다. 2026년 현재 AI 업계에서 조 단위 파라미터 모델이 등장하면서, 단순히 GPU와 데이터를 더 많이 투입하는 방식의 한계가 뚜렷해졌습니다. 브루트 포스 스케일링의 시대는 끝나가고 있습니다.

MoE의 핵심 아이디어 — 전문가 분업

Mixture of Experts 아키텍처의 핵심은 하나의 거대한 모델 대신, 여러 개의 전문화된 서브모델(전문가, Expert)과 어떤 전문가를 쓸지 결정하는 게이팅 네트워크(라우터)로 구성된다는 것입니다.

비유를 들면 이렇습니다. 병원 응급실에 모든 전문의가 상시 대기하는 것이 아니라, 접수 담당자(라우터)가 환자의 증상을 보고 해당 분야 전문의(전문가)를 호출하는 방식입니다. 골절 환자에게 정신과 의사를 호출하지 않습니다.

입력 토큰이 들어오면 라우터가 확률 점수를 계산하고, 가장 적합한 상위 K개의 전문가에게만 해당 토큰을 보냅니다. 나머지 전문가들은 그 토큰에 대해서는 완전히 비활성 상태를 유지합니다. 이 선택적 활성화가 MoE 효율성의 근거입니다.

숫자로 보는 MoE의 효율

가장 직관적인 예시는 Mixtral 8x7B입니다.

Mixtral 8x7B는 각 레이어에 8개의 전문가를 두되, 토큰마다 그 중 2개만 활성화합니다. 전체 파라미터는 46.7B이지만, 토큰 하나를 처리할 때 실제로 사용되는 파라미터는 약 12.9B에 불과합니다.

46.7B짜리 모델의 지식 용량을 가지면서, 실제 추론 비용은 12.9B 수준으로 억제하는 구조입니다.

DeepSeek V4-Pro는 이 원리를 극단까지 밀어붙였습니다. V4-Pro는 전체 파라미터 1.6조, 토큰당 활성화 파라미터 490억입니다. 전체의 약 3%만 활성화됩니다. 1.6조 규모의 지식을 담고 있으면서, 실제 답변 생성 시 계산 비용은 490억 수준 모델과 비슷합니다.

MoE는 일반적으로 같은 크기의 밀집 모델 대비 가격 대비 성능 비율을 3~5배 개선합니다.

MoE의 세 가지 구성 요소

MoE 아키텍처를 조금 더 구체적으로 보면 세 가지 요소로 나뉩니다.

첫 번째는 전문가 네트워크(Expert Networks)입니다. 각각 독립적인 신경망 서브모델로, 데이터의 서로 다른 측면을 처리하도록 학습됩니다. 자연어 처리 맥락에서는 한 전문가가 문법을 잘 처리하고, 다른 전문가가 사실 정보 검색에 강하고, 또 다른 전문가가 코드 문법을 잘 다루는 식으로 분화됩니다.

단, 주의할 점이 있습니다. 전문가는 "심리학" 이나 "생물학" 같은 도메인 단위로 전문화되는 것이 아닙니다. 더 세밀하게는 특정 컨텍스트 안에서 특정 토큰을 처리하는 방식에서 전문성이 나타납니다.

두 번째는 게이팅 네트워크(Gating Network, 라우터)입니다. 데이터의 트래픽 컨트롤러 역할을 합니다. 입력이 들어오면 소프트맥스 함수를 사용해 확률 점수를 계산하고, 가장 높은 점수를 받은 상위 K개의 전문가에게만 입력을 전달합니다.

세 번째는 희소 활성화(Sparse Activation)입니다. 선택된 전문가들만 활성화되어 최종 출력에 기여합니다. 나머지는 비활성 상태로 유지되어 막대한 계산량을 절감합니다. 이것이 MoE가 비슷한 규모의 밀집 모델보다 훨씬 효율적인 핵심 이유입니다.

학습 단계의 까다로운 문제 — 부하 불균형

MoE가 완벽한 것은 아닙니다. 학습 과정에서 구조적인 문제가 생깁니다.

일반적인 MoE 학습 과정에서 게이팅 네트워크는 같은 소수의 전문가만 계속 활성화하는 방향으로 수렴하는 경향이 있습니다. 초기에 조금 더 빠르게 학습된 전문가가 더 자주 선택되고, 더 자주 선택되니 더 빨리 학습되는 자기강화 구조가 만들어집니다.

몇몇 전문가에게 부하가 집중되고 나머지는 거의 쓰이지 않는 상태가 됩니다. 이렇게 되면 학습 비효율이 발생하고 모델 품질이 떨어집니다.

이를 해결하기 위해 MoE 구현에서는 보조 손실(auxiliary loss) 항을 학습 목표에 추가합니다. 모든 전문가가 균등하게 사용되도록 유도하는 항입니다. DeepSeek V4는 여기에 더해 Muon이라는 새로운 옵티마이저를 도입해 학습 수렴 속도와 안정성을 개선했습니다.

MoE의 트레이드오프 — 장점과 단점

장점만 있는 건 아닙니다.

장점으로는 우선 계산 효율입니다. 전체 파라미터의 일부만 활성화하므로 동일 규모 밀집 모델 대비 추론 속도가 빠르고 비용이 낮습니다. 학습 속도도 빠릅니다. 스케일링도 유리합니다. 파라미터 수를 늘려도 계산 비용이 비례해서 증가하지 않아 조 단위 파라미터 모델을 현실적인 비용에 구현할 수 있게 됩니다.

단점도 있습니다. 메모리 요구량이 높습니다. 계산은 희소하게 이루어지지만, 모든 전문가의 파라미터를 메모리에 올려두어야 합니다. 8개의 7B 전문가를 가진 모델이라면 한 번에 13B만 계산하더라도 56B 파라미터 전체를 메모리에 적재해야 합니다.

라우팅 오버헤드도 있습니다. 토큰마다 게이팅 결정을 내려야 하고, 분산 환경에서 여러 전문가가 서로 다른 서버에 있을 경우 네트워크 통신 비용이 발생합니다. 학습도 밀집 모델보다 복잡합니다.

2026년 주요 AI 모델이 대부분 MoE인 이유

2026년의 지배적인 아키텍처 트렌드는 밀집 모델에서 희소 MoE로의 전환입니다.

현재 주요 프론티어 모델들의 아키텍처를 보면 이 흐름이 뚜렷합니다. GPT-4는 16개 전문가 MoE 구조로 알려져 있습니다. Gemini 1.5 Pro도 MoE 기반입니다. Mixtral, DBRX는 오픈소스 MoE 모델입니다. 그리고 DeepSeek V3, V4 시리즈가 MoE를 극단적으로 최적화한 대표 사례입니다.

이유는 간단합니다. AI 모델의 경쟁이 단순히 "크기"에서 "비용 대비 성능"으로 축이 이동했기 때문입니다. OpenAI와 Anthropic이 가격을 올리는 동안 DeepSeek이 10분의 1 가격에 비슷한 성능을 내는 것이 가능했던 이유도 MoE 아키텍처를 더 효율적으로 활용했기 때문입니다.

DeepSeek V4가 특별히 주목받는 기술적 이유

DeepSeek V4는 MoE 위에 추가적인 기술적 혁신을 얹었습니다.

V4의 가장 주목할 기술적 업데이트는 Compressed Sparse Attention과 Heavy Compressed Attention을 결합한 하이브리드 어텐션 메커니즘입니다. 추론에 필요한 계산량을 줄이고 모델 상태를 추적하는 KV 캐시를 압축합니다.

결과가 인상적입니다. 컨텍스트 창 100만 토큰 기준으로 메모리 요구량이 V3.2 대비 9.5~13.7배 감소했습니다. FP8과 FP4 혼합 정밀도를 사용해 모델 가중치 저장에 필요한 메모리를 FP8 대비 절반으로 줄였습니다.

100만 토큰이라는 긴 컨텍스트를 기본값으로 처리하면서도 메모리를 이 정도로 절감했다는 것은, 장문 처리가 많은 에이전틱 코딩·문서 분석 작업에서 실질적인 비용 우위를 의미합니다.

한눈에 보는 MoE vs 밀집 모델

항목

밀집 모델 (Dense)

MoE

구조

모든 파라미터 항상 활성화

토큰마다 일부 전문가만 활성화

계산 비용

파라미터에 비례

활성 파라미터에 비례 (훨씬 낮음)

메모리

파라미터 전체

파라미터 전체 (계산은 희소)

스케일링

비용이 선형 증가

지식 용량 확장 시 비용 증가 억제

학습 난이도

상대적으로 단순

부하 균형 등 추가 고려 필요

대표 모델

초기 GPT 시리즈, BERT

GPT-4, Gemini 1.5, DeepSeek V3·V4, Mixtral

MoE는 2026년 AI 업계에서 "더 크게, 더 싸게"라는 두 가지 요구를 동시에 충족하는 핵심 아키텍처로 자리잡았습니다. DeepSeek V4가 1.6조 파라미터이면서 GPT-5.5의 10분의 1 가격에 서비스될 수 있는 것, 그리고 이 가격이 화웨이 Ascend 생산이 본격화되면 더 떨어질 것이라는 전망이 나오는 것 — 이 모든 배경에 MoE가 있습니다.

AI 모델의 크기를 이야기할 때 "전체 파라미터"와 "활성 파라미터"를 구분해서 보는 습관이 이제는 필요합니다. 이 두 숫자의 차이가 곧 비용의 차이이고, 경쟁력의 차이이기 때문입니다.

참고 출처: Hugging Face, "Mixture of Experts Explained" / NVIDIA Developer Blog, "Applying MoE in LLM Architectures" (2026.02) / gHacks Tech News, DeepSeek V4 기술 분석 (2026.04.26) / FelloAI, DeepSeek V4 출시 정리 (2026.04.24) / Fortune, DeepSeek V4 보도 (2026.04.24) / GenAI ML Institute, "Scaling LLMs 2026" / Wikipedia, Mixture of Experts / Zilliz Learn, MoE 개념 정리

0

댓글 (0)

댓글을 불러오는 중...