๐ฆ[Review] DeepSpeed-MoE
[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] ๊ฐ๋๊ท Reviewed by Kade Kang (devkade12@gmail.com) Reviewed:: 13, 2024
The Purpose of This Study
GPT๊ฐ ๋์ค๊ณ ์ง๋ 3๋ ๊ฐ ์ฑ๋ฅ์ฆ๊ฐ๋ฅผ ์ํด LLM ๋ค์ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ์ฆ๊ฐํ๋ค. ํ์ง๋ง ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ computing cost ๋ก ์ธํด ์ ์ ๋ ์ด๋ ค์์ง๊ณ ์๋ค. ์๋ฅผ ๋ค์ด, 2021๋ 11์ Megatron-Turing NLG 530B Model์ ๊ฒฝ์ฐ 2000๊ฐ์ A100 GPU๋ฅผ ๊ฐ์ง๊ณ ๋ ํ๋ จํ๋๋ฐ 3๋ฌ์ ์๊ฐ์ด ๊ฑธ๋ ธ๋ค.
๋ฐ๋ผ์, ๋ค์์ ์ง๋ฌธ์ ๋์ง๊ฒ ๋๋ค.
Computing cost๋ฅผ ์ฆ๊ฐ์ํค์ง ์๊ณ ์ ์๋ฏธํ ํฅ์์ ์ด๋ค๋ด๋ ๋ฐฉ๋ฒ์ ์์๊น? ํน์, 3~5๋ฐฐ์ ๋ ์ ์ ๋น์ฉ์ผ๋ก ์ ์ฌํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๋ฐฉ๋ฒ์ ์์๊น?
โ Mixture-of-Experts(MoE)
Lit. Review
What is MoE?
Reference : Switch Transformer
์ ๊ทธ๋ฆผ์ Switch transformer ์ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค. Mixture-of-Experts ๋ ์ ๊ตฌ์กฐ์ ๊ฐ์ด ์ฌ๋ฌ ๊ฐ์ ์ ๋ฌธ๊ฐ FFN์ ์ฌ์ฉํ์ฌ ๊ฐ ํน์ง์ ๋ง๋ FFN์ ์ฌ์ฉํ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ์ด๋์ด ๋ธ๋ค. ํ์ง๋ง ์ด๋ฐ MoE๋ ๋ช ๊ฐ์ง ๋ฌธ์ ๋ฅผ ์ง๋๋ค.
- Limited Scope: NLP์์ MoE ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ์ฉ ๋ฒ์๊ฐ encoder-decoder ๊ตฌ์กฐ, Seq2seq ์์ ๋ฑ์ผ๋ก ์ ํ๋๋ค.(๋ฉ๋ชจ๋ฆฌ ๋ฌธ์ ๋ก ์ธํด Auto-Regressive ๋ชจ๋ธ์์ ์ฌ์ฉํ๊ธฐ ์ด๋ ค์)
- Massive Memory Requirements: ๊ธฐ์กด Dense ๋ชจ๋ธ๋ณด๋ค ์๋นํ ๋ง์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์๋กํ๊ณ ์ด๋ ๋ ๋ฎ์ ํ๋ผ๋ฏธํฐ ํจ์จ์ ๋ณด์ธ๋ค.
- Limited Inference Performance: ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ผ๋ก ์ธํด ์ถ๋ก ์๋๋ ๋จ์ด์ง๋ค.
Large Scale Dense NLP Models
- Hundreds of millions of parameters
- BERT, XLNet, RoBERTa, ALBERT, and GPT, etc.
- Billions to dozens of billions models
- GPT-2, TuringNLG, Megatron-LM, T5, etc.
- Extra-Large Model
- GPT-3, Megatron-Turing NLG 530B model
Methods
DeepSpeed-MoE for NLG: Reducing the Training Cost of Language Models by 5 Times
Natural Language Generation(NLG)๋ ๋ค์ํ ๋ถ์ผ์ ๋ํด์ ํ์คํ ๋ต์ ์ ๊ณตํด์ค๋ค. ํ์ฉ์ฑ์ด ๋ฐ์ด๋๊ธฐ ๋๋ฌธ์ NLG์ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๊ฒ์ด ์ค์ํ ๊ด์ฌ์ฌ์๊ณ , DeepSpeed-MoE ์ ๊ฒฝ์ฐ ๊ฐ์ ํ๋ จ ๋น์ฉ์ ๊ฐ์ง๊ณ ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ํฅ์์์ผฐ๋ค.
MoE based NLG Model Architecture
- MoE based NLG
- 350M (24layers, 1024 hidden size, 16 attention heads)
- 1.3B (24 layers, 2048 hidden size, 16 attention heads)
- 6.7B (32 layers, 4096 hidden size, 32 attention heads)
- MoE-128 : ๊ฐ FFN๋ง๋ค 128๊ฐ์ ์ ๋ฌธ๊ฐ๋ฅผ ์ ์ฉํ ๊ฒ.
- Transformer ๊ธฐ๋ฐ NLG ๋ชจ๋ธ์ธ GPT๋ฅผ ์ฐ๊ตฌํด ์ 3๊ฐ์ง ๋ชจ๋ธ์ ์ ์
- ์ค์ ๋ก ์์ ํ, ์ญ์ ํ ์์ ํ์ฑํ๋๋ ํ๋ผ๋ฏธํฐ์ ์๋ MoE๋ฅผ ์ ์ฉํ์ ๋์ ์ ์ฉํ์ง ์์์ ๋๊ฐ ๋์ผํ๋ค. (e.g. 1.3B ๋ชจ๋ธ์ ๊ฒฝ์ฐ 1.3B์ 1.3B+MoE-128์ ํ ํฐ๋น ํ์ฑํ๋๋ ํ๋ผ๋ฏธํฐ ์๋ 1.3B ์ด๋ค.)
- ๊ฐ ํ ํฐ์ ๋ํด gating function์ ํตํด์ ๊ฐ ์ ๋ฌธ๊ฐ๋ก ์ ๋ฌํ๋ค.
Training and Evaluation Setting
- Ampere A100 GPU 128๊ฐ ์ฌ์ฉ
- Data Parallel + Expert Parallel ์ฌ์ฉ
- ๋ฐ์ดํฐ : MT-NLG ๋ชจ๋ธ ํ๋ จ ๋ฐ์ดํฐ ์ฌ์ฉ
MoE Leads to Better Quality for NLG Models
- MoE๋ฅผ ์ ์ฉํ Loss๊ฐ Dense ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์์ ๋ํ๋ธ๋ค.
- 6.7B Dense ๋ชจ๋ธ์ ํฌ๊ธฐ๋ณด๋ค 5๋ฐฐ ์ ์ 1.3B+MoE-128์ด ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์์ ํ์ธํ ์ ์๋ค.
- 4~5๋ฐฐ๋ฅผ ์ ๊ฐํ์ฌ ์ฒ๋ฆฌ๋ ์ฆ๊ฐ, ํ๋ จ ์๊ฐ ๋ฐ ๋น์ฉ ์ ๊ฐ์ผ๋ก ์ ํํ ์ ์๋ค.
- Zero-Shot ํ๊ฐ๋ฅผ ์งํํ์ ๋์๋ Dense์ ๋นํด 4~5๋ฐฐ ์ ๊ฐํ ์ ์์์ ๋ณด์ธ๋ค.#Zero-Shot
PR-MoE and MoS: Reducing the Model Size and Improving Parameter Efficiency
Table 1 ์ ๊ฐ ๋ชจ๋ธ๋ณ ํ๋ผ๋ฏธํฐ์ ์๋ฅผ ํ์ธํด๋ณด๋ฉด MoE๋ฅผ ์ ์ฉํ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๊ฐ Dense ๋ชจ๋ธ์ ๋นํด ์ฝ 8๋ฐฐ ์ ๋ ๋๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ฐ๋๋ค. MoE ๋ชจ๋ธ์ ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์๋ก ํ๊ณ , ์ด๋ ๋ค์์ ๋ฌธ์ ๋ฅผ ๊ฐ๋๋ค.
- ๋ชจ๋ธ์ ํ์ต ์ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌ
- ์ถ๋ก ์์ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ฝ๋ ๋ฐ ์๋น๋๋ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ์ฃผ์ํ ์ฑ๋ฅ ๋ณ๋ชฉ ์์ธ์ด๋ค. ์ฆ, MoE๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋ง์ ํ๋ผ๋ฏธํฐ ์๋ก ์ธํด ์ถ๋ก ์๋๊ฐ ๋๋ ค์ง๋ค.
โ ์ ์ฒด ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ต๋ 3๋ฐฐ๊น์ง ์ค์ผ ์ ์๋ PR-MoE + Distillation์ ํ์ฉํ Mixture-of-Student(MoS) ๋ฅผ ์ ์ํ๋ค.#Distillation
PR-MoE: Pyramid-Residual-MoE for Smaller Model Size and Fast Inference
- ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทธ๋ฆผ์ ๊ตฌ์กฐ์ ๊ฐ์ PR-MoE ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค.
- PR-MoE ๋ ๋ง์ง๋ง ๋ช ๊ฐ์ ๊ณ์ธต์์ ๋ ๋ง์ ์ ๋ฌธ๊ฐ๋ฅผ ์ฌ์ฉํ๊ณ , MLP ๋ชจ๋๊ณผ MoE ๋ชจ๋์ ๋์์ ์ฌ์ฉํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ค.
- PR-MoE ๊ตฌ์กฐ๋ ์๋์ ๊ณผ์ ์ ํตํด ์ ์๋๋ค.
Phenomenon1
Standard MoE ๊ตฌ์กฐ๋ ๊ฐ MoE ๊ณ์ธต๋ง๋ค์ ์ ๋ฌธ๊ฐ์ ์์ ๊ตฌ์กฐ๊ฐ ๋์ผํ๋ค. ์ด ๋์ผํ ๊ตฌ์กฐ๋ฅผ ์ค์ผ ์๋ ์์๊น? โ CV์์๋ ์์ ๋ ์ด์ด์์ ์ผ๋ฐ์ ์ธ ํน์ง์ ํ์ตํ๊ณ ๊น์ ๋ ์ด์ด์์ ๋ณด๋ค ๊ตฌ์ฒด์ ์ด๊ณ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐํ ํํ์ ํ์ตํ๋ค. ์ด๋ฐ ํน์ง์ ์ด์ฉํด ๋ฏธ์ธ ์กฐ์ ์ ์์ ๋ ์ด์ด๋ ๊ณ ์ ํ๊ณ ๊น์ ๋ ์ด์ด๋ง ๋ฏธ์ธ์กฐ์ ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด๋ฅผ ๋์ผํ๊ฒ ์ ์ฉํด๋ณด๊ณ ์ ์๋ 2๊ฐ์ง๋ฅผ ๋น๊ตํ๋ค.
- First-Half MoE(์์ ๋ถ๋ถ์์ ์ค๊ฐ ๋ถ๋ถ๊น์ง MoE ์ ์ฉ)๊ณผ
- Second-Half MoE(์ค๊ฐ ๋ถ๋ถ์์ ๋ ๋ถ๋ถ๊น์ง MoE ์ ์ฉ)๋ฅผ ๋น๊ตํ๋ค.
์ Figure 2์ ์ผ์ชฝ์ ๋ณด๋ฉด Second-Half MoE๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์ฆ, ๋ ๋ถ๋ถ์ MoE๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ ์ ๋ฌธ๊ฐ์ ํจ๊ณผ๊ฐ ๋ ๋ฐ์ด๋จ์ ์ ์ ์๋ค.
Phenomenon2
MoE ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ด ์์๊น?
- ์ ๋ฌธ๊ฐ ์ฉ๋(๊ฐ ํ ํฐ์ด ๊ฑฐ์น๋ ์ ๋ฌธ๊ฐ ์)๋ฅผ ๋์ผํ๊ฒ ์ ์งํ๋ฉด์ ์ ๋ฌธ๊ฐ ์๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ
- ์ ๋ฌธ๊ฐ ์๋ฅผ ์ ์งํ๋ฉด์ ์ ๋ฌธ๊ฐ ์ฉ๋์ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ
1๋ฒ์ ๊ฒฝ์ฐ ์ ๋ฌธ๊ฐ ์๊ฐ ๋ง์์ง๊ธฐ์ ํ์ต์ ํ์ํ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ด ์ฆ๊ฐํ๋ค. 2๋ฒ์ ๊ฒฝ์ฐ ์ฉ๋์ด ์ปค์ง๋ฉด์ ํต์ ๋๋ ๋์ด๋๊ธฐ ๋๋ฌธ์ ํ์ต, ์ถ๋ก ์ ๋ณ๋ชฉ์ด ๋ฐ์ํ ์ ์๋ค.
ํ์ต, ์ถ๋ก ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์์๊น? ์ ๋ฌธ๊ฐ์ ์ฉ๋์ ์ ๋๋ฆฌ๊ณ ์ ํ ๊น? ๋ ๋ช ์ ์ ๋ฌธ๊ฐ๊ฐ ํ๋จํ๋ค๋ฉด ๋ ์ผ๋ฐํ๋ ์ ๋ณด๋ฅผ ์ ๋ฌํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ ๋ช ์ ์ ๋ฌธ๊ฐ๊ฐ ํ๋จ์ ํ๋ค๋ ๊ฒ์ ์ถ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ฒซ ๋ฒ์งธ ์ ๋ฌธ๊ฐ์๊ฒ ์ฒจ์ธ์ ํตํด ํ๋จ์ ์์ ์ ํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. โ ๊ทธ๋ ๋ค๋ฉด ๋ผ์ฐํ ์ ํตํด ์ฒซ ๋ฒ์งธ ์ ๋ฌธ๊ฐ๋ฅผ ๋งค ํ ํฐ๋ง๋ค ์์ ํด์ผ ํ๋๊ฐ? ํน์ ํ ๋ช ์ ์ ๋ฌธ๊ฐ๋ฅผ ๊ณ ์ ์ผ๋ก ํด๋๊ณ ์ฒจ์ธํ ์ ์๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋์ด์ผ ํ๋๊ฐ?
์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด ์๋ 2๊ฐ์ง๋ฅผ ๋น๊ตํ๋ค.
- ์ฉ๋์ 2๋ฐฐ๋ก ๋๋ฆฌ๋ ๋ฐฉ๋ฒ(Top2-MoE: 2๋ช ์ ์ ๋ฌธ๊ฐ์๊ฒ ์ ๋ฌ, ์ถ๋ ฅ์ ํฉ์ฐ)
- ํ ์ ๋ฌธ๊ฐ๋ก ๊ณ ์ ํ๊ณ ํ ํฐ๋ง๋ค ๋ ๋ฒ์งธ ์ ๋ฌธ๊ฐ๋ก ๋ณ๊ฒฝํ๋ ๋ฐฉ๋ฒ(Residual-MoE: MLP ๋ชจ๋๋ก ๊ณ ์ , MoE ๋ชจ๋์ ํตํด ์ ๋ฌธ๊ฐ ๋ฝ์ ํฉ์ฐ)
Figure 2์ ์ค๋ฅธ์ชฝ์ด ํด๋น ์คํ์ ๊ฒฐ๊ณผ์ด๋ค. Top2-MoE ์ Residual-MoE ๊ฐ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ ์๋ค. Residual-MoE ์ ๊ฒฝ์ฐ Top-1 gating๊ณผ ๋์ผํ ์์ ํต์ ๋์ผ๋ก ๋ ์ด์ด๋น 2๊ฐ์ ์ ๋ฌธ๊ฐ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ์ ์ป์ ์ ์๋ค. ์คํ์์๋ Residual-MoE ์ ์๋๊ฐ Top2-MoE ๋ณด๋ค 10% ์ด์ ๋น ๋ฅด๋ค๊ณ ํ๋ค.
Efficient Training an MoE Model
๊ฐ MoE ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ๋ จํ๊ธฐ ์ํด์๋ ๊ฐ ์ ๋ฌธ๊ฐ์ ์์ ํ๋ก ํต๊ณผํ๋ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ์ถฉ๋ถํ ์ปค์, ํ๋ จ์ด ์ ๋์ด์ผ ํ๋ค. ํ์ง๋ง ์ ๋ฌธ๊ฐ์ ์๊ฐ ๋ง์์ง์๋ก ์ ๋ฌธ๊ฐ ํ๋๊ฐ ์ฐจ์งํ ์ ์๋ ํ ํฐ ์๊ฐ ์ค์ด๋ ๋ค. โ Data Parallel + Expert Parallel ์ ํตํด ํด๊ฒฐํ๋ค.
์ ๋ฌธ๊ฐ ์์ ๋ณ๋ ฌํ ํ ์ ์๋ ์์์ด ๋์ผํ๋ค๋ฉด ํจ์จ์ ์ผ๋ก ํ๋ จํ ์ ์๊ฒ ์ง๋ง, ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ ๋ง๋ค. ์ฆ, ๋ค์์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
- ์ ๋ฌธ๊ฐ ๋ณ๋ ฌํ๋ฅผ ์ต์ ์ ๋ฌธ๊ฐ ์๋ก ์ค์ ํ๋ค๋ฉด GPU๋น ๋ค์์ ์ ๋ฌธ๊ฐ๊ฐ ์์ ๊ฒ์ด๊ณ , ๋ฎ์ ํจ์จ์ ๋ด๊ฒ ๋๋ค.
- ์ ๋ฌธ๊ฐ ๋ณ๋ ฌํ๋ฅผ ๋ชจ๋ธ์์ ๊ฐ์ฅ ๋ง์ ์์ ์ ๋ฌธ๊ฐ๋ก ์ค์ ํ๋ฉด load balancing ๋ฌธ์ ๋ก ์ธํด ํจ์จ์ฑ์ด ์ ํ๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DeepSpeed-MoE๋ฅผ ์ด์ฉํด ์ ์ฐํ ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ค๊ณ๋ฅผ ๊ฐ๋ฐํ๋ค. ์ ํํ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ ์ฝ๋๋ฅผ ๋ถ์ํด๋ด์ผ ํ ๊ฒ ๊ฐ๋ค.
Ablation Study of Different MoE Architectures
Mixture-of-Students: Distillation for Even Smaller Model Size and Faster Inference
๊ธฐ์กด์ LLM์ ์์ ๋ณ ์์ ๋ชจ๋ธ๋ก ์ฆ๋ฅํ๋ ๋ฐ KD๋ฅผ ์ ์ฉํ ์ฐ๊ตฌ๊ฐ ์์์ผ๋, ์์ ํธ๋ ์คํฌ๋จธ, ์ธ์ฝ๋ ๊ธฐ๋ฐ LM ๋ชจ๋ธ๋ง์ ๊ณ ๋ คํ๋ค. ํด๋น ๋ ผ๋ฌธ์์๋ KD๋ก ์ฌ์ ํ์ต๋ ์์ MoE ๋ชจ๋ธ์ ๋ํด ์ฌ๋ฌ ์์ ์์ zero-shot ํ๊ฐ์ ๊ฐ์ ์ ์ฌํ ์ฑ๋ฅ์ ๋๋ฌํ ์ ์๊ณ , ๋ ๊ฐ๋ณ๊ณ ๋น ๋ฅธ ๋ชจ๋ธ์ ์์ฑํ ์ ์์์ ๋ณด์๋ค.
Architecture Choice and Optimization Objective
- ๊ต์ฌ MoE ๋ชจ๋ธ์ ํ๋ จํ๋ค.
- ๊ต์ฌ ๋ชจ๋ธ์์ ๊ฐ ์ ๋ฌธ๊ฐ์ ๊น์ด๋ฅผ ์ค์ฌ ํ์์ ์ป๋๋ค.
- ํด๋น ํ์ ๋ชจ๋ธ์ MoS๋ผ ๋ถ๋ฅธ๋ค.
- MoS๋ ์๋ KD Loss๋ฅผ ํตํด ๊ต์ฌ๋ฅผ ๋ชจ๋ฐฉํ๋๋ก ํ๋ค.
: ์์ธก๊ณผ ์ฃผ์ด์ง Hard Label ์ฌ์ด ๊ต์ฐจ ์ํธ๋กํผ ์์ค : ์์ธก๊ณผ ๊ต์ฌ์ Soft Label ์ฌ์ด KL Divergence ์์ค
-
์ฒ์์๋ ์ ํ๋๋ฅผ ํฅ์์ํค๋, ํ๋ จ์ด ๋๋ ์๋ก ์ ํ๋๊ฐ ๋จ์ด์ง๋ค.
-
ํ์ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ฉ๋์ ๊ฐ์ง์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ ์ ์๋ค.
-
ํ๋ จ์ ๋๋ถ๋ถ์์ ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ํฌ์์ํค๋ฉด์ KL Divergence ์์ค์ ์ค์ด๊ณ ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฐจ KL Divergence ์์ค์ ์ํฅ์ ์ค์ธ๋ค. ์ด๋์ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค.
DeepSpeed-MoE Inference
์ถํ ์ ๋ฆฌ