**Activated Parameters (활성화된 매개변수)**는 대규모 언어 모델(LLM)에서 특정 입력에 대해 활성화되는 매개변수의 수를 의미합니다. 이는 특히 Mixture of Experts (MoE) 아키텍처에서 중요한 개념입니다.
Mixture of Experts (MoE)와 Activated Params의 관계
- MoE 아키텍처:
- 모델이 여러 전문가(Experts)로 구성되어 있고, 입력에 따라 일부 전문가만 활성화됩니다.
- 입력마다 소수의 전문가가 선택되어 계산에 참여하며, 나머지 전문가들은 비활성화됩니다.
- 이 방식은 계산 효율성을 높이고, 더 큰 모델을 효과적으로 훈련할 수 있게 합니다.
- Activated Parameters:
- 입력마다 활성화된 전문가들의 매개변수의 총합을 의미합니다.
- 예를 들어, 100개의 전문가 중 2개가 활성화되고, 각 전문가가 10억 개의 매개변수를 가진다면 활성화된 매개변수는 20억 개입니다.
- 모델의 계산량과 성능을 평가하는 중요한 지표입니다.
Activated Parameters의 중요성
- 효율성:
- 모델 크기가 클수록 전체 매개변수를 모두 활성화하지 않고 일부만 활성화하면 계산 비용을 크게 줄일 수 있습니다.
- MoE 모델에서 계산 비용은 활성화된 매개변수 수에 따라 결정됩니다.
- 성능 향상:
- 입력에 따라 관련성이 높은 전문가만 선택되므로, 모델의 성능이 향상됩니다.
- 활성화된 매개변수가 많을수록 모델이 더 풍부한 표현을 학습할 가능성이 있습니다.
- 모델 크기와 학습:
- MoE 아키텍처를 사용하면 더 큰 모델을 구축할 수 있지만, 실제 계산에서는 활성화된 매개변수만 사용하므로 계산 효율성이 유지됩니다.
Activated Parameters의 계산 예시
- 전체 매개변수 수: 100억 개
- 전문가 수: 100개
- 활성화된 전문가 수: 2개
- 활성화된 매개변수 수: 10억×2=20억10억 \times 2 = 20억
Activated Parameters와 모델 평가
- DeepSeek-V3:
- Mixture-of-Experts 아키텍처를 사용하여 총 6710억 개의 매개변수 중, 각 토큰 입력당 약 370억 개의 활성화된 매개변수를 사용.
- 이를 통해 성능과 계산 효율성을 모두 극대화.
- OpenAI의 GPT:
- 일반적으로 Dense 모델을 사용하며, 입력마다 모든 매개변수가 활성화됨.
- MoE 모델 대비 계산 효율성이 낮을 수 있음.
장점과 단점
장점:
- 계산 비용 절감
- 관련성 높은 전문가 선택
- 대규모 모델 구현 가능
단점:
- 전문가 선택의 정확도가 낮으면 성능 저하 가능
- 추가적인 라우팅 비용 발생
Activated Parameters는 LLM 설계 및 평가에서 중요한 지표로, 특히 계산 효율성과 성능을 동시에 고려하는 연구에서 핵심 역할을 합니다.
'인공지능' 카테고리의 다른 글
Total Parameters (총 매개변수): 대규모 언어 모델(LLM)에서 모델을 구성하는 모든 매개변수(파라미터)의 총합 (1) | 2025.01.04 |
---|---|
Chinese SimpleQA는 대규모 언어 모델(LLM)의 중국어 단문 질문에 대한 사실적 응답 능력을 평가 (2) | 2025.01.04 |
C-Eval은 대규모 언어 모델(LLM)의 중국어 이해 및 추론 능력을 평가하기 위해 개발된 포괄적인 평가 모음 (1) | 2025.01.04 |
CLUEWSC는 중국어 자연어 이해 평가 (0) | 2025.01.04 |
CNMO 2024는 중국의 수학 대회로, 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 (0) | 2025.01.04 |