DeepSeek는 중국 항저우에 기반을 둔 인공지능(AI) 기업으로, 대규모 언어 모델(LLM)을 개발하고 있습니다. 2023년에 설립된 이 회사는 중국의 헤지펀드인 High-Flyer의 지원을 받고 있습니다.
주요 모델 및 성과:
- DeepSeek-V3: 6710억 개의 총 매개변수를 가진 Mixture-of-Experts(MoE) 언어 모델로, 각 토큰에 대해 370억 개의 매개변수가 활성화됩니다. 이 모델은 Multi-head Latent Attention(MLA) 및 DeepSeekMoE 아키텍처를 채택하여 효율적인 추론과 비용 효율적인 학습을 달성했습니다.
- Hugging Face
- DeepSeek-V2.5: 일반적인 대화 능력과 강력한 코드 처리 능력을 결합한 모델로, 인간의 선호도에 더 잘 맞도록 조정되었습니다. 이 모델은 오픈 소스로 공개되어 개발자들이 활용할 수 있습니다.
- DeepSeek API Docs
- DeepSeek-R1-Lite-Preview: 논리적 추론, 수학적 연산, 실시간 문제 해결에 특화된 모델로, AIME 및 MATH 벤치마크에서 우수한 성능을 보였습니다.
- DeepSeek API Docs
주요 서비스:
- DeepSeek Chat: 코딩, 콘텐츠 생성, 파일 읽기 등 다양한 작업을 지원하는 지능형 AI 어시스턴트로, 문서 업로드, 장기 대화, AI 및 자연어 처리 분야의 전문적인 도움을 제공합니다.
- DeepSeek Chat
- DeepSeek API 플랫폼: 개발자들이 DeepSeek의 AI 모델에 접근하여 자신의 애플리케이션이나 워크플로우에 통합할 수 있도록 지원합니다.
- DeepSeek
연구 및 개발:
DeepSeek는 AI 알고리즘과 그 기본 응용 분야에 대한 연구에 전념하고 있으며, 특히 효율적인 추론과 비용 효율적인 학습을 위한 혁신적인 아키텍처를 개발하고 있습니다. 또한, 오픈 소스 모델을 통해 AI 커뮤니티와의 협업을 촉진하고 있습니다.
평가 및 성과:
DeepSeek의 모델들은 다양한 벤치마크에서 우수한 성능을 보이며, 특히 수학, 코딩, 글쓰기, 역할 수행 등에서 높은 평가를 받고 있습니다. 또한, 효율적인 자원 활용을 통해 제한된 컴퓨팅 자원으로도 고성능 모델을 개발하는 데 성공했습니다.
참고 자료:
DeepSeek는 AI 연구와 개발에 집중하며, 오픈 소스 모델을 통해 AI 커뮤니티와의 협업을 촉진하고 있습니다. 그들의 혁신적인 접근 방식과 효율적인 자원 활용은 AI 분야에서 주목받고 있습니다.
DeepSeek-V3 Capabilities
DeepSeek-V3 achieves a significant breakthrough in inference speed over previous models.
It tops the leaderboard among open-source models and rivals the most advanced closed-source models globally.
Benchmark (Metric)DeepSeek V3DeepSeek V2.5Qwen2.5Llama3.1Claude-3.5GPT-4o090572B-Inst405B-InstSonnet-10220513
Architecture | 개요 | 상세 설명 링크 | |
# Activated Params | Activated Parameters (활성화된 매개변수)는 대규모 언어 모델(LLM)에서 특정 입력에 대해 활성화되는 매개변수의 수를 의미 | https://aiproductmanager.tistory.com/168 | |
# Total Params | Total Parameters (총 매개변수): 대규모 언어 모델(LLM)에서 모델을 구성하는 모든 매개변수(파라미터)의 총합 | https://aiproductmanager.tistory.com/169 | |
English | MMLU (EM) | MMLU (Massive Multitask Language Understanding)는 AI 언어 모델의 성능을 평가하기 위해 설계된 벤치마크 | https://aiproductmanager.tistory.com/146 |
MMLU-Redux (EM) | 대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상시키기 위해 개발된 재구성된 데이터셋 | https://aiproductmanager.tistory.com/147 | |
MMLU-Pro (EM) | 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크 | https://aiproductmanager.tistory.com/148 | |
DROP (3-shot F1) | 모델이 단락을 읽고 그에 기반하여 복잡한 이산적(reasoning) 작업(예: 계산, 논리적 추론 등)을 수행할 수 있는지를 테스트 | https://aiproductmanager.tistory.com/149 | |
IF-Eval (Prompt Strict) | 각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주 | https://aiproductmanager.tistory.com/150 | |
GPQA-Diamond (Pass@1) | 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가 | https://aiproductmanager.tistory.com/151 | |
SimpleQA (Correct) | 언어 모델의 사실성(factuality)을 평가 | https://aiproductmanager.tistory.com/152 | |
FRAMES (Acc.) | Factuality, Retrieval, And reasoning MEasurement Set는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가 | https://aiproductmanager.tistory.com/153 | |
LongBench v2 (Acc.) | 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가 | https://aiproductmanager.tistory.com/154 | |
Code | HumanEval-Mul (Pass@1) | 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 | https://aiproductmanager.tistory.com/155 |
LiveCodeBench (Pass@1-COT) | 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함 | https://aiproductmanager.tistory.com/156 | |
LiveCodeBench (Pass@1) | 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함 | https://aiproductmanager.tistory.com/157 | |
Codeforces (Percentile) | 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼 | https://aiproductmanager.tistory.com/158 | |
SWE Verified (Resolved) | 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가 | https://aiproductmanager.tistory.com/159 | |
Aider-Edit (Acc.) | 로컬 Git 저장소에서 코드 편집을 지원하는 오픈 소스 명령줄 도구로, 대형 언어 모델(LLM)의 코드 편집 능력을 평가 | https://aiproductmanager.tistory.com/160 | |
Aider-Polyglot (Acc.) | 다양한 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 편집 능력을 평가 | https://aiproductmanager.tistory.com/161 | |
Math | AIME 2024 (Pass@1) | 미국 수학 초청 시험(AIME), 미국의 권위 있는 수학 대회로, AMC(American Mathematics Competitions)와 미국 수학 올림피아드(USAMO) 사이의 중간 단계 역할 | https://aiproductmanager.tistory.com/162 |
MATH-500 (EM) | OpenAI가 'Let's Verify Step by Step' 논문에서 개발한 MATH 벤치마크의 하위 집합으로, 500개의 수학 문제로 구성 | https://aiproductmanager.tistory.com/163 | |
CNMO 2024 (Pass@1) | 중국의 수학 대회로, 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 | https://aiproductmanager.tistory.com/164 | |
Chinese | CLUEWSC (EM) | 중국어 자연어 이해 평가를 위한 벤치마크인 CLUE(Chinese Language Understanding Evaluation)의 일부로, Winograd Schema Challenge를 기반으로 한 중국어 대명사 해소(코어퍼런스 해소) 작업을 평가 | https://aiproductmanager.tistory.com/165 |
C-Eval (EM) | 대규모 언어 모델(LLM)의 중국어 이해 및 추론 능력을 평가하기 위해 개발된 포괄적인 평가 모음입니다. 이 평가 모음은 중학교, 고등학교, 대학교, 전문 수준의 4가지 난이도로 구성된 13,948개의 객관식 질문을 포함하며, 인문학, 과학, 공학 등 52개의 다양한 분야 | https://aiproductmanager.tistory.com/166 | |
C-SimpleQA (Correct) | 대규모 언어 모델(LLM)의 중국어 단문 질문에 대한 사실적 응답 능력을 평가 | https://aiproductmanager.tistory.com/167 |
'인공지능' 카테고리의 다른 글
Ideogram.ai(캐), 텍스트 를 이미지 인공지능(AI) (1) | 2025.01.02 |
---|---|
DeepL(독일), 고품질 번역, AI 기반 번역 플랫폼 (4) | 2025.01.02 |
인공지능 영상생성비교 (2) | 2025.01.01 |
인공지능 Gemini로 어려운 수학무제 풀이 (0) | 2025.01.01 |
Leonardo.ai (호주), Canva가 인수 (0) | 2025.01.01 |