인공지능

DeepSeek(중국) , 인공지능(AI)

aiproductmanager 2025. 1. 2. 06:30
728x90
반응형
 

DeepSeek는 중국 항저우에 기반을 둔 인공지능(AI) 기업으로, 대규모 언어 모델(LLM)을 개발하고 있습니다. 2023년에 설립된 이 회사는 중국의 헤지펀드인 High-Flyer의 지원을 받고 있습니다.

주요 모델 및 성과:

  • DeepSeek-V3: 6710억 개의 총 매개변수를 가진 Mixture-of-Experts(MoE) 언어 모델로, 각 토큰에 대해 370억 개의 매개변수가 활성화됩니다. 이 모델은 Multi-head Latent Attention(MLA) 및 DeepSeekMoE 아키텍처를 채택하여 효율적인 추론과 비용 효율적인 학습을 달성했습니다.
  • Hugging Face
  • DeepSeek-V2.5: 일반적인 대화 능력과 강력한 코드 처리 능력을 결합한 모델로, 인간의 선호도에 더 잘 맞도록 조정되었습니다. 이 모델은 오픈 소스로 공개되어 개발자들이 활용할 수 있습니다.
  • DeepSeek API Docs
  • DeepSeek-R1-Lite-Preview: 논리적 추론, 수학적 연산, 실시간 문제 해결에 특화된 모델로, AIME 및 MATH 벤치마크에서 우수한 성능을 보였습니다.
  • DeepSeek API Docs

주요 서비스:

  • DeepSeek Chat: 코딩, 콘텐츠 생성, 파일 읽기 등 다양한 작업을 지원하는 지능형 AI 어시스턴트로, 문서 업로드, 장기 대화, AI 및 자연어 처리 분야의 전문적인 도움을 제공합니다.
  • DeepSeek Chat
  • DeepSeek API 플랫폼: 개발자들이 DeepSeek의 AI 모델에 접근하여 자신의 애플리케이션이나 워크플로우에 통합할 수 있도록 지원합니다.
  • DeepSeek

연구 및 개발:

DeepSeek는 AI 알고리즘과 그 기본 응용 분야에 대한 연구에 전념하고 있으며, 특히 효율적인 추론과 비용 효율적인 학습을 위한 혁신적인 아키텍처를 개발하고 있습니다. 또한, 오픈 소스 모델을 통해 AI 커뮤니티와의 협업을 촉진하고 있습니다.

평가 및 성과:

DeepSeek의 모델들은 다양한 벤치마크에서 우수한 성능을 보이며, 특히 수학, 코딩, 글쓰기, 역할 수행 등에서 높은 평가를 받고 있습니다. 또한, 효율적인 자원 활용을 통해 제한된 컴퓨팅 자원으로도 고성능 모델을 개발하는 데 성공했습니다.

참고 자료:

DeepSeek는 AI 연구와 개발에 집중하며, 오픈 소스 모델을 통해 AI 커뮤니티와의 협업을 촉진하고 있습니다. 그들의 혁신적인 접근 방식과 효율적인 자원 활용은 AI 분야에서 주목받고 있습니다.

https://www.deepseek.com/

DeepSeek-V3 Capabilities

DeepSeek-V3 achieves a significant breakthrough in inference speed over previous models.

It tops the leaderboard among open-source models and rivals the most advanced closed-source models globally.

Benchmark (Metric)DeepSeek V3DeepSeek V2.5Qwen2.5Llama3.1Claude-3.5GPT-4o090572B-Inst405B-InstSonnet-10220513
  Architecture 개요 상세 설명 링크
  # Activated Params Activated Parameters (활성화된 매개변수)는 대규모 언어 모델(LLM)에서 특정 입력에 대해 활성화되는 매개변수의 수를 의미 https://aiproductmanager.tistory.com/168
  # Total Params Total Parameters (총 매개변수): 대규모 언어 모델(LLM)에서 모델을 구성하는 모든 매개변수(파라미터)의 총합 https://aiproductmanager.tistory.com/169
English MMLU (EM) MMLU (Massive Multitask Language Understanding)는 AI 언어 모델의 성능을 평가하기 위해 설계된 벤치마크 https://aiproductmanager.tistory.com/146
MMLU-Redux (EM) 대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상시키기 위해 개발된 재구성된 데이터셋 https://aiproductmanager.tistory.com/147
MMLU-Pro (EM) 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크 https://aiproductmanager.tistory.com/148
DROP (3-shot F1) 모델이 단락을 읽고 그에 기반하여 복잡한 이산적(reasoning) 작업(예: 계산, 논리적 추론 등)을 수행할 수 있는지를 테스트 https://aiproductmanager.tistory.com/149
IF-Eval (Prompt Strict) 각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주 https://aiproductmanager.tistory.com/150
GPQA-Diamond (Pass@1) 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가 https://aiproductmanager.tistory.com/151
SimpleQA (Correct) 언어 모델의 사실성(factuality)을 평가 https://aiproductmanager.tistory.com/152
FRAMES (Acc.) Factuality, Retrieval, And reasoning MEasurement Set는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가 https://aiproductmanager.tistory.com/153
LongBench v2 (Acc.) 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가 https://aiproductmanager.tistory.com/154
Code HumanEval-Mul (Pass@1) 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 https://aiproductmanager.tistory.com/155
LiveCodeBench (Pass@1-COT) 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함 https://aiproductmanager.tistory.com/156
LiveCodeBench (Pass@1) 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함 https://aiproductmanager.tistory.com/157
Codeforces (Percentile) 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼 https://aiproductmanager.tistory.com/158
SWE Verified (Resolved)  대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가 https://aiproductmanager.tistory.com/159
Aider-Edit (Acc.) 로컬 Git 저장소에서 코드 편집을 지원하는 오픈 소스 명령줄 도구로, 대형 언어 모델(LLM)의 코드 편집 능력을 평가 https://aiproductmanager.tistory.com/160
Aider-Polyglot (Acc.) 다양한 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 편집 능력을 평가 https://aiproductmanager.tistory.com/161
Math AIME 2024 (Pass@1) 미국 수학 초청 시험(AIME), 미국의 권위 있는 수학 대회로, AMC(American Mathematics Competitions)와 미국 수학 올림피아드(USAMO) 사이의 중간 단계 역할 https://aiproductmanager.tistory.com/162
MATH-500 (EM) OpenAI가 'Let's Verify Step by Step' 논문에서 개발한 MATH 벤치마크의 하위 집합으로, 500개의 수학 문제로 구성 https://aiproductmanager.tistory.com/163
CNMO 2024 (Pass@1) 중국의 수학 대회로, 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 https://aiproductmanager.tistory.com/164
Chinese CLUEWSC (EM) 중국어 자연어 이해 평가를 위한 벤치마크인 CLUE(Chinese Language Understanding Evaluation)의 일부로, Winograd Schema Challenge를 기반으로 한 중국어 대명사 해소(코어퍼런스 해소) 작업을 평가 https://aiproductmanager.tistory.com/165
C-Eval (EM) 대규모 언어 모델(LLM)의 중국어 이해 및 추론 능력을 평가하기 위해 개발된 포괄적인 평가 모음입니다. 이 평가 모음은 중학교, 고등학교, 대학교, 전문 수준의 4가지 난이도로 구성된 13,948개의 객관식 질문을 포함하며, 인문학, 과학, 공학 등 52개의 다양한 분야 https://aiproductmanager.tistory.com/166
C-SimpleQA (Correct) 대규모 언어 모델(LLM)의 중국어 단문 질문에 대한 사실적 응답 능력을 평가 https://aiproductmanager.tistory.com/167

728x90
반응형