DeepSeek(중국) , 인공지능(AI)

728x90

https://www.deepseek.com/

DeepSeek는 중국 항저우에 기반을 둔 인공지능(AI) 기업으로, 대규모 언어 모델(LLM)을 개발하고 있습니다. 2023년에 설립된 이 회사는 중국의 헤지펀드인 High-Flyer의 지원을 받고 있습니다.

위키백과

주요 모델 및 성과:

DeepSeek-V3: 6710억 개의 총 매개변수를 가진 Mixture-of-Experts(MoE) 언어 모델로, 각 토큰에 대해 370억 개의 매개변수가 활성화됩니다. 이 모델은 Multi-head Latent Attention(MLA) 및 DeepSeekMoE 아키텍처를 채택하여 효율적인 추론과 비용 효율적인 학습을 달성했습니다.
Hugging Face
DeepSeek-V2.5: 일반적인 대화 능력과 강력한 코드 처리 능력을 결합한 모델로, 인간의 선호도에 더 잘 맞도록 조정되었습니다. 이 모델은 오픈 소스로 공개되어 개발자들이 활용할 수 있습니다.
DeepSeek API Docs
DeepSeek-R1-Lite-Preview: 논리적 추론, 수학적 연산, 실시간 문제 해결에 특화된 모델로, AIME 및 MATH 벤치마크에서 우수한 성능을 보였습니다.
DeepSeek API Docs

주요 서비스:

DeepSeek Chat: 코딩, 콘텐츠 생성, 파일 읽기 등 다양한 작업을 지원하는 지능형 AI 어시스턴트로, 문서 업로드, 장기 대화, AI 및 자연어 처리 분야의 전문적인 도움을 제공합니다.
DeepSeek Chat
DeepSeek API 플랫폼: 개발자들이 DeepSeek의 AI 모델에 접근하여 자신의 애플리케이션이나 워크플로우에 통합할 수 있도록 지원합니다.
DeepSeek

연구 및 개발:

DeepSeek는 AI 알고리즘과 그 기본 응용 분야에 대한 연구에 전념하고 있으며, 특히 효율적인 추론과 비용 효율적인 학습을 위한 혁신적인 아키텍처를 개발하고 있습니다. 또한, 오픈 소스 모델을 통해 AI 커뮤니티와의 협업을 촉진하고 있습니다.

위키백과

평가 및 성과:

DeepSeek의 모델들은 다양한 벤치마크에서 우수한 성능을 보이며, 특히 수학, 코딩, 글쓰기, 역할 수행 등에서 높은 평가를 받고 있습니다. 또한, 효율적인 자원 활용을 통해 제한된 컴퓨팅 자원으로도 고성능 모델을 개발하는 데 성공했습니다.

위키백과

참고 자료:

DeepSeek는 AI 연구와 개발에 집중하며, 오픈 소스 모델을 통해 AI 커뮤니티와의 협업을 촉진하고 있습니다. 그들의 혁신적인 접근 방식과 효율적인 자원 활용은 AI 분야에서 주목받고 있습니다.

https://www.deepseek.com/

DeepSeek-V3 Capabilities

DeepSeek-V3 achieves a significant breakthrough in inference speed over previous models.

It tops the leaderboard among open-source models and rivals the most advanced closed-source models globally.

Benchmark (Metric)DeepSeek V3DeepSeek V2.5Qwen2.5Llama3.1Claude-3.5GPT-4o090572B-Inst405B-InstSonnet-10220513

	Architecture	개요	상세 설명 링크
	# Activated Params	Activated Parameters (활성화된 매개변수)는 대규모 언어 모델(LLM)에서 특정 입력에 대해 활성화되는 매개변수의 수를 의미	https://aiproductmanager.tistory.com/168
	# Total Params	Total Parameters (총 매개변수): 대규모 언어 모델(LLM)에서 모델을 구성하는 모든 매개변수(파라미터)의 총합	https://aiproductmanager.tistory.com/169
English	MMLU (EM)	MMLU (Massive Multitask Language Understanding)는 AI 언어 모델의 성능을 평가하기 위해 설계된 벤치마크	https://aiproductmanager.tistory.com/146
	MMLU-Redux (EM)	대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상시키기 위해 개발된 재구성된 데이터셋	https://aiproductmanager.tistory.com/147
	MMLU-Pro (EM)	대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크	https://aiproductmanager.tistory.com/148
	DROP (3-shot F1)	모델이 단락을 읽고 그에 기반하여 복잡한 이산적(reasoning) 작업(예: 계산, 논리적 추론 등)을 수행할 수 있는지를 테스트	https://aiproductmanager.tistory.com/149
	IF-Eval (Prompt Strict)	각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주	https://aiproductmanager.tistory.com/150
	GPQA-Diamond (Pass@1)	대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가	https://aiproductmanager.tistory.com/151
	SimpleQA (Correct)	언어 모델의 사실성(factuality)을 평가	https://aiproductmanager.tistory.com/152
	FRAMES (Acc.)	Factuality, Retrieval, And reasoning MEasurement Set는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가	https://aiproductmanager.tistory.com/153
	LongBench v2 (Acc.)	대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가	https://aiproductmanager.tistory.com/154
Code	HumanEval-Mul (Pass@1)	대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가	https://aiproductmanager.tistory.com/155
	LiveCodeBench (Pass@1-COT)	대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함	https://aiproductmanager.tistory.com/156
	LiveCodeBench (Pass@1)	대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함	https://aiproductmanager.tistory.com/157
	Codeforces (Percentile)	프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼	https://aiproductmanager.tistory.com/158
	SWE Verified (Resolved)	대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가	https://aiproductmanager.tistory.com/159
	Aider-Edit (Acc.)	로컬 Git 저장소에서 코드 편집을 지원하는 오픈 소스 명령줄 도구로, 대형 언어 모델(LLM)의 코드 편집 능력을 평가	https://aiproductmanager.tistory.com/160
	Aider-Polyglot (Acc.)	다양한 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 편집 능력을 평가	https://aiproductmanager.tistory.com/161
Math	AIME 2024 (Pass@1)	미국 수학 초청 시험(AIME), 미국의 권위 있는 수학 대회로, AMC(American Mathematics Competitions)와 미국 수학 올림피아드(USAMO) 사이의 중간 단계 역할	https://aiproductmanager.tistory.com/162
	MATH-500 (EM)	OpenAI가 'Let's Verify Step by Step' 논문에서 개발한 MATH 벤치마크의 하위 집합으로, 500개의 수학 문제로 구성	https://aiproductmanager.tistory.com/163
	CNMO 2024 (Pass@1)	중국의 수학 대회로, 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가	https://aiproductmanager.tistory.com/164
Chinese	CLUEWSC (EM)	중국어 자연어 이해 평가를 위한 벤치마크인 CLUE(Chinese Language Understanding Evaluation)의 일부로, Winograd Schema Challenge를 기반으로 한 중국어 대명사 해소(코어퍼런스 해소) 작업을 평가	https://aiproductmanager.tistory.com/165
	C-Eval (EM)	대규모 언어 모델(LLM)의 중국어 이해 및 추론 능력을 평가하기 위해 개발된 포괄적인 평가 모음입니다. 이 평가 모음은 중학교, 고등학교, 대학교, 전문 수준의 4가지 난이도로 구성된 13,948개의 객관식 질문을 포함하며, 인문학, 과학, 공학 등 52개의 다양한 분야	https://aiproductmanager.tistory.com/166
	C-SimpleQA (Correct)	대규모 언어 모델(LLM)의 중국어 단문 질문에 대한 사실적 응답 능력을 평가	https://aiproductmanager.tistory.com/167

728x90

'인공지능' 카테고리의 다른 글

Ideogram.ai(캐), 텍스트 를 이미지 인공지능(AI) (2)	2025.01.02
DeepL(독일), 고품질 번역, AI 기반 번역 플랫폼 (4)	2025.01.02
인공지능 영상생성비교 (2)	2025.01.01
인공지능 Gemini로 어려운 수학무제 풀이 (0)	2025.01.01
Leonardo.ai (호주), Canva가 인수 (0)	2025.01.01

aiproductmanager 님의 블로그

DeepSeek(중국) , 인공지능(AI)

'인공지능' 카테고리의 다른 글

티스토리툴바

DeepSeek(중국) , 인공지능(AI)

'인공지능' 카테고리의 다른 글

관련글

티스토리툴바