GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가

728x90

GPQA-Diamond는 생물학, 물리학, 화학 분야의 고난도 문제로 구성된 **GPQA(Graduate-Level Google-Proof Q&A Benchmark)**의 하위 집합입니다. 이 벤치마크는 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가하기 위해 설계되었습니다.

arXiv

Pass@1는 모델이 첫 번째 시도에서 정답을 맞출 확률을 나타내는 지표입니다. 즉, 주어진 문제에 대해 모델이 첫 번째로 생성한 답변이 정답일 확률을 측정합니다.

The UX Labs

GPQA-Diamond 벤치마크에서의 모델 성능 비교:

iAsk Pro: Pass@1 정확도 78.28%로, OpenAI의 o1 모델과 Anthropic의 Claude 3.5 Sonnet을 약 19% 포인트 차이로 앞섰습니다.
iask
OpenAI의 o1 모델: Pass@1 정확도 59.4%를 기록했습니다.
Epoch
Anthropic의 Claude 3.5 Sonnet: Pass@1 정확도 65.0%를 기록했습니다.
iOSwift

이러한 결과는 GPQA-Diamond 벤치마크에서 iAsk Pro 모델이 특히 우수한 성능을 보였음을 나타냅니다. 또한, Pass@1 지표는 모델이 첫 시도에서 정확한 답변을 생성하는 능력을 평가하는 데 중요한 역할을 합니다.

728x90

'인공지능' 카테고리의 다른 글

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가 (0)	2025.01.04
SimpleQA, 언어 모델의 사실성(factuality)을 평가 (0)	2025.01.04
IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크 (0)	2025.01.04
DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크 (0)	2025.01.04
MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크 (0)	2025.01.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

aiproductmanager 님의 블로그

GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가

'인공지능' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가

'인공지능' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역