인공지능

GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가

aiproductmanager 2025. 1. 4. 04:05

GPQA-Diamond는 생물학, 물리학, 화학 분야의 고난도 문제로 구성된 **GPQA(Graduate-Level Google-Proof Q&A Benchmark)**의 하위 집합입니다. 이 벤치마크는 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가하기 위해 설계되었습니다.

Pass@1는 모델이 첫 번째 시도에서 정답을 맞출 확률을 나타내는 지표입니다. 즉, 주어진 문제에 대해 모델이 첫 번째로 생성한 답변이 정답일 확률을 측정합니다.

GPQA-Diamond 벤치마크에서의 모델 성능 비교:

  • iAsk Pro: Pass@1 정확도 78.28%로, OpenAI의 o1 모델과 Anthropic의 Claude 3.5 Sonnet을 약 19% 포인트 차이로 앞섰습니다.
  • iask
  • OpenAI의 o1 모델: Pass@1 정확도 59.4%를 기록했습니다.
  • Epoch
  • Anthropic의 Claude 3.5 Sonnet: Pass@1 정확도 65.0%를 기록했습니다.
  • iOSwift

이러한 결과는 GPQA-Diamond 벤치마크에서 iAsk Pro 모델이 특히 우수한 성능을 보였음을 나타냅니다. 또한, Pass@1 지표는 모델이 첫 시도에서 정확한 답변을 생성하는 능력을 평가하는 데 중요한 역할을 합니다.