본문 바로가기
인공지능

SimpleQA, 언어 모델의 사실성(factuality)을 평가

by aiproductmanager 2025. 1. 4.
728x90
반응형

SimpleQA는 언어 모델의 사실성(factuality)을 평가하기 위해 OpenAI에서 개발한 벤치마크로, 짧고 사실을 추구하는 질문에 대한 모델의 응답 정확도를 측정합니다.

평가 등급:

SimpleQA는 모델의 응답을 다음 세 가지 등급으로 분류하여 평가합니다:

  1. Correct (정답): 예측된 답변이 실제 정답을 완전히 포함하고, 모순되지 않는 경우.
  2. Incorrect (오답): 예측된 답변이 실제 정답과 어떤 식으로든 모순되는 경우.
  3. Not Attempted (시도하지 않음): 정답이 완전히 제공되지 않았지만, 모순되지 않는 경우.

이러한 등급 분류를 통해 모델이 얼마나 정확하게 질문에 답변하는지, 그리고 오답을 얼마나 줄이는지를 정량적으로 평가할 수 있습니다.

데이터셋 구성:

SimpleQA는 과학, 기술, 역사, 예술, 스포츠 등 다양한 주제를 포함한 총 4,326개의 질문으로 구성되어 있습니다.

모델 평가 결과:

최신 언어 모델을 SimpleQA로 평가한 결과, OpenAI의 o1-preview 모델이 42.7%의 정확도로 가장 높은 성과를 보였으며, GPT-4o는 38.2%, GPT-4o-mini는 8.6%의 정확도를 기록했습니다.

활용 및 기대 효과:

SimpleQA는 언어 모델의 신뢰성을 높이기 위한 중요한 벤치마크로, 모델이 자신이 알고 있는 것과 모르는 것을 명확히 구분하고, 환각(hallucination)을 최소화할 수 있는지 확인하는 데 활용됩니다.

또한, 모델의 보정(calibration) 상태를 평가하여, 모델이 자신의 답변에 대한 확신 정도를 얼마나 정확하게 표현하는지 측정하는 데 사용됩니다.

SimpleQA는 오픈 소스로 제공되어 연구자들이 언어 모델의 사실성을 평가하고 개선하는 데 기여할 수 있습니다.

728x90
반응형