SimpleQA는 언어 모델의 사실성(factuality)을 평가하기 위해 OpenAI에서 개발한 벤치마크로, 짧고 사실을 추구하는 질문에 대한 모델의 응답 정확도를 측정합니다.
평가 등급:
SimpleQA는 모델의 응답을 다음 세 가지 등급으로 분류하여 평가합니다:
- Correct (정답): 예측된 답변이 실제 정답을 완전히 포함하고, 모순되지 않는 경우.
- Incorrect (오답): 예측된 답변이 실제 정답과 어떤 식으로든 모순되는 경우.
- Not Attempted (시도하지 않음): 정답이 완전히 제공되지 않았지만, 모순되지 않는 경우.
이러한 등급 분류를 통해 모델이 얼마나 정확하게 질문에 답변하는지, 그리고 오답을 얼마나 줄이는지를 정량적으로 평가할 수 있습니다.
데이터셋 구성:
SimpleQA는 과학, 기술, 역사, 예술, 스포츠 등 다양한 주제를 포함한 총 4,326개의 질문으로 구성되어 있습니다.
모델 평가 결과:
최신 언어 모델을 SimpleQA로 평가한 결과, OpenAI의 o1-preview 모델이 42.7%의 정확도로 가장 높은 성과를 보였으며, GPT-4o는 38.2%, GPT-4o-mini는 8.6%의 정확도를 기록했습니다.
활용 및 기대 효과:
SimpleQA는 언어 모델의 신뢰성을 높이기 위한 중요한 벤치마크로, 모델이 자신이 알고 있는 것과 모르는 것을 명확히 구분하고, 환각(hallucination)을 최소화할 수 있는지 확인하는 데 활용됩니다.
또한, 모델의 보정(calibration) 상태를 평가하여, 모델이 자신의 답변에 대한 확신 정도를 얼마나 정확하게 표현하는지 측정하는 데 사용됩니다.
SimpleQA는 오픈 소스로 제공되어 연구자들이 언어 모델의 사실성을 평가하고 개선하는 데 기여할 수 있습니다.