GPQA (General Purpose Question Answering), AIME (Artificial Intelligence Model Evaluation) 등의 AI 성능 비교 방법은 다양한 지표와 평가 방식으로 모델의 성능을 측정합니다. 이를 통해 AI의 강점과 약점을 파악하고, 특정 작업에 적합한 모델을 선택하거나 개선할 수 있습니다. 아래는 이러한 비교 평가를 위한 방법과 사례를 정리한 내용입니다.1. GPQA 평가 방법GPQA는 주로 질문응답(QA) 시스템의 성능을 평가하기 위해 사용됩니다.A. 주요 평가 지표Exact Match (EM):생성된 답변이 정답과 정확히 일치하는 비율.예: "What is the capital of France?" → "Paris"F1 Score:정밀도(Pre..