다양한 AI 성능 평가 프레임워크 및 벤치마크 도구를 도메인과 목적별로 구분하여 30개를 정리했습니다. 이들은 GPQA, AIME, MATH-500, LiveCodeBench와 같은 방식으로 특정 AI 모델의 성능을 평가하거나 비교하는 데 사용됩니다.1. 질문응답 및 언어 모델 평가GPQA (General Purpose Question Answering):범용 질문응답 시스템 평가.데이터셋: SQuAD, TriviaQA, Natural Questions.SuperGLUE (General Language Understanding Evaluation):자연어 이해를 위한 고급 벤치마크.BLEU (Bilingual Evaluation Understudy):기계 번역 성능 평가.ROUGE (Recall-Orie..