MMLU-Redux는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상시키기 위해 개발된 재구성된 데이터셋입니다. arXiv주요 특징:데이터셋 재구성: MMLU-Redux는 MMLU의 30개 주제에서 각 100개의 질문을 무작위로 선택하여 총 3,000개의 질문을 포함하고 있습니다. 이 질문들은 전문가에 의해 재검토되고 주석이 추가되어, 원본 데이터셋에서 발견된 오류를 수정하고 정확성을 높였습니다. GitHub오류 분석 및 분류: 연구팀은 MMLU 데이터셋에서 다양한 오류를 식별하고 분석하기 위해 새로운 오류 분류 체계를 도입했습니다. 이를 통해 데이터셋의 품질을 향상시키고, 언어 모델..