FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가
FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가하기 위해 개발된 벤치마크 데이터셋입니다. arXiv주요 특징:다중 단계 질문: 총 824개의 복잡한 다중 단계 질문으로 구성되어 있으며, 각 질문은 2개에서 15개의 위키피디아 문서를 통합하여 답변을 도출해야 합니다. 허깅페이스다양한 주제: 역사, 스포츠, 과학, 동물, 건강 등 다양한 분야를 포괄하여 모델의 전반적인 이해 능력을 평가합니다. 허깅페이스복잡한 추론 요구: 질문의 약 36%는 여러 제약 조건을 통한 추론을 필요로 하며, 20%는 수치 비교를 포함하고 있습니다. MarkTechPost모델 성능 ..
2025. 1. 4.