FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가

728x90

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가하기 위해 개발된 벤치마크 데이터셋입니다.

주요 특징:

다중 단계 질문: 총 824개의 복잡한 다중 단계 질문으로 구성되어 있으며, 각 질문은 2개에서 15개의 위키피디아 문서를 통합하여 답변을 도출해야 합니다.
허깅페이스
다양한 주제: 역사, 스포츠, 과학, 동물, 건강 등 다양한 분야를 포괄하여 모델의 전반적인 이해 능력을 평가합니다.
허깅페이스
복잡한 추론 요구: 질문의 약 36%는 여러 제약 조건을 통한 추론을 필요로 하며, 20%는 수치 비교를 포함하고 있습니다.
MarkTechPost

모델 성능 평가:

활용 방안:

RAG 시스템 평가: FRAMES는 Retrieval-Augmented Generation 시스템의 종합적인 성능을 평가하는 데 사용될 수 있습니다.
arXiv
모델 개선: 복잡한 다중 문서 통합 및 추론 능력을 향상시키기 위한 연구에 유용한 데이터셋입니다.
arXiv

참고 자료:

FRAMES는 LLM의 실제 응용 능력을 평가하고 개선하는 데 중요한 도구로 활용될 수 있습니다.

728x90

HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 (2)	2025.01.04
LongBench v2는 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가 (0)	2025.01.04
SimpleQA, 언어 모델의 사실성(factuality)을 평가 (0)	2025.01.04
GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가 (0)	2025.01.04
IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크 (0)	2025.01.04

aiproductmanager 님의 블로그