본문 바로가기
728x90
반응형

인공지능334

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가 FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가하기 위해 개발된 벤치마크 데이터셋입니다. arXiv주요 특징:다중 단계 질문: 총 824개의 복잡한 다중 단계 질문으로 구성되어 있으며, 각 질문은 2개에서 15개의 위키피디아 문서를 통합하여 답변을 도출해야 합니다. 허깅페이스다양한 주제: 역사, 스포츠, 과학, 동물, 건강 등 다양한 분야를 포괄하여 모델의 전반적인 이해 능력을 평가합니다. 허깅페이스복잡한 추론 요구: 질문의 약 36%는 여러 제약 조건을 통한 추론을 필요로 하며, 20%는 수치 비교를 포함하고 있습니다. MarkTechPost모델 성능 .. 2025. 1. 4.
SimpleQA, 언어 모델의 사실성(factuality)을 평가 SimpleQA는 언어 모델의 사실성(factuality)을 평가하기 위해 OpenAI에서 개발한 벤치마크로, 짧고 사실을 추구하는 질문에 대한 모델의 응답 정확도를 측정합니다. OpenAI평가 등급:SimpleQA는 모델의 응답을 다음 세 가지 등급으로 분류하여 평가합니다:Correct (정답): 예측된 답변이 실제 정답을 완전히 포함하고, 모순되지 않는 경우.Incorrect (오답): 예측된 답변이 실제 정답과 어떤 식으로든 모순되는 경우.Not Attempted (시도하지 않음): 정답이 완전히 제공되지 않았지만, 모순되지 않는 경우.이러한 등급 분류를 통해 모델이 얼마나 정확하게 질문에 답변하는지, 그리고 오답을 얼마나 줄이는지를 정량적으로 평가할 수 있습니다. 디지털 부르주아데이터셋 구성:Si.. 2025. 1. 4.
GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가 GPQA-Diamond는 생물학, 물리학, 화학 분야의 고난도 문제로 구성된 **GPQA(Graduate-Level Google-Proof Q&A Benchmark)**의 하위 집합입니다. 이 벤치마크는 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가하기 위해 설계되었습니다. arXivPass@1는 모델이 첫 번째 시도에서 정답을 맞출 확률을 나타내는 지표입니다. 즉, 주어진 문제에 대해 모델이 첫 번째로 생성한 답변이 정답일 확률을 측정합니다. The UX LabsGPQA-Diamond 벤치마크에서의 모델 성능 비교:iAsk Pro: Pass@1 정확도 78.28%로, OpenAI의 o1 모델과 Anthropic의 Claude 3.5 Sonnet을 약 19% 포인트 차이로 앞섰습니다... 2025. 1. 4.
IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크 **IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크로, 모델이 주어진 지시를 얼마나 정확하게 따르는지를 측정합니다. arXivPrompt Strict 평가 방식은 다음과 같습니다:Prompt-level Strict Accuracy: 각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주합니다. 즉, 하나의 지시라도 지키지 않으면 해당 프롬프트는 '지시를 따르지 않음'으로 평가됩니다.영국 정부 벨프론트이러한 평가 방식을 통해 모델의 지시 수행 능력을 엄격하게 측정할 수 있으며, 이는 모델의 신뢰성과 활용 가능성을 판단하는 데 중요한 지표로 활용됩니다. 2025. 1. 4.
DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크 **DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크입니다. 특히, 모델이 단락을 읽고 그에 기반하여 복잡한 이산적(reasoning) 작업(예: 계산, 논리적 추론 등)을 수행할 수 있는지를 테스트합니다.DROP의 주요 특징이산적 추론 중심:일반적인 질문 답변 태스크보다 더 복잡한 이산적 추론을 요구.예: 날짜 계산, 숫자 비교, 다단계 추론.데이터셋 구조:단락(Paragraph): 하나 이상의 질문이 관련된 텍스트로 구성.질문(Question): 주어진 단락을 기반으로 복잡한 논리적 사고를 요구.답변(Answer): 숫자, 날짜, 특정 텍스트 등 다양한 형식으로 제공.평가 방식 (F1 Score):모.. 2025. 1. 4.
MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크 MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크입니다. arXiv주요 특징:복잡한 질문 구성: MMLU-Pro는 다양한 분야에 걸쳐 총 12,000개의 복잡한 질문을 포함하고 있습니다. 허깅페이스선택지 확대: 각 질문마다 선택지를 기존 4개에서 10개로 늘려, 무작위 추측에 의한 정답 확률을 낮추고 평가의 정확성을 높였습니다. arXiv추론 중심의 질문 추가: 지식 기반의 질문뿐만 아니라, 모델의 추론 능력을 평가하기 위한 복잡한 질문을 포함하여 모델의 종합적인 이해력과 문제 해결 능력을 테스트합니다. arXiv안정성 향상: 다양한 프롬프트 스타일에 대한 모델의 성능 변동성을 줄여, 평가 결과의 신뢰성을 높였습니다. arXiv.. 2025. 1. 4.
728x90
반응형