본문 바로가기
728x90
반응형

2025/01/0428

GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가 GPQA-Diamond는 생물학, 물리학, 화학 분야의 고난도 문제로 구성된 **GPQA(Graduate-Level Google-Proof Q&A Benchmark)**의 하위 집합입니다. 이 벤치마크는 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가하기 위해 설계되었습니다. arXivPass@1는 모델이 첫 번째 시도에서 정답을 맞출 확률을 나타내는 지표입니다. 즉, 주어진 문제에 대해 모델이 첫 번째로 생성한 답변이 정답일 확률을 측정합니다. The UX LabsGPQA-Diamond 벤치마크에서의 모델 성능 비교:iAsk Pro: Pass@1 정확도 78.28%로, OpenAI의 o1 모델과 Anthropic의 Claude 3.5 Sonnet을 약 19% 포인트 차이로 앞섰습니다... 2025. 1. 4.
IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크 **IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크로, 모델이 주어진 지시를 얼마나 정확하게 따르는지를 측정합니다. arXivPrompt Strict 평가 방식은 다음과 같습니다:Prompt-level Strict Accuracy: 각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주합니다. 즉, 하나의 지시라도 지키지 않으면 해당 프롬프트는 '지시를 따르지 않음'으로 평가됩니다.영국 정부 벨프론트이러한 평가 방식을 통해 모델의 지시 수행 능력을 엄격하게 측정할 수 있으며, 이는 모델의 신뢰성과 활용 가능성을 판단하는 데 중요한 지표로 활용됩니다. 2025. 1. 4.
DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크 **DROP (Discrete Reasoning Over Paragraphs)**는 자연어 처리(NLP) 모델의 추론 능력을 평가하기 위해 설계된 벤치마크입니다. 특히, 모델이 단락을 읽고 그에 기반하여 복잡한 이산적(reasoning) 작업(예: 계산, 논리적 추론 등)을 수행할 수 있는지를 테스트합니다.DROP의 주요 특징이산적 추론 중심:일반적인 질문 답변 태스크보다 더 복잡한 이산적 추론을 요구.예: 날짜 계산, 숫자 비교, 다단계 추론.데이터셋 구조:단락(Paragraph): 하나 이상의 질문이 관련된 텍스트로 구성.질문(Question): 주어진 단락을 기반으로 복잡한 논리적 사고를 요구.답변(Answer): 숫자, 날짜, 특정 텍스트 등 다양한 형식으로 제공.평가 방식 (F1 Score):모.. 2025. 1. 4.
MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크 MMLU-Pro는 대규모 언어 모델(LLM)의 성능을 더욱 엄격하게 평가하기 위해 개발된 향상된 멀티태스크 언어 이해 벤치마크입니다. arXiv주요 특징:복잡한 질문 구성: MMLU-Pro는 다양한 분야에 걸쳐 총 12,000개의 복잡한 질문을 포함하고 있습니다. 허깅페이스선택지 확대: 각 질문마다 선택지를 기존 4개에서 10개로 늘려, 무작위 추측에 의한 정답 확률을 낮추고 평가의 정확성을 높였습니다. arXiv추론 중심의 질문 추가: 지식 기반의 질문뿐만 아니라, 모델의 추론 능력을 평가하기 위한 복잡한 질문을 포함하여 모델의 종합적인 이해력과 문제 해결 능력을 테스트합니다. arXiv안정성 향상: 다양한 프롬프트 스타일에 대한 모델의 성능 변동성을 줄여, 평가 결과의 신뢰성을 높였습니다. arXiv.. 2025. 1. 4.
MMLU-Redux, LLM의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상 MMLU-Redux는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 MMLU(Massive Multitask Language Understanding)의 신뢰성과 정확성을 향상시키기 위해 개발된 재구성된 데이터셋입니다. arXiv주요 특징:데이터셋 재구성: MMLU-Redux는 MMLU의 30개 주제에서 각 100개의 질문을 무작위로 선택하여 총 3,000개의 질문을 포함하고 있습니다. 이 질문들은 전문가에 의해 재검토되고 주석이 추가되어, 원본 데이터셋에서 발견된 오류를 수정하고 정확성을 높였습니다. GitHub오류 분석 및 분류: 연구팀은 MMLU 데이터셋에서 다양한 오류를 식별하고 분석하기 위해 새로운 오류 분류 체계를 도입했습니다. 이를 통해 데이터셋의 품질을 향상시키고, 언어 모델.. 2025. 1. 4.
MMLU (Massive Multitask Language Understanding) **MMLU (Massive Multitask Language Understanding)**는 AI 언어 모델의 성능을 평가하기 위해 설계된 벤치마크입니다. 이 벤치마크는 다양한 주제와 난이도에서 AI 모델의 언어 이해 능력을 측정하는 데 초점을 맞추고 있습니다.MMLU의 주요 특징다양한 도메인:MMLU는 57개 도메인에서의 문제를 포함하며, 각 도메인은 학문적 및 실제 응용 분야를 아우릅니다.주제 예시: 역사, 생물학, 컴퓨터 과학, 수학, 법률, 의학 등.난이도별 문제 구성:고등학교 수준에서 대학 및 전문가 수준까지 다양한 난이도의 문제를 포함.언어 모델이 복잡한 주제와 고난도의 개념을 이해할 수 있는지 평가.다중 선택 형식:각 문제는 4개의 선택지가 있는 다중 선택(Multiple Choice) 형.. 2025. 1. 4.
728x90
반응형