분류 전체보기 159

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크인 SWE-bench의 하위 집합입니다. OpenAI는 SWE-bench의 한계를 보완하고 평가의 정확성을 높이기 위해 전문 소프트웨어 개발자들과 협력하여 이 검증된 데이터셋을 출시했습니다. OpenAI주요 특징:검증된 샘플: SWE-bench Verified는 500개의 샘플로 구성되어 있으며, 각 샘플은 인간 주석자에 의해 검토되어 문제가 없는 것으로 확인되었습니다. 이를 통해 평가의 신뢰성과 정확성을 높였습니다. OpenAI평가 방법: 모델은 주어진 코드베이스와 문제 설명을 기반으로 해당 문제를 해결하는 패치를 생성해야 합니다. 생성된 패치는 사전 및 사후의 유닛..

인공지능 2025.01.04

Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼

Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼으로, 참가자들은 성과에 따라 레이팅을 부여받습니다. 이 레이팅은 참가자의 실력을 나타내며, 특정 레이팅에 해당하는 백분위수(percentile)를 통해 전체 사용자 중 자신의 위치를 파악할 수 있습니다.주요 레이팅과 백분위수:중앙값 레이팅: 1143점으로, 이는 전체 참가자의 50%가 이 점수 이하에 위치함을 의미합니다.1900점: 상위 6%에 해당하며, 전체 참가자의 94번째 백분위수에 위치합니다.2400점: 상위 0.8%에 해당하며, 전체 참가자의 99.2번째 백분위수에 위치합니다.3000점: 상위 0.07%에 해당하며, 전체 참가자의 99.93번째 백분위수에 위치합니다.또한, 전체 참가자의 약 55%는 'Newbie..

인공지능 2025.01.04

LiveCodeBench (Pass@1)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다. Live Code BenchPass@1는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, 모델의 코드 생성 정확도를 평가하는 데 사용됩니다.주요 특징:데이터 수집: 2023년 5월부터 2024년 8월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다. OpenReview다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다. GitHub평가 범위 확대: 코드 생성뿐만 아니라, 코드 실..

카테고리 없음 2025.01.04

LiveCodeBench (Pass@1-COT)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다. arXivPass@1-COT는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, Chain-of-Thought(COT) 기법을 활용하여 단계별 추론을 통해 문제를 해결하는 방식을 평가합니다.주요 특징:데이터 수집: 2023년 5월부터 2024년 5월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다. arXiv다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다. GitHub평가 범위..

인공지능 2025.01.04

HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가

HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가하기 위해 설계된 벤치마크입니다. 이 벤치마크는 모델이 주어진 수학 문제에 대해 정확하고 효율적인 코드를 생성할 수 있는지를 측정합니다.Pass@1 지표는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타냅니다. 즉, 모델이 주어진 문제에 대해 처음으로 생성한 코드가 모든 테스트 케이스를 통과하여 정답으로 인정받을 확률을 의미합니다.HumanEval-Mul 벤치마크의 주요 특징:다양한 수학 문제: 기본적인 산술 연산부터 복잡한 수학적 개념까지 다양한 범위의 문제를 포함하여 모델의 수학적 이해도를 평가합니다.코드 생성 평가: 모델이 자연어로 주어진 수학 문제를 파이썬(Python) 코드로 변환하여 해결하는 능력을 ..

인공지능 2025.01.04

LongBench v2는 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가

LongBench v2는 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가하기 위해 개발된 벤치마크로, 모델이 긴 텍스트에서 깊은 이해와 추론을 수행할 수 있는지를 측정합니다. arXiv주요 특징:다양한 문맥 길이: 8,000단어에서 최대 200만 단어에 이르는 다양한 길이의 문맥을 포함하여, 모델의 긴 문맥 처리 능력을 평가합니다. arXiv다양한 작업 범주: 단일 문서 QA, 다중 문서 QA, 긴 맥락 학습, 긴 대화 이력 이해, 코드 저장소 이해, 긴 구조화 데이터 이해 등 6개의 주요 작업 범주로 구성되어 있습니다. arXiv높은 난이도: 약 100명의 고학력 개인이 참여하여 수집된 503개의 어려운 객관식 질문으로 구성되어 있으며, 인간 전문가도 15분 내에 53.7%의 정확도만을 달성하였..

인공지능 2025.01.04

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)는 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가하기 위해 개발된 벤치마크 데이터셋입니다. arXiv주요 특징:다중 단계 질문: 총 824개의 복잡한 다중 단계 질문으로 구성되어 있으며, 각 질문은 2개에서 15개의 위키피디아 문서를 통합하여 답변을 도출해야 합니다. 허깅페이스다양한 주제: 역사, 스포츠, 과학, 동물, 건강 등 다양한 분야를 포괄하여 모델의 전반적인 이해 능력을 평가합니다. 허깅페이스복잡한 추론 요구: 질문의 약 36%는 여러 제약 조건을 통한 추론을 필요로 하며, 20%는 수치 비교를 포함하고 있습니다. MarkTechPost모델 성능 ..

인공지능 2025.01.04

SimpleQA, 언어 모델의 사실성(factuality)을 평가

SimpleQA는 언어 모델의 사실성(factuality)을 평가하기 위해 OpenAI에서 개발한 벤치마크로, 짧고 사실을 추구하는 질문에 대한 모델의 응답 정확도를 측정합니다. OpenAI평가 등급:SimpleQA는 모델의 응답을 다음 세 가지 등급으로 분류하여 평가합니다:Correct (정답): 예측된 답변이 실제 정답을 완전히 포함하고, 모순되지 않는 경우.Incorrect (오답): 예측된 답변이 실제 정답과 어떤 식으로든 모순되는 경우.Not Attempted (시도하지 않음): 정답이 완전히 제공되지 않았지만, 모순되지 않는 경우.이러한 등급 분류를 통해 모델이 얼마나 정확하게 질문에 답변하는지, 그리고 오답을 얼마나 줄이는지를 정량적으로 평가할 수 있습니다. 디지털 부르주아데이터셋 구성:Si..

인공지능 2025.01.04

GPQA-Diamond,대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가

GPQA-Diamond는 생물학, 물리학, 화학 분야의 고난도 문제로 구성된 **GPQA(Graduate-Level Google-Proof Q&A Benchmark)**의 하위 집합입니다. 이 벤치마크는 대규모 언어 모델(LLM)의 고급 추론 및 문제 해결 능력을 평가하기 위해 설계되었습니다. arXivPass@1는 모델이 첫 번째 시도에서 정답을 맞출 확률을 나타내는 지표입니다. 즉, 주어진 문제에 대해 모델이 첫 번째로 생성한 답변이 정답일 확률을 측정합니다. The UX LabsGPQA-Diamond 벤치마크에서의 모델 성능 비교:iAsk Pro: Pass@1 정확도 78.28%로, OpenAI의 o1 모델과 Anthropic의 Claude 3.5 Sonnet을 약 19% 포인트 차이로 앞섰습니다...

인공지능 2025.01.04

IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크

**IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크로, 모델이 주어진 지시를 얼마나 정확하게 따르는지를 측정합니다. arXivPrompt Strict 평가 방식은 다음과 같습니다:Prompt-level Strict Accuracy: 각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주합니다. 즉, 하나의 지시라도 지키지 않으면 해당 프롬프트는 '지시를 따르지 않음'으로 평가됩니다.영국 정부 벨프론트이러한 평가 방식을 통해 모델의 지시 수행 능력을 엄격하게 측정할 수 있으며, 이는 모델의 신뢰성과 활용 가능성을 판단하는 데 중요한 지표로 활용됩니다.

인공지능 2025.01.04