LiveCodeBench (Pass@1-COT)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

728x90

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다.

Pass@1-COT는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, Chain-of-Thought(COT) 기법을 활용하여 단계별 추론을 통해 문제를 해결하는 방식을 평가합니다.

주요 특징:

데이터 수집: 2023년 5월부터 2024년 5월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다.
arXiv
다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다.
GitHub
평가 범위 확대: 코드 생성뿐만 아니라, 코드 실행, 테스트 출력 예측, 자가 수정(self-repair) 등 다양한 코드 관련 능력을 평가합니다.
arXiv

모델 성능 비교:

DeepSeek-V3: LiveCodeBench (Pass@1-COT)에서 40.5%의 정확도를 기록하며, 코드 생성 및 이해에서 우수한 성능을 보였습니다.
MeoAI
Qwen2.5-Coder-32B-Instruct: 토큰 수준의 트리 탐색 방법을 활용하여 LiveCodeBench-Hard에서 Pass@1 30.5%의 성과를 달성하였습니다.
arXiv

활용 방안:

모델 평가 및 개선: LiveCodeBench는 LLM의 코드 생성 능력을 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
데이터 오염 방지: 최신 문제를 지속적으로 수집하여 데이터 오염과 과적합을 방지하는 데 기여합니다.

참고 자료:

LiveCodeBench는 LLM의 코드 생성 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.

728x90

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가 (0)	2025.01.04
Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼 (0)	2025.01.04
HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 (2)	2025.01.04
LongBench v2는 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가 (0)	2025.01.04
FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가 (0)	2025.01.04

aiproductmanager 님의 블로그