LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다.
Pass@1-COT는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, Chain-of-Thought(COT) 기법을 활용하여 단계별 추론을 통해 문제를 해결하는 방식을 평가합니다.
주요 특징:
- 데이터 수집: 2023년 5월부터 2024년 5월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다.
- arXiv
- 다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다.
- GitHub
- 평가 범위 확대: 코드 생성뿐만 아니라, 코드 실행, 테스트 출력 예측, 자가 수정(self-repair) 등 다양한 코드 관련 능력을 평가합니다.
- arXiv
모델 성능 비교:
- DeepSeek-V3: LiveCodeBench (Pass@1-COT)에서 40.5%의 정확도를 기록하며, 코드 생성 및 이해에서 우수한 성능을 보였습니다.
- MeoAI
- Qwen2.5-Coder-32B-Instruct: 토큰 수준의 트리 탐색 방법을 활용하여 LiveCodeBench-Hard에서 Pass@1 30.5%의 성과를 달성하였습니다.
- arXiv
활용 방안:
- 모델 평가 및 개선: LiveCodeBench는 LLM의 코드 생성 능력을 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
- 데이터 오염 방지: 최신 문제를 지속적으로 수집하여 데이터 오염과 과적합을 방지하는 데 기여합니다.
참고 자료:
LiveCodeBench는 LLM의 코드 생성 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.
'인공지능' 카테고리의 다른 글
SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가 (0) | 2025.01.04 |
---|---|
Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼 (0) | 2025.01.04 |
HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 (2) | 2025.01.04 |
LongBench v2는 대규모 언어 모델(LLM)의 긴 문맥 처리 능력을 평가 (0) | 2025.01.04 |
FRAMES(Factuality, Retrieval, And reasoning MEasurement Set), 대규모 언어 모델(LLM)의 사실성, 정보 검색 정확성, 그리고 복잡한 추론 능력을 평가 (0) | 2025.01.04 |