LiveCodeBench (Pass@1)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

728x90

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다.

Pass@1는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, 모델의 코드 생성 정확도를 평가하는 데 사용됩니다.

주요 특징:

데이터 수집: 2023년 5월부터 2024년 8월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다.
OpenReview
다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다.
GitHub
평가 범위 확대: 코드 생성뿐만 아니라, 코드 실행, 테스트 출력 예측, 자가 수정(self-repair) 등 다양한 코드 관련 능력을 평가합니다.
arXiv

모델 성능 비교:

GPT-4-turbo 및 Claude-3-Opus: 이 모델들은 다양한 시나리오에서 우수한 성능을 보였습니다.
Live Code Bench
DeepSeek-V3: LiveCodeBench에서 Pass@1 37.6%의 정확도를 기록하며, 코드 생성 및 이해에서 우수한 성능을 보였습니다.
GitHub

활용 방안:

모델 평가 및 개선: LiveCodeBench는 LLM의 코드 생성 능력을 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
데이터 오염 방지: 최신 문제를 지속적으로 수집하여 데이터 오염과 과적합을 방지하는 데 기여합니다.

참고 자료:

LiveCodeBench는 LLM의 코드 생성 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.

728x90

mango