본문 바로가기
인공지능

LiveCodeBench (Pass@1-COT)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

by aiproductmanager 2025. 1. 4.
728x90
반응형

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다.

Pass@1-COT는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, Chain-of-Thought(COT) 기법을 활용하여 단계별 추론을 통해 문제를 해결하는 방식을 평가합니다.

주요 특징:

  • 데이터 수집: 2023년 5월부터 2024년 5월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다.
  • arXiv
  • 다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다.
  • GitHub
  • 평가 범위 확대: 코드 생성뿐만 아니라, 코드 실행, 테스트 출력 예측, 자가 수정(self-repair) 등 다양한 코드 관련 능력을 평가합니다.
  • arXiv

모델 성능 비교:

  • DeepSeek-V3: LiveCodeBench (Pass@1-COT)에서 40.5%의 정확도를 기록하며, 코드 생성 및 이해에서 우수한 성능을 보였습니다.
  • MeoAI
  • Qwen2.5-Coder-32B-Instruct: 토큰 수준의 트리 탐색 방법을 활용하여 LiveCodeBench-Hard에서 Pass@1 30.5%의 성과를 달성하였습니다.
  • arXiv

활용 방안:

  • 모델 평가 및 개선: LiveCodeBench는 LLM의 코드 생성 능력을 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
  • 데이터 오염 방지: 최신 문제를 지속적으로 수집하여 데이터 오염과 과적합을 방지하는 데 기여합니다.

참고 자료:

  • 자세한 내용은 arXiv 논문에서 확인할 수 있습니다.
  • 프로젝트 페이지는 GitHub에서 확인할 수 있습니다.

LiveCodeBench는 LLM의 코드 생성 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.

728x90
반응형