카테고리 없음

LiveCodeBench (Pass@1)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가

aiproductmanager 2025. 1. 4. 04:14

LiveCodeBench는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위해 개발된 벤치마크로, LeetCode, AtCoder, CodeForces와 같은 플랫폼에서 수집된 최신의 경쟁 프로그래밍 문제를 포함하고 있습니다.

Pass@1는 모델이 첫 번째 시도에서 올바른 코드를 생성할 확률을 나타내는 지표로, 모델의 코드 생성 정확도를 평가하는 데 사용됩니다.

주요 특징:

  • 데이터 수집: 2023년 5월부터 2024년 8월까지의 최신 프로그래밍 문제를 포함하여, 데이터 오염과 과적합을 방지합니다.
  • OpenReview
  • 다양한 평가 지표: Pass@1, Pass@5 등의 지표를 통해 모델의 성능을 다각도로 평가합니다.
  • GitHub
  • 평가 범위 확대: 코드 생성뿐만 아니라, 코드 실행, 테스트 출력 예측, 자가 수정(self-repair) 등 다양한 코드 관련 능력을 평가합니다.
  • arXiv

모델 성능 비교:

  • GPT-4-turbo 및 Claude-3-Opus: 이 모델들은 다양한 시나리오에서 우수한 성능을 보였습니다.
  • Live Code Bench
  • DeepSeek-V3: LiveCodeBench에서 Pass@1 37.6%의 정확도를 기록하며, 코드 생성 및 이해에서 우수한 성능을 보였습니다.
  • GitHub

활용 방안:

  • 모델 평가 및 개선: LiveCodeBench는 LLM의 코드 생성 능력을 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
  • 데이터 오염 방지: 최신 문제를 지속적으로 수집하여 데이터 오염과 과적합을 방지하는 데 기여합니다.

참고 자료:

  • 자세한 내용은 arXiv 논문에서 확인할 수 있습니다.
  • 프로젝트 페이지는 GitHub에서 확인할 수 있습니다.

LiveCodeBench는 LLM의 코드 생성 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.