https://livecodebench.github.io/LiveCodeBench는 대규모 언어 모델(LLM)의 코드 관련 응용 분야에서의 성능을 포괄적이고 오염 없이 평가하기 위해 개발된 벤치마크입니다.이 벤치마크는 LeetCode, AtCoder, CodeForces와 같은 세 개의 경쟁 플랫폼에서 지속적으로 새로운 문제를 수집하여, LLM의 코드 생성 능력뿐만 아니라 자기 수정(self-repair), 코드 실행, 테스트 출력 예측 등 다양한 코드 관련 기능을 평가합니다.현재 LiveCodeBench는 2023년 5월부터 2024년 5월까지 발표된 400개의 고품질 코딩 문제를 포함하고 있습니다.이러한 문제를 통해 18개의 기본 LLM과 34개의 명령어 튜닝된 LLM을 평가한 결과, 기존 벤치마..