Aider는 로컬 Git 저장소에서 코드 편집을 지원하는 오픈 소스 명령줄 도구로, 대형 언어 모델(LLM)의 코드 편집 능력을 평가하기 위해 자체 벤치마크를 개발했습니다. AiderAider의 코드 편집 벤치마크:목적: LLM이 자연어로 주어진 코딩 요청을 실행 가능한 코드로 변환하고, 이를 파일에 저장하여 유닛 테스트를 통과하는지를 평가합니다. Aider구성: Exercism의 133개 파이썬 코딩 연습 문제를 기반으로 하며, 각 문제는 함수 스텁과 자연어 설명, 그리고 테스트 스위트를 포함합니다. Aider모델 성능 비교:최신 결과: OpenAI의 o1 모델이 Aider의 새로운 폴리글롯 리더보드에서 최고 점수를 기록했습니다. 이 벤치마크는 다양한 프로그래밍 언어를 사용하며, 이전보다 훨씬 더 도전..