SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크인 SWE-bench의 하위 집합입니다. OpenAI는 SWE-bench의 한계를 보완하고 평가의 정확성을 높이기 위해 전문 소프트웨어 개발자들과 협력하여 이 검증된 데이터셋을 출시했습니다.
주요 특징:
- 검증된 샘플: SWE-bench Verified는 500개의 샘플로 구성되어 있으며, 각 샘플은 인간 주석자에 의해 검토되어 문제가 없는 것으로 확인되었습니다. 이를 통해 평가의 신뢰성과 정확성을 높였습니다.
- OpenAI
- 평가 방법: 모델은 주어진 코드베이스와 문제 설명을 기반으로 해당 문제를 해결하는 패치를 생성해야 합니다. 생성된 패치는 사전 및 사후의 유닛 테스트를 통해 검증되며, 이를 통해 모델의 문제 해결 능력을 평가합니다.
- Swebench
- 향상된 평가 도구: Docker를 활용한 컨테이너화된 평가 환경을 도입하여, 평가 과정의 일관성과 재현성을 높였습니다.
- GitHub
모델 성능:
- GPT-4o: SWE-bench Verified에서 33.2%의 샘플을 성공적으로 해결하여, 이전 SWE-bench에서의 16% 대비 두 배 이상의 성능 향상을 보였습니다.
- OpenAI
- OpenHands CodeAct 2.1: All Hands AI에서 개발한 이 모델은 SWE-bench Verified에서 53%의 해결률을 기록하며, 이전 기록인 Anthropic의 Claude 3.5 Sonnet의 49%를 넘어섰습니다.
- Deep Newz
활용 방안:
- 모델 평가 및 개선: SWE-bench Verified는 LLM의 소프트웨어 엔지니어링 문제 해결 능력을 정확하게 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
- 데이터셋 활용: 연구자와 개발자는 SWE-bench Verified를 통해 모델의 실제 문제 해결 능력을 테스트하고, 이를 기반으로 모델을 개선할 수 있습니다.
참고 자료:
- 자세한 내용은 OpenAI의 발표에서 확인할 수 있습니다.
- SWE-bench의 공식 웹사이트는 여기에서 확인할 수 있습니다.
- 프로젝트의 GitHub 저장소는 여기에서 확인할 수 있습니다.
SWE-bench Verified는 LLM의 실제 소프트웨어 엔지니어링 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.
'인공지능' 카테고리의 다른 글
Aider-Polyglot (Acc.),다양한 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 편집 능력을 평가 (0) | 2025.01.04 |
---|---|
Aider는 로컬 Git 저장소에서 코드 편집을 지원하는 오픈 소스 명령줄 도구로, 대형 언어 모델(LLM)의 코드 편집 능력을 평가 (0) | 2025.01.04 |
Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼 (0) | 2025.01.04 |
LiveCodeBench (Pass@1-COT)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가 (0) | 2025.01.04 |
HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 (1) | 2025.01.04 |