SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

728x90

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크인 SWE-bench의 하위 집합입니다. OpenAI는 SWE-bench의 한계를 보완하고 평가의 정확성을 높이기 위해 전문 소프트웨어 개발자들과 협력하여 이 검증된 데이터셋을 출시했습니다.

OpenAI

주요 특징:

검증된 샘플: SWE-bench Verified는 500개의 샘플로 구성되어 있으며, 각 샘플은 인간 주석자에 의해 검토되어 문제가 없는 것으로 확인되었습니다. 이를 통해 평가의 신뢰성과 정확성을 높였습니다.
OpenAI
평가 방법: 모델은 주어진 코드베이스와 문제 설명을 기반으로 해당 문제를 해결하는 패치를 생성해야 합니다. 생성된 패치는 사전 및 사후의 유닛 테스트를 통해 검증되며, 이를 통해 모델의 문제 해결 능력을 평가합니다.
Swebench
향상된 평가 도구: Docker를 활용한 컨테이너화된 평가 환경을 도입하여, 평가 과정의 일관성과 재현성을 높였습니다.
GitHub

모델 성능:

GPT-4o: SWE-bench Verified에서 33.2%의 샘플을 성공적으로 해결하여, 이전 SWE-bench에서의 16% 대비 두 배 이상의 성능 향상을 보였습니다.
OpenAI
OpenHands CodeAct 2.1: All Hands AI에서 개발한 이 모델은 SWE-bench Verified에서 53%의 해결률을 기록하며, 이전 기록인 Anthropic의 Claude 3.5 Sonnet의 49%를 넘어섰습니다.
Deep Newz

활용 방안:

모델 평가 및 개선: SWE-bench Verified는 LLM의 소프트웨어 엔지니어링 문제 해결 능력을 정확하게 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
데이터셋 활용: 연구자와 개발자는 SWE-bench Verified를 통해 모델의 실제 문제 해결 능력을 테스트하고, 이를 기반으로 모델을 개선할 수 있습니다.

참고 자료:

자세한 내용은 OpenAI의 발표에서 확인할 수 있습니다.
SWE-bench의 공식 웹사이트는 여기에서 확인할 수 있습니다.
프로젝트의 GitHub 저장소는 여기에서 확인할 수 있습니다.

SWE-bench Verified는 LLM의 실제 소프트웨어 엔지니어링 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.

728x90

'인공지능' 카테고리의 다른 글

Aider-Polyglot (Acc.),다양한 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 편집 능력을 평가 (1)	2025.01.04
Aider는 로컬 Git 저장소에서 코드 편집을 지원하는 오픈 소스 명령줄 도구로, 대형 언어 모델(LLM)의 코드 편집 능력을 평가 (0)	2025.01.04
Codeforces는 프로그래머들이 알고리즘 문제 해결 능력을 겨루는 온라인 플랫폼 (0)	2025.01.04
LiveCodeBench (Pass@1-COT)는 대규모 언어 모델(LLM)의 코드 생성 능력을 평가 (1)	2025.01.04
HumanEval-Mul는 대규모 언어 모델(LLM)의 수학적 문제 해결 능력을 평가 (2)	2025.01.04

aiproductmanager 님의 블로그

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

'인공지능' 카테고리의 다른 글

티스토리툴바

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

'인공지능' 카테고리의 다른 글

관련글

티스토리툴바