인공지능

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

aiproductmanager 2025. 1. 4. 04:18

SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크인 SWE-bench의 하위 집합입니다. OpenAI는 SWE-bench의 한계를 보완하고 평가의 정확성을 높이기 위해 전문 소프트웨어 개발자들과 협력하여 이 검증된 데이터셋을 출시했습니다.

주요 특징:

  • 검증된 샘플: SWE-bench Verified는 500개의 샘플로 구성되어 있으며, 각 샘플은 인간 주석자에 의해 검토되어 문제가 없는 것으로 확인되었습니다. 이를 통해 평가의 신뢰성과 정확성을 높였습니다.
  • OpenAI
  • 평가 방법: 모델은 주어진 코드베이스와 문제 설명을 기반으로 해당 문제를 해결하는 패치를 생성해야 합니다. 생성된 패치는 사전 및 사후의 유닛 테스트를 통해 검증되며, 이를 통해 모델의 문제 해결 능력을 평가합니다.
  • Swebench
  • 향상된 평가 도구: Docker를 활용한 컨테이너화된 평가 환경을 도입하여, 평가 과정의 일관성과 재현성을 높였습니다.
  • GitHub

모델 성능:

  • GPT-4o: SWE-bench Verified에서 33.2%의 샘플을 성공적으로 해결하여, 이전 SWE-bench에서의 16% 대비 두 배 이상의 성능 향상을 보였습니다.
  • OpenAI
  • OpenHands CodeAct 2.1: All Hands AI에서 개발한 이 모델은 SWE-bench Verified에서 53%의 해결률을 기록하며, 이전 기록인 Anthropic의 Claude 3.5 Sonnet의 49%를 넘어섰습니다.
  • Deep Newz

활용 방안:

  • 모델 평가 및 개선: SWE-bench Verified는 LLM의 소프트웨어 엔지니어링 문제 해결 능력을 정확하게 평가하고, 모델의 성능을 향상시키는 데 유용한 도구로 활용될 수 있습니다.
  • 데이터셋 활용: 연구자와 개발자는 SWE-bench Verified를 통해 모델의 실제 문제 해결 능력을 테스트하고, 이를 기반으로 모델을 개선할 수 있습니다.

참고 자료:

  • 자세한 내용은 OpenAI 발표에서 확인할 수 있습니다.
  • SWE-bench의 공식 웹사이트는 여기에서 확인할 수 있습니다.
  • 프로젝트의 GitHub 저장소는 여기에서 확인할 수 있습니다.

SWE-bench Verified는 LLM의 실제 소프트웨어 엔지니어링 능력을 평가하고 개선하는 데 중요한 벤치마크로 활용될 수 있습니다.