SWE-bench Verified는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크인 SWE-bench의 하위 집합입니다. OpenAI는 SWE-bench의 한계를 보완하고 평가의 정확성을 높이기 위해 전문 소프트웨어 개발자들과 협력하여 이 검증된 데이터셋을 출시했습니다. OpenAI주요 특징:검증된 샘플: SWE-bench Verified는 500개의 샘플로 구성되어 있으며, 각 샘플은 인간 주석자에 의해 검토되어 문제가 없는 것으로 확인되었습니다. 이를 통해 평가의 신뢰성과 정확성을 높였습니다. OpenAI평가 방법: 모델은 주어진 코드베이스와 문제 설명을 기반으로 해당 문제를 해결하는 패치를 생성해야 합니다. 생성된 패치는 사전 및 사후의 유닛..