CLUEWSC는 중국어 자연어 이해 평가를 위한 벤치마크인 CLUE(Chinese Language Understanding Evaluation)의 일부로, Winograd Schema Challenge를 기반으로 한 중국어 대명사 해소(코어퍼런스 해소) 작업을 평가합니다.
**EM(Exact Match)**은 모델이 예측한 답변이 정답과 정확히 일치하는지를 평가하는 지표로, CLUEWSC 작업에서 모델의 성능을 측정하는 데 사용됩니다.
최근 발표된 DeepSeek-V3 모델은 CLUEWSC 벤치마크에서 90.9%의 정확도를 기록하여, Qwen2.5-72B 모델과 함께 최고 성능을 보였습니다.
CLUEWSC는 중국어 대명사 해소 작업의 성능을 평가하는 데 중요한 역할을 하며, 다양한 모델의 언어 이해 능력을 비교하는 데 활용됩니다.
CLUEWSC 데이터셋 및 관련 정보는 CLUEWSC2020 GitHub 저장소에서 확인할 수 있습니다.
또한, CLUE 벤치마크에 대한 자세한 내용은 Hugging Face의 CLUE 페이지에서 확인할 수 있습니다.
이러한 자원들은 중국어 자연어 처리 모델의 성능 평가 및 개선에 유용하게 활용될 수 있습니다.