인공지능

IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크

aiproductmanager 2025. 1. 4. 04:03

**IF-Eval (Instruction-Following Evaluation)**은 대규모 언어 모델(LLM)의 지시 수행 능력을 평가하기 위한 벤치마크로, 모델이 주어진 지시를 얼마나 정확하게 따르는지를 측정합니다.

Prompt Strict 평가 방식은 다음과 같습니다:

  • Prompt-level Strict Accuracy: 각 프롬프트에 대해 모델이 모든 지시를 정확하게 수행했을 때만 '지시를 따름'으로 간주합니다. 즉, 하나의 지시라도 지키지 않으면 해당 프롬프트는 '지시를 따르지 않음'으로 평가됩니다.

이러한 평가 방식을 통해 모델의 지시 수행 능력을 엄격하게 측정할 수 있으며, 이는 모델의 신뢰성과 활용 가능성을 판단하는 데 중요한 지표로 활용됩니다.