Robust Multi-Task Language Understanding Benchmark (MMLU-Pro) to zaawansowany zestaw testowy dla modeli językowych, będący rozszerzeniem popularnego benchmarku MMLU. Wprowadza on znacznie trudniejsze pytania wymagające głębokiego rozumowania zamiast zwykłego przywoływania faktów oraz zwiększa liczbę odpowiedzi do wyboru z 4 do 10. Dzięki temu benchmark skuteczniej różnicuje możliwości czołowych systemów AI i jest bardziej odporny na zgadywanie oraz zmiany w treści zapytań. MMLU-Pro obejmuje ponad 12 000 zadań z 14 dziedzin akademickich, kładąc szczególny nacisk na wykorzystanie techniki Chain of Thought w procesie rozwiązywania problemów.
Robust Multi-Task Language Understanding Benchmark (MMLU-Pro)
Reklama





