Massive Multitask Language Understanding (MMLU)

Massive Multitask Language Understanding (MMLU) to jeden z najważniejszych benchmarków służących do oceny zdolności modeli językowych w zakresie wiedzy ogólnej i rozwiązywania problemów. Test obejmuje tysiące zadań wielokrotnego wyboru z 57 różnych dziedzin, takich jak matematyka, historia, prawo czy etyka. Pozwala on badaczom precyzyjnie mierzyć, jak dobrze sztuczna inteligencja radzi sobie z rozumowaniem w zróżnicowanych, akademickich i profesjonalnych kontekstach. Dzięki szerokiemu zakresowi tematycznemu MMLU stało się standardem w porównywaniu inteligencji i wszechstronności nowoczesnych systemów LLM.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry