Regresja liniowa i logistyczna od podstaw 26 czerwca, 2026
Od modelu do algorytmu: jak naprawdę działa uczenie maszynowe 23 czerwca, 2026
Kimi K2.7 Code – nowy otwarty model do programowania od Moonshot AI 15 czerwca, 2026
AI Act dla MŚP – specjalny przewodnik dla małych firm: co musisz zrobić, gdy masz 5 pracowników 12 czerwca, 2026

Massive Multitask Language Understanding (MMLU)

Massive Multitask Language Understanding (MMLU) to jeden z najważniejszych benchmarków służących do oceny zdolności modeli językowych w zakresie wiedzy ogólnej i rozwiązywania problemów. Test obejmuje tysiące zadań wielokrotnego wyboru z 57 różnych dziedzin, takich jak matematyka, historia, prawo czy etyka. Pozwala on badaczom precyzyjnie mierzyć, jak dobrze sztuczna inteligencja radzi sobie z rozumowaniem w zróżnicowanych, akademickich i profesjonalnych kontekstach. Dzięki szerokiemu zakresowi tematycznemu MMLU stało się standardem w porównywaniu inteligencji i wszechstronności nowoczesnych systemów LLM.

Źródło: en.wikipedia.org

📖 Dowiedz się więcej w kontekście:

Benchmarki LLM: jak naprawdę mierzy się inteligencję modeli językowych

Autor

Artur Kowynia

Strona internetowa 168 postów

Zobacz wszystkie posty

Powrót do góry

📖 Dowiedz się więcej w kontekście:

Artur Kowynia

Powiązane posty