Humanity’s Last Exam (HLE) to zaawansowany benchmark stworzony przez Center for AI Safety i Scale AI, składający się z około 2500 pytań na poziomie akademickim z różnych dziedzin, takich jak matematyka, nauki przyrodnicze i humanistyczne. Test został zaprojektowany tak, aby wykraczać poza możliwości współczesnych modeli językowych, wymagając od nich głębokiego rozumowania i specjalistycznej wiedzy, której nie można łatwo odnaleźć w internecie. Celem tej inicjatywy jest obiektywne mierzenie postępów sztucznej inteligencji w drodze do osiągnięcia poziomu ludzkich ekspertów i zapobieganie stagnacji starszych testów ewaluacyjnych.
Humanity’s Last Exam
Reklama




