Regresja liniowa i logistyczna od podstaw 26 czerwca, 2026
Od modelu do algorytmu: jak naprawdę działa uczenie maszynowe 23 czerwca, 2026
Kimi K2.7 Code – nowy otwarty model do programowania od Moonshot AI 15 czerwca, 2026
AI Act dla MŚP – specjalny przewodnik dla małych firm: co musisz zrobić, gdy masz 5 pracowników 12 czerwca, 2026

Humanity’s Last Exam

Humanity’s Last Exam (HLE) to benchmark stworzony przez Center for AI Safety i Scale AI, składający się z około 2500 pytań na poziomie eksperckim z szerokiego zakresu dziedzin, takich jak nauki ścisłe, humanistyka i specjalistyczne dziedziny (np. paleografia, mikroanatomia). Test został opracowany przez konsorcjum niemal 1000 ekspertów z całego świata, a jego pytania zostały wyselekcjonowane tak, aby były trudne nawet dla obecnie najbardziej zaawansowanych modeli językowych (np. GPT-4o osiągnął wynik 2,7%, Claude 3.5 Sonnet 4,1%). Celem jest obiektywne mierzenie postępów AI w kierunku osiągnięcia poziomu ludzkiej ekspertyzy oraz zastąpienie nasyconych benchmarków, takich jak MMLU.

Źródło: en.wikipedia.org

📖 Dowiedz się więcej w kontekście:

DeepAgent: Inteligentny Agent Rozumowania z Skalowalnymi Zestawami Narzędzi

Autor

Artur Kowynia

Strona internetowa 168 postów

Zobacz wszystkie posty

Powrót do góry

📖 Dowiedz się więcej w kontekście:

Artur Kowynia

Powiązane posty