Commonsense Physical Interaction Benchmark (HellaSwag)

HellaSwag to benchmark oceniający zdolność modeli językowych do rozumowania zdroworozsądkowego w kontekście fizycznych interakcji i scenariuszy życia codziennego. Polega na wyborze najbardziej prawdopodobnego zakończenia opisanej sytuacji, gdzie zadania są konstruowane tak, aby być intuicyjne dla ludzi, ale trudne dla algorytmów opartych jedynie na statystycznych wzorach językowych. Benchmark został rozszerzony o wersję bilingualną (HellaSwag-Pro) oraz uzupełniony o testy sprawdzające odporność modeli na różne warianty pytań, co pozwala ocenić ich prawdziwe zrozumienie „common sense” a nie tylko powtarzanie schematów. Jest uważany za kluczowy w badaniach nad praktyczną inteligencją sztuczną.

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry