Commonsense Physical Interaction Benchmark (HellaSwag)

HellaSwag to zaawansowany benchmark służący do oceny zdolności modeli językowych w zakresie rozumowania zdroworozsądkowego dotyczącego fizycznych interakcji. Test polega na wybieraniu najbardziej prawdopodobnego zakończenia opisanej sytuacji z życia codziennego, co wymaga od sztucznej inteligencji zrozumienia praw fizyki i dynamiki zdarzeń. Jest on uważany za trudne wyzwanie, ponieważ zadania są konstruowane tak, aby były łatwe dla ludzi, ale mylące dla algorytmów opartych wyłącznie na statystyce słów. Dzięki temu benchmark pozwala precyzyjnie mierzyć, na ile dany model rzeczywiście rozumie kontekst otaczającego nas świata, a nie tylko powiela schematy językowe.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry