HellaSwag to zaawansowany benchmark służący do oceny zdolności modeli językowych w zakresie rozumowania zdroworozsądkowego dotyczącego fizycznych interakcji. Test polega na wybieraniu najbardziej prawdopodobnego zakończenia opisanej sytuacji z życia codziennego, co wymaga od sztucznej inteligencji zrozumienia praw fizyki i dynamiki zdarzeń. Jest on uważany za trudne wyzwanie, ponieważ zadania są konstruowane tak, aby były łatwe dla ludzi, ale mylące dla algorytmów opartych wyłącznie na statystyce słów. Dzięki temu benchmark pozwala precyzyjnie mierzyć, na ile dany model rzeczywiście rozumie kontekst otaczającego nas świata, a nie tylko powiela schematy językowe.
Commonsense Physical Interaction Benchmark (HellaSwag)
Reklama





