Grade School Math 8K (GSM8K) to zestaw ponad 8 tysięcy zadań matematycznych na poziomie szkoły podstawowej, stworzony do oceny zdolności modeli językowych. Benchmark ten skupia się na rozwiązywaniu problemów tekstowych, które wymagają od sztucznej inteligencji wieloetapowego rozumowania logicznego. Każde zadanie w zbiorze kończy się konkretnym wynikiem liczbowym, co pozwala na precyzyjne mierzenie skuteczności algorytmów w zadaniach matematycznych. Jest to obecnie jeden z najpopularniejszych standardów weryfikacji kompetencji analitycznych nowoczesnych systemów LLM.
Grade School Math 8K (Problem Solving Benchmark) (GSM8K)
Źródło: pl.wikipedia.org




