Online softmax to zoptymalizowana technika obliczania funkcji softmax, która pozwala na wyznaczanie globalnych statystyk, takich jak maksimum i mianownik, w jednym przebiegu przez dane zamiast kilku. Dzięki zastosowaniu mechanizmu skalowania pośrednich wyników, metoda ta znacząco redukuje liczbę operacji odczytu z pamięci i zapobiega błędom przepełnienia. Jest to kluczowy element algorytmu FlashAttention, umożliwiający wydajne przetwarzanie długich sekwencji tekstowych na procesorach GPU.
📖 Dowiedz się więcej w kontekście:
Reklama





