SwiGLU (Swish-Gated Linear Unit)

SwiGLU (Swish-Gated Linear Unit) to zaawansowana funkcja aktywacji i blok architektoniczny sieci neuronowych, który łączy mechanizm bramkowania (GLU) z funkcją aktywacji Swish. Rozwiązanie to pozwala na dynamiczne kontrolowanie przepływu informacji w modelu, co przyspiesza zbieżność treningu i poprawia wydajność, zwłaszcza w nowoczesnych dużych modelach językowych, takich jak LLaMA czy PaLM.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry