SwiGLU (Swish-Gated Linear Unit) to zaawansowana funkcja aktywacji i blok architektoniczny sieci neuronowych, który łączy mechanizm bramkowania (GLU) z funkcją aktywacji Swish. Rozwiązanie to pozwala na dynamiczne kontrolowanie przepływu informacji w modelu, co przyspiesza zbieżność treningu i poprawia wydajność, zwłaszcza w nowoczesnych dużych modelach językowych, takich jak LLaMA czy PaLM.
📖 Dowiedz się więcej w kontekście:
Reklama





