Multi-Head Latent Attention (MLA) to innowacyjna architektura mechanizmu uwagi wprowadzona przez DeepSeek, która znacząco redukuje rozmiar pamięci KV cache poprzez kompresję danych do postaci wektorów latentnych. W przeciwieństwie do metod takich jak GQA, MLA nie zmniejsza liczby głów, lecz wykorzystuje niskopoziomową aproksymację macierzy, co pozwala na zachowanie wysokiej jakości modelowania przy jednoczesnym radykalnym przyspieszeniu wnioskowania. Rozwiązanie to optymalizuje wąskie gardła przepustowości pamięci, umożliwiając wydajną obsługę bardzo długich kontekstów w dużych modelach językowych.
Multi-Head Latent Attention (MLA)
Reklama





