Grouped Query Attention (GQA) to technika optymalizacji mechanizmu uwagi w modelach typu transformer, która stanowi kompromis między precyzją Multi-Head Attention a szybkością Multi-Query Attention. Polega ona na dzieleniu głowic zapytań (queries) na grupy, z których każda współdzieli jedną parę głowic kluczy (keys) i wartości (values), co znacząco redukuje rozmiar pamięci podręcznej KV cache. Dzięki temu rozwiązaniu nowoczesne duże modele językowe osiągają wyższą wydajność wnioskowania i mniejsze zużycie pamięci VRAM przy minimalnej utracie jakości generowanych odpowiedzi.
Grouped Query Attention (GQA)
Reklama




