Lightning Attention to wydajny mechanizm liniowej uwagi, który zapewnia stałą prędkość trenowania i niezmienne zużycie pamięci niezależnie od długości sekwencji danych. Rozwiązuje on problem wąskiego gardła operacji skumulowanego sumowania (cumsum) poprzez podział obliczeń na bloki wewnątrzwarstwowe i międzywarstwowe oraz zastosowanie techniki tilingu. Dzięki temu architektury takie jak TransNormerLLM mogą efektywnie przetwarzać bardzo długie konteksty przy zachowaniu wysokiej precyzji modeli.
Źródło: gov.pl




