Paged attention to innowacyjna technika zarządzania pamięcią KV cache w dużych modelach językowych, inspirowana mechanizmem stronicowania w systemach operacyjnych. Polega ona na dzieleniu danych na mniejsze, niefizyczne bloki (strony), co eliminuje fragmentację pamięci i pozwala na jej dynamiczne przydzielanie oraz efektywne współdzielenie między różnymi sekwencjami. Dzięki temu rozwiązaniu możliwe jest znaczne zwiększenie przepustowości serwowania modeli oraz optymalne wykorzystanie zasobów procesora graficznego.
Reklama





