paged attention

Paged attention to innowacyjna technika zarządzania pamięcią KV cache w dużych modelach językowych, inspirowana mechanizmem stronicowania w systemach operacyjnych. Polega ona na dzieleniu danych na mniejsze, niefizyczne bloki (strony), co eliminuje fragmentację pamięci i pozwala na jej dynamiczne przydzielanie oraz efektywne współdzielenie między różnymi sekwencjami. Dzięki temu rozwiązaniu możliwe jest znaczne zwiększenie przepustowości serwowania modeli oraz optymalne wykorzystanie zasobów procesora graficznego.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry