KV-cache reuse

KV-cache reuse to technika optymalizacji wnioskowania w modelach językowych, która polega na zachowywaniu i ponownym wykorzystywaniu obliczonych już tensorów kluczy i wartości (KV) dla powtarzających się fragmentów tekstu. Dzięki unikaniu redundantnych obliczeń w fazie prefill, metoda ta znacząco skraca czas do wygenerowania pierwszego tokenu (TTFT) oraz zmniejsza obciążenie procesora graficznego. Jest szczególnie efektywna w scenariuszach z długimi, stałymi kontekstami, takimi jak systemowe prompty, obszerne dokumenty czy wieloturowe konwersacje.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry