prefill

Prefill to wstępna faza wnioskowania modelu LLM, podczas której system przetwarza jednocześnie cały prompt wejściowy, aby wygenerować pierwszy token odpowiedzi oraz utworzyć pamięć podręczną KV cache. Etap ten charakteryzuje się wysokim stopniem równoległości obliczeń i bezpośrednio wpływa na opóźnienie mierzone jako czas do uzyskania pierwszego tokena (TTFT). Wykorzystanie zapisanych w tej fazie danych pozwala na znacznie szybsze i efektywniejsze generowanie kolejnych elementów tekstu w następującym po niej etapie dekodowania.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry