Chunked prefill to technika optymalizacji wnioskowania w modelach LLM, która polega na dzieleniu długich zapytań wejściowych na mniejsze fragmenty (chunki) przetwarzane sekwencyjnie. Metoda ta pozwala na lepsze wykorzystanie zasobów GPU poprzez równoległe wykonywanie fazy prefill z fazą decode, co znacząco redukuje opóźnienia między tokenami i stabilizuje zużycie pamięci VRAM.
Źródło: donmoon.medium.com



