Post-training quantization (PTQ) to technika kompresji modeli sztucznej inteligencji, która polega na konwersji wag i aktywacji z formatu wysokiej precyzji na formaty niższej precyzji, takie jak INT8, już po zakończeniu procesu trenowania. Metoda ta pozwala na znaczne zmniejszenie rozmiaru modelu oraz przyspieszenie wnioskowania na urządzeniach o ograniczonych zasobach sprzętowych bez konieczności ponownego uczenia sieci. Głównym celem PTQ jest optymalizacja wydajności i zużycia energii przy jednoczesnym zachowaniu akceptowalnego poziomu dokładności modelu.
post-training quantization
Reklama





