PTQ (Post-Training Quantization) to technika kompresji modeli AI, która polega na redukcji precyzji ich wag i aktywacji po zakończeniu procesu trenowania, zazwyczaj z formatu 32-bitowego do 8-bitowego lub niższego. Metoda ta pozwala na znaczne zmniejszenie rozmiaru modelu i przyspieszenie wnioskowania bez konieczności ponownego uczenia sieci, co ułatwia wdrażanie zaawansowanych algorytmów na urządzeniach o ograniczonych zasobach sprzętowych. Choć PTQ jest mniej złożone niż kwantyzacja podczas treningu, wymaga zastosowania niewielkiego zbioru danych kalibracyjnych w celu zminimalizowania utraty dokładności modelu.
PTQ (Post-Training Quantization)
Reklama





