Post-Training Quantization (PTQ) to technika optymalizacji modeli AI, która polega na redukcji precyzji wag i aktywacji już wytrenowanej sieci, np. z formatu FP32 do INT8, bez konieczności ponownego trenowania. Proces ten wykorzystuje kalibrację na niewielkim zbiorze danych, co pozwala na znaczne zmniejszenie rozmiaru modelu i przyspieszenie wnioskowania przy minimalnej utracie dokładności. Dzięki PTQ zaawansowane modele, takie jak LLM, mogą być efektywnie uruchamiane na urządzeniach o ograniczonych zasobach sprzętowych, w tym na procesorach graficznych klasy konsumenckiej lub jednostkach CPU.
Post-Training Quantization (PTQ)
Reklama





