AWQ (Activation-Weight Quantization) to zaawansowana technika kwantyzacji modeli AI, która chroni najważniejsze wagi w sieci neuronowej na podstawie rzeczywistych rozkładów aktywacji danych. Dzięki temu pozwala na znaczną redukcję rozmiaru modelu i przyspieszenie wnioskowania przy minimalnej utracie precyzji w porównaniu do tradycyjnych metod. Jest szczególnie efektywna w optymalizacji dużych modeli językowych (LLM) do pracy na sprzęcie o ograniczonych zasobach pamięci VRAM.
Reklama





