AWQ (Activation-aware Weight Quantization) to wydajna technika kompresji modeli językowych, która minimalizuje błędy kwantyzacji poprzez identyfikację i ochronę najważniejszych wag na podstawie statystyk aktywacji. Metoda ta stosuje skalowanie poszczególnych kanałów zamiast ich reorderyzacji, co pozwala na znaczne zmniejszenie zapotrzebowania na pamięć VRAM przy zachowaniu wysokiej wydajności i dokładności modelu na różnych sprzętach.
📖 Dowiedz się więcej w kontekście:
Reklama





