AWQ

AWQ (Activation-aware Weight Quantization) to wydajna technika kompresji modeli językowych, która minimalizuje błędy kwantyzacji poprzez identyfikację i ochronę najważniejszych wag na podstawie statystyk aktywacji. Metoda ta stosuje skalowanie poszczególnych kanałów zamiast ich reorderyzacji, co pozwala na znaczne zmniejszenie zapotrzebowania na pamięć VRAM przy zachowaniu wysokiej wydajności i dokładności modelu na różnych sprzętach.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry