AWQ (Activation-aware Weight Quantization) to sprzętowo wydajna metoda kwantyzacji modeli AI, która chroni najważniejsze wagi sieci poprzez analizę rozkładu aktywacji. Dzięki zastosowaniu skalowania kanałów zamiast ich przeorganizowania, technika ta pozwala na znaczną redukcję rozmiaru modelu do 3 lub 4 bitów przy zachowaniu wysokiej precyzji i szybkości działania. Jest to rozwiązanie szczególnie skuteczne w optymalizacji dużych modeli językowych (LLM) do pracy na urządzeniach konsumenckich i brzegowych.
📖 Dowiedz się więcej w kontekście:
Reklama





