Kwantyzacja INT4 to zaawansowana technika kompresji modeli AI, która polega na redukcji precyzji wag i parametrów sieci neuronowej do 4 bitów. Pozwala to na ośmiokrotne zmniejszenie rozmiaru modelu w porównaniu do formatu FP32 oraz znaczące przyspieszenie wnioskowania, umożliwiając uruchamianie dużych modeli językowych na urządzeniach z ograniczoną pamięcią VRAM.
📖 Dowiedz się więcej w kontekście:
Reklama





