8-bit quantization

Kwantyzacja 8-bitowa to technika kompresji modeli językowych, która polega na redukcji precyzji ich wag z formatu 16-bitowego lub 32-bitowego do 8 bitów. Pozwala to na znaczne zmniejszenie rozmiaru modelu i obniżenie wymagań dotyczących pamięci VRAM przy zachowaniu wysokiej jakości generowanych odpowiedzi. Dzięki temu zaawansowane modele sztucznej inteligencji mogą być uruchamiane na słabszym sprzęcie konsumenckim.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry