ZeRO-1 (Zero Redundancy Optimizer Stage 1) to technika optymalizacji pamięci stosowana podczas trenowania ogromnych modeli sztucznej inteligencji, która polega na partycjonowaniu stanów optymalizatora pomiędzy dostępne jednostki GPU. Dzięki wyeliminowaniu redundancji w przechowywaniu wag optymalizatora, metoda ta pozwala na znaczną redukcję zużycia pamięci VRAM przy zachowaniu pełnej wydajności obliczeniowej. Jest to pierwszy etap optymalizacji w ramach frameworku DeepSpeed, umożliwiający efektywne szkolenie modeli o większej liczbie parametrów na mniejszej liczbie układów graficznych.
ZeRO-1
Reklama





