ZeRO-3

ZeRO-3 (Zero Redundancy Optimizer Stage 3) to najbardziej zaawansowany poziom optymalizacji pamięci w bibliotece DeepSpeed, który polega na pełnym partycjonowaniu parametrów modelu, gradientów oraz stanów optymalizatora pomiędzy wszystkie dostępne procesory GPU. Dzięki temu zapotrzebowanie na pamięć VRAM maleje liniowo wraz z liczbą urządzeń, co umożliwia trenowanie ogromnych modeli językowych, które nie mieściłyby się w całości na pojedynczej karcie graficznej. Technika ta eliminuje redundancję danych charakterystyczną dla standardowego paralelizmu danych, zachowując przy tym wysoką efektywność obliczeniową.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry