Expert parallelism (równoległość ekspertów) to technika paralelizacji stosowana w modelach typu Mixture-of-Experts (MoE), polegająca na rozdzieleniu poszczególnych sieci ekspertów na różne urządzenia obliczeniowe, takie jak procesory GPU. Dzięki temu każde urządzenie przechowuje tylko fragment parametrów modelu, co pozwala na trenowanie i uruchamianie ogromnych sieci neuronowych przy ograniczonych zasobach pamięci VRAM. W procesie tym specjalny mechanizm bramkujący (router) dynamicznie kieruje poszczególne tokeny danych do odpowiednich ekspertów znajdujących się na konkretnych maszynach.
expert parallelism
Reklama




