Grouped GEMM to zaawansowana technika optymalizacji operacji macierzowych, która pozwala na wykonanie wielu niezależnych mnożeń macierzy o różnych rozmiarach w ramach jednego wywołania jądra obliczeniowego (kernel). Metoda ta jest kluczowa w modelach typu Mixture-of-Experts (MoE), ponieważ drastycznie redukuje narzut związany z wielokrotnym uruchamianiem małych operacji na GPU i poprawia wykorzystanie zasobów sprzętowych. W przeciwieństwie do standardowych operacji wsadowych, Grouped GEMM oferuje większą elastyczność, umożliwiając efektywne przetwarzanie grup danych o zmiennej geometrii.
grouped GEMM
Reklama




