DeepSeek-V3 to zaawansowany model językowy typu Mixture-of-Experts (MoE), posiadający 671 miliardów parametrów, z których 37 miliardów jest aktywowanych dla każdego tokena. Model ten charakteryzuje się wysoką wydajnością obliczeniową i niskimi kosztami trenowania, oferując wyniki porównywalne z czołowymi systemami zamkniętymi, szczególnie w zadaniach matematycznych i programistycznych. Wykorzystuje innowacyjne rozwiązania, takie jak mechanizm Multi-head Latent Attention (MLA) oraz strategię równoważenia obciążenia bez strat pomocniczych.
DeepSeek-V3
Reklama





