DeepSeek V3 to zaawansowany model językowy typu Mixture-of-Experts (MoE), który posiada łącznie 671 miliardów parametrów, z czego 37 miliardów jest aktywowanych dla każdego tokenu. Wykorzystuje innowacyjne architektury, takie jak Multi-head Latent Attention (MLA), co zapewnia wysoką wydajność wnioskowania przy zachowaniu niskich kosztów trenowania. Model ten osiąga wyniki porównywalne z czołowymi systemami zamkniętymi, będąc jednocześnie udostępnionym jako rozwiązanie otwartoźródłowe.
📖 Dowiedz się więcej w kontekście:
Reklama





