DeepSeek Przedstawia Model V3.2-Exp z Technologią Sparse Attention

zajawka nowosci

Chińska firma DeepSeek zaprezentowała 29 września 2025 roku eksperymentalny model V3.2-Exp, który stanowi krok pośredni w kierunku architektury następnej generacji. Nowe rozwiązanie wprowadza przełomową technologię DeepSeek Sparse Attention (DSA), która ma znacząco poprawić efektywność przetwarzania długich sekwencji tekstu przy jednoczesnym obniżeniu kosztów obliczeniowych.

Innowacyjna Architektura Sparse Attention

Model V3.2-Exp bazuje na architekturze V3.1-Terminus, ale wprowadza mechanizm rzadkiej uwagi jako kluczową innowację. Technologia DSA składa się z dwóch głównych modułów: indeksatora Lightning, który priorytetyzuje istotne fragmenty kontekstu, oraz systemu precyzyjnego wyboru tokenów. Ten mechanizm pozwala modelowi selektywnie obliczać wagi uwagi, co dramatycznie redukuje złożoność obliczeniową przy zachowaniu jakości wyników.

System rzadkiej uwagi jest szczególnie skuteczny w scenariuszach wymagających analizy długich dokumentów i konwersacji. Poprzez ograniczenie okna uwagi do najbardziej relevantnych fragmentów, model może operować na większych blokach tekstu bez proporcjonalnego wzrostu zapotrzebowania na moc obliczeniową.

Znaczące Obniżenie Kosztów

DeepSeek ogłosił redukcję cen API o ponad 50% w porównaniu do poprzedniej wersji modelu. Koszt przetwarzania danych wejściowych może wynosić nawet 0,07 dolara za milion tokenów przy wykorzystaniu pamięci podręcznej. Ta drastyczna obniżka kosztów ma na celu zwiększenie dostępności zaawansowanych modeli językowych dla deweloperów i przedsiębiorstw.

Specyfikacja Techniczna

Model V3.2-Exp zachowuje 671 miliardów parametrów z bazowej architektury V3.1-Terminus, ale oferuje ulepszoną wydajność w przetwarzaniu długich kontekstów. Wspiera format liczb FP8 (Floating Point 8), który oszczędza pamięć i przyspiesza obliczenia, a także pracuje nad implementacją BF16 dla większej precyzji. Kontekst wynosi 128K tokenów dla obu trybów pracy.

Praktyczne Zastosowania

Nowa architektura znajduje szczególne zastosowanie w obszarach wymagających analizy obszernej dokumentacji, takich jak:

  • Przetwarzanie długich dokumentów prawnych i technicznych
  • Analiza rozbudowanych konwersacji i sesji czatu
  • Badania naukowe wymagające przetwarzania dużych korpusów tekstowych
  • Systemy wsparcia klienta obsługujące złożone zapytania

Model jest dostępny jako open-source na platformie Hugging Face, co umożliwia niezależne testy i weryfikację przez społeczność deweloperów. DeepSeek udostępnił również kompletny kod inferencyjny i jądra CUDA dla różnych platform wdrożeniowych.

Model V3.2-Exp stanowi pośredni krok w kierunku architektury następnej generacji, demonstrując potencjał mechanizmów rzadkiej uwagi w optymalizacji wydajności modeli językowych przy zachowaniu jakości wyników.

Wprowadzenie tego modelu wpisuje się w strategię DeepSeek konkurowania z amerykańskimi gigantami technologicznymi poprzez oferowanie wydajniejszych kosztowo rozwiązań AI, co może zintensyfikować rywalizację na globalnym rynku sztucznej inteligencji.

Źródła

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry
Hej. Nie zapomnij podzielić się opinią oraz udostępnić dalej.