Gemma 4 – multimodalne modele Google DeepMind w ekosystemie open source

zajawka nowosci

Google DeepMind opublikowało rodzinę modeli Gemma 4 – multimodalnych systemów przetwarzających tekst, obraz, dźwięk i wideo, dostępnych na licencji Apache 2.0. Modele trafiły do Hugging Face z natychmiastowym wsparciem popularnych narzędzi wnioskowania i fine-tuningu. To kontynuacja linii Gemma, która tym razem wyraźnie przesuwa granicę możliwości w stosunku do rozmiaru modelu.

Czym jest Gemma 4 i co go wyróżnia?

Rodzina składa się z czterech wariantów, dostępnych w wersji bazowej i instruction-tuned (IT). Poniżej zestawienie podstawowych parametrów:

ModelEfektywna liczba parametrówOkno kontekstuObsługa audio
Gemma 4 E2B2,3B (5,1B z embeddingami)128k tokenówTak
Gemma 4 E4B4,5B (8B z embeddingami)128k tokenówTak
Gemma 4 31B31B (gęsty)256k tokenówNie
Gemma 4 26B A4B4B aktywnych / 26B całość (MoE)256k tokenówNie

Modele E2B i E4B obsługują audio, podczas gdy większe warianty (31B i 26B A4B) skupiają się na obrazie i tekście. Architektura Mixture-of-Experts w modelu 26B A4B pozwala osiągać rezultaty zbliżone do gęstego 31B przy zaledwie 4B aktywnych parametrach podczas inferencji.

Kluczowe innowacje architektoniczne

Gemma 4 łączy sprawdzone techniki z poprzednich wersji i wprowadza dwa ważne mechanizmy:

  • Per-Layer Embeddings (PLE) – każdy token otrzymuje dedykowany, mały wektor dla każdej warstwy dekodera, tworzony na podstawie tożsamości tokenu i jego kontekstu. Dzięki temu każda warstwa modelu może odczytywać specyficzną dla tokenu informację dokładnie wtedy, kiedy jest potrzebna – zamiast zmuszać model do „upakowania” wszystkiego w jeden embeding wejściowy. PLE ma znacznie mniejszy wymiar niż główna przestrzeń ukryta, co oznacza minimalny koszt parametrów przy realnym zysku jakościowym.
  • Shared KV Cache – ostatnie warstwy modelu nie obliczają własnych projekcji klucz-wartość, lecz ponownie wykorzystują tensory K i V z ostatniej warstwy niedzielonej tego samego typu uwagi. W praktyce oznacza to znacznie niższe zużycie pamięci i szybszą inferencję w długich kontekstach, przy minimalnym wpływie na jakość odpowiedzi.
  • Przemienne okna uwagi – warstwy naprzemiennie stosują lokalne okna przesuwne (512 lub 1024 tokeny) i pełny kontekst globalny, z podwójną konfiguracją RoPE dla każdego typu.
  • Elastyczny enkoder wizji – obsługuje zmienne proporcje obrazu i różne budżety tokenów (70, 140, 280, 560, 1120), pozwalając na balans między szybkością a jakością.
  • Enkoder audio USM-style – oparty na architekturze conformer, identycznej jak w Gemma-3n, trenowany na danych mowy (nie muzyki).

Możliwości multimodalne

Testy Hugging Face wykazały skuteczność Gemma 4 w szerokim zakresie zadań multimodalnych. Model rozpoznaje obiekty i zwraca ich współrzędne w formacie JSON bez dodatkowych instrukcji, obsługuje OCR dokumentów, transkrypcję mowy i odpowiadanie na pytania dotyczące nagrań audio. Obsługiwane są też wywołania narzędzi (function calling) zarówno dla wejść tekstowych, jak i graficznych – model potrafi np. zidentyfikować miasto na zdjęciu i automatycznie wywołać funkcję pobierającą dane pogodowe.

Wideo jest obsługiwane we wszystkich rozmiarach – mniejsze modele (E2B, E4B) mogą jednocześnie przetwarzać ścieżkę dźwiękową, podczas gdy większe analizują wyłącznie obraz. W testach kaptioningu wszystkie rozmiary modelu trafnie opisywały złożone sceny, uwzględniając szczegóły architektoniczne, lokalizację i elementy tła.

Wyniki benchmarków

Gemma 4 31B osiąga estymowany wynik 1452 w LMArena (tekst), a wariant MoE 26B A4B – 1441 przy zaledwie 4B aktywnych parametrach. W kluczowych testach reasoning i kodowania modele wypadają następująco:

  • MMLU Pro: 85,2% (31B), 82,6% (26B A4B) – wyraźna poprawa względem Gemma 3 27B (67,6%)
  • AIME 2026 (bez narzędzi): 89,2% (31B) i 88,3% (26B A4B) – bardzo wysoki wynik w matematyce
  • LiveCodeBench v6: 80,0% (31B) i 77,1% (26B A4B), wobec 29,1% dla Gemma 3 27B
  • MMMU Pro (wizja): 76,9% (31B) i 73,8% (26B A4B)
  • GPQA Diamond: 84,3% (31B) przy 42,4% dla poprzednika

Wdrożenie i fine-tuning

Gemma 4 otrzymała wsparcie pierwszego dnia w szerokim zestawie narzędzi open source:

  • Hugging Face Transformers – pipeline any-to-any oraz klasa AutoModelForMultimodalLM, kompatybilność z bitsandbytes, PEFT i TRL
  • llama.cpp – obsługa obrazu i tekstu, kompatybilność z OpenAI API, aplikacje lokalne (LM Studio, Jan)
  • MLX – pełna obsługa multimodalna na Apple Silicon z TurboQuant (4x mniej pamięci aktywnej przy zachowaniu jakości)
  • transformers.js – inferencja bezpośrednio w przeglądarce przez WebGPU
  • mistral.rs – natywny silnik w Rust z wbudowanym function calling
  • TRL (fine-tuning) – rozszerzono o obsługę multimodalnych odpowiedzi z narzędzi podczas treningu; przykład uczy model jazdy w symulatorze CARLA na podstawie obrazu z kamery
  • Unsloth Studio – interfejs graficzny do fine-tuningu, dostępny lokalnie i na Colab

Dla użytkowników chmury Google przygotowano przykład fine-tuningu na Vertex AI z użyciem TRL i kontenerów Docker, uruchamiany na akceleratorach NVIDIA H100.

Licencja i dostępność

Wszystkie modele Gemma 4 są dostępne na licencji Apache 2.0, co umożliwia swobodne użycie komercyjne i modyfikację. Checkpointy w formatach GGUF (llama.cpp), ONNX i natywnym Transformers są dostępne bezpośrednio na Hugging Face Hub. Modele można uruchamiać na urządzeniach końcowych – smartfonach, komputerach Apple Silicon – dzięki małym wariantom E2B i E4B z efektywnymi kilkoma miliardami parametrów.

Lokalny model

Modele też są dostępne w Ollamie pod tym adresem i po wywołaniu komendy

Bash
ollama run gemma4

jeśli jeszcze nie korzystałeś z Ollamy i wdrażaniu modeli lokalnie zapoznaj się z poradnikiem dostępnym tutaj.

Źródła

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry
Hej. Nie zapomnij podzielić się opinią oraz udostępnić dalej.