Gemma 4 – multimodalne modele Google DeepMind w ekosystemie open source • ŁowcyAI - Lokalne modele AI, prywatność i niezależność.

Google DeepMind opublikowało rodzinę modeli Gemma 4 – multimodalnych systemów przetwarzających tekst, obraz, dźwięk i wideo, dostępnych na licencji Apache 2.0. Modele trafiły do Hugging Face z natychmiastowym wsparciem popularnych narzędzi wnioskowania i fine-tuningu. To kontynuacja linii Gemma, która tym razem wyraźnie przesuwa granicę możliwości w stosunku do rozmiaru modelu.

Czym jest Gemma 4 i co go wyróżnia?

Rodzina składa się z czterech wariantów, dostępnych w wersji bazowej i instruction-tuned (IT). Poniżej zestawienie podstawowych parametrów:

Model	Efektywna liczba parametrów	Okno kontekstu	Obsługa audio
Gemma 4 E2B	2,3B (5,1B z embeddingami)	128k tokenów	Tak
Gemma 4 E4B	4,5B (8B z embeddingami)	128k tokenów	Tak
Gemma 4 31B	31B (gęsty)	256k tokenów	Nie
Gemma 4 26B A4B	4B aktywnych / 26B całość (MoE)	256k tokenów	Nie

Modele E2B i E4B obsługują audio, podczas gdy większe warianty (31B i 26B A4B) skupiają się na obrazie i tekście. Architektura Mixture-of-Experts w modelu 26B A4B pozwala osiągać rezultaty zbliżone do gęstego 31B przy zaledwie 4B aktywnych parametrach podczas inferencji.

Kluczowe innowacje architektoniczne

Gemma 4 łączy sprawdzone techniki z poprzednich wersji i wprowadza dwa ważne mechanizmy:

Per-Layer Embeddings (PLE) – każdy token otrzymuje dedykowany, mały wektor dla każdej warstwy dekodera, tworzony na podstawie tożsamości tokenu i jego kontekstu. Dzięki temu każda warstwa modelu może odczytywać specyficzną dla tokenu informację dokładnie wtedy, kiedy jest potrzebna – zamiast zmuszać model do „upakowania” wszystkiego w jeden embeding wejściowy. PLE ma znacznie mniejszy wymiar niż główna przestrzeń ukryta, co oznacza minimalny koszt parametrów przy realnym zysku jakościowym.
Shared KV Cache – ostatnie warstwy modelu nie obliczają własnych projekcji klucz-wartość, lecz ponownie wykorzystują tensory K i V z ostatniej warstwy niedzielonej tego samego typu uwagi. W praktyce oznacza to znacznie niższe zużycie pamięci i szybszą inferencję w długich kontekstach, przy minimalnym wpływie na jakość odpowiedzi.
Przemienne okna uwagi – warstwy naprzemiennie stosują lokalne okna przesuwne (512 lub 1024 tokeny) i pełny kontekst globalny, z podwójną konfiguracją RoPE dla każdego typu.
Elastyczny enkoder wizji – obsługuje zmienne proporcje obrazu i różne budżety tokenów (70, 140, 280, 560, 1120), pozwalając na balans między szybkością a jakością.
Enkoder audio USM-style – oparty na architekturze conformer, identycznej jak w Gemma-3n, trenowany na danych mowy (nie muzyki).

Możliwości multimodalne

Testy Hugging Face wykazały skuteczność Gemma 4 w szerokim zakresie zadań multimodalnych. Model rozpoznaje obiekty i zwraca ich współrzędne w formacie JSON bez dodatkowych instrukcji, obsługuje OCR dokumentów, transkrypcję mowy i odpowiadanie na pytania dotyczące nagrań audio. Obsługiwane są też wywołania narzędzi (function calling) zarówno dla wejść tekstowych, jak i graficznych – model potrafi np. zidentyfikować miasto na zdjęciu i automatycznie wywołać funkcję pobierającą dane pogodowe.

Wideo jest obsługiwane we wszystkich rozmiarach – mniejsze modele (E2B, E4B) mogą jednocześnie przetwarzać ścieżkę dźwiękową, podczas gdy większe analizują wyłącznie obraz. W testach kaptioningu wszystkie rozmiary modelu trafnie opisywały złożone sceny, uwzględniając szczegóły architektoniczne, lokalizację i elementy tła.

Wyniki benchmarków

Gemma 4 31B osiąga estymowany wynik 1452 w LMArena (tekst), a wariant MoE 26B A4B – 1441 przy zaledwie 4B aktywnych parametrach. W kluczowych testach reasoning i kodowania modele wypadają następująco:

MMLU Pro: 85,2% (31B), 82,6% (26B A4B) – wyraźna poprawa względem Gemma 3 27B (67,6%)
AIME 2026 (bez narzędzi): 89,2% (31B) i 88,3% (26B A4B) – bardzo wysoki wynik w matematyce
LiveCodeBench v6: 80,0% (31B) i 77,1% (26B A4B), wobec 29,1% dla Gemma 3 27B
MMMU Pro (wizja): 76,9% (31B) i 73,8% (26B A4B)
GPQA Diamond: 84,3% (31B) przy 42,4% dla poprzednika

Wdrożenie i fine-tuning

Gemma 4 otrzymała wsparcie pierwszego dnia w szerokim zestawie narzędzi open source:

Hugging Face Transformers – pipeline any-to-any oraz klasa AutoModelForMultimodalLM, kompatybilność z bitsandbytes, PEFT i TRL
llama.cpp – obsługa obrazu i tekstu, kompatybilność z OpenAI API, aplikacje lokalne (LM Studio, Jan)
MLX – pełna obsługa multimodalna na Apple Silicon z TurboQuant (4x mniej pamięci aktywnej przy zachowaniu jakości)
transformers.js – inferencja bezpośrednio w przeglądarce przez WebGPU
mistral.rs – natywny silnik w Rust z wbudowanym function calling
TRL (fine-tuning) – rozszerzono o obsługę multimodalnych odpowiedzi z narzędzi podczas treningu; przykład uczy model jazdy w symulatorze CARLA na podstawie obrazu z kamery
Unsloth Studio – interfejs graficzny do fine-tuningu, dostępny lokalnie i na Colab

Dla użytkowników chmury Google przygotowano przykład fine-tuningu na Vertex AI z użyciem TRL i kontenerów Docker, uruchamiany na akceleratorach NVIDIA H100.

Licencja i dostępność

Wszystkie modele Gemma 4 są dostępne na licencji Apache 2.0, co umożliwia swobodne użycie komercyjne i modyfikację. Checkpointy w formatach GGUF (llama.cpp), ONNX i natywnym Transformers są dostępne bezpośrednio na Hugging Face Hub. Modele można uruchamiać na urządzeniach końcowych – smartfonach, komputerach Apple Silicon – dzięki małym wariantom E2B i E4B z efektywnymi kilkoma miliardami parametrów.

Lokalny model

Modele też są dostępne w Ollamie pod tym adresem i po wywołaniu komendy

Bash

ollama run gemma4

ollama run gemma4

jeśli jeszcze nie korzystałeś z Ollamy i wdrażaniu modeli lokalnie zapoznaj się z poradnikiem dostępnym tutaj.

Gemma 4 – multimodalne modele Google DeepMind w ekosystemie open source

Czym jest Gemma 4 i co go wyróżnia?

Kluczowe innowacje architektoniczne

Możliwości multimodalne

Wyniki benchmarków

Wdrożenie i fine-tuning

Licencja i dostępność

Lokalny model

Źródła

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Czym jest Gemma 4 i co go wyróżnia?

Kluczowe innowacje architektoniczne

Możliwości multimodalne

Wyniki benchmarków

Wdrożenie i fine-tuning

Licencja i dostępność

Lokalny model

Źródła

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane posty

Pliki Cookie

Przegląd Prywatności

Niezbędne Cookies

Cookie preferencji

Marketingowe Cookies