Google DeepMind opublikowało rodzinę modeli Gemma 4 – multimodalnych systemów przetwarzających tekst, obraz, dźwięk i wideo, dostępnych na licencji Apache 2.0. Modele trafiły do Hugging Face z natychmiastowym wsparciem popularnych narzędzi wnioskowania i fine-tuningu. To kontynuacja linii Gemma, która tym razem wyraźnie przesuwa granicę możliwości w stosunku do rozmiaru modelu.
Czym jest Gemma 4 i co go wyróżnia?
Rodzina składa się z czterech wariantów, dostępnych w wersji bazowej i instruction-tuned (IT). Poniżej zestawienie podstawowych parametrów:
| Model | Efektywna liczba parametrów | Okno kontekstu | Obsługa audio |
|---|---|---|---|
| Gemma 4 E2B | 2,3B (5,1B z embeddingami) | 128k tokenów | Tak |
| Gemma 4 E4B | 4,5B (8B z embeddingami) | 128k tokenów | Tak |
| Gemma 4 31B | 31B (gęsty) | 256k tokenów | Nie |
| Gemma 4 26B A4B | 4B aktywnych / 26B całość (MoE) | 256k tokenów | Nie |
Modele E2B i E4B obsługują audio, podczas gdy większe warianty (31B i 26B A4B) skupiają się na obrazie i tekście. Architektura Mixture-of-Experts w modelu 26B A4B pozwala osiągać rezultaty zbliżone do gęstego 31B przy zaledwie 4B aktywnych parametrach podczas inferencji.
Kluczowe innowacje architektoniczne
Gemma 4 łączy sprawdzone techniki z poprzednich wersji i wprowadza dwa ważne mechanizmy:
- Per-Layer Embeddings (PLE) – każdy token otrzymuje dedykowany, mały wektor dla każdej warstwy dekodera, tworzony na podstawie tożsamości tokenu i jego kontekstu. Dzięki temu każda warstwa modelu może odczytywać specyficzną dla tokenu informację dokładnie wtedy, kiedy jest potrzebna – zamiast zmuszać model do „upakowania” wszystkiego w jeden embeding wejściowy. PLE ma znacznie mniejszy wymiar niż główna przestrzeń ukryta, co oznacza minimalny koszt parametrów przy realnym zysku jakościowym.
- Shared KV Cache – ostatnie warstwy modelu nie obliczają własnych projekcji klucz-wartość, lecz ponownie wykorzystują tensory K i V z ostatniej warstwy niedzielonej tego samego typu uwagi. W praktyce oznacza to znacznie niższe zużycie pamięci i szybszą inferencję w długich kontekstach, przy minimalnym wpływie na jakość odpowiedzi.
- Przemienne okna uwagi – warstwy naprzemiennie stosują lokalne okna przesuwne (512 lub 1024 tokeny) i pełny kontekst globalny, z podwójną konfiguracją RoPE dla każdego typu.
- Elastyczny enkoder wizji – obsługuje zmienne proporcje obrazu i różne budżety tokenów (70, 140, 280, 560, 1120), pozwalając na balans między szybkością a jakością.
- Enkoder audio USM-style – oparty na architekturze conformer, identycznej jak w Gemma-3n, trenowany na danych mowy (nie muzyki).
Możliwości multimodalne
Testy Hugging Face wykazały skuteczność Gemma 4 w szerokim zakresie zadań multimodalnych. Model rozpoznaje obiekty i zwraca ich współrzędne w formacie JSON bez dodatkowych instrukcji, obsługuje OCR dokumentów, transkrypcję mowy i odpowiadanie na pytania dotyczące nagrań audio. Obsługiwane są też wywołania narzędzi (function calling) zarówno dla wejść tekstowych, jak i graficznych – model potrafi np. zidentyfikować miasto na zdjęciu i automatycznie wywołać funkcję pobierającą dane pogodowe.
Wideo jest obsługiwane we wszystkich rozmiarach – mniejsze modele (E2B, E4B) mogą jednocześnie przetwarzać ścieżkę dźwiękową, podczas gdy większe analizują wyłącznie obraz. W testach kaptioningu wszystkie rozmiary modelu trafnie opisywały złożone sceny, uwzględniając szczegóły architektoniczne, lokalizację i elementy tła.
Wyniki benchmarków
Gemma 4 31B osiąga estymowany wynik 1452 w LMArena (tekst), a wariant MoE 26B A4B – 1441 przy zaledwie 4B aktywnych parametrach. W kluczowych testach reasoning i kodowania modele wypadają następująco:
- MMLU Pro: 85,2% (31B), 82,6% (26B A4B) – wyraźna poprawa względem Gemma 3 27B (67,6%)
- AIME 2026 (bez narzędzi): 89,2% (31B) i 88,3% (26B A4B) – bardzo wysoki wynik w matematyce
- LiveCodeBench v6: 80,0% (31B) i 77,1% (26B A4B), wobec 29,1% dla Gemma 3 27B
- MMMU Pro (wizja): 76,9% (31B) i 73,8% (26B A4B)
- GPQA Diamond: 84,3% (31B) przy 42,4% dla poprzednika
Wdrożenie i fine-tuning
Gemma 4 otrzymała wsparcie pierwszego dnia w szerokim zestawie narzędzi open source:
- Hugging Face Transformers – pipeline
any-to-anyoraz klasaAutoModelForMultimodalLM, kompatybilność z bitsandbytes, PEFT i TRL - llama.cpp – obsługa obrazu i tekstu, kompatybilność z OpenAI API, aplikacje lokalne (LM Studio, Jan)
- MLX – pełna obsługa multimodalna na Apple Silicon z TurboQuant (4x mniej pamięci aktywnej przy zachowaniu jakości)
- transformers.js – inferencja bezpośrednio w przeglądarce przez WebGPU
- mistral.rs – natywny silnik w Rust z wbudowanym function calling
- TRL (fine-tuning) – rozszerzono o obsługę multimodalnych odpowiedzi z narzędzi podczas treningu; przykład uczy model jazdy w symulatorze CARLA na podstawie obrazu z kamery
- Unsloth Studio – interfejs graficzny do fine-tuningu, dostępny lokalnie i na Colab
Dla użytkowników chmury Google przygotowano przykład fine-tuningu na Vertex AI z użyciem TRL i kontenerów Docker, uruchamiany na akceleratorach NVIDIA H100.
Licencja i dostępność
Wszystkie modele Gemma 4 są dostępne na licencji Apache 2.0, co umożliwia swobodne użycie komercyjne i modyfikację. Checkpointy w formatach GGUF (llama.cpp), ONNX i natywnym Transformers są dostępne bezpośrednio na Hugging Face Hub. Modele można uruchamiać na urządzeniach końcowych – smartfonach, komputerach Apple Silicon – dzięki małym wariantom E2B i E4B z efektywnymi kilkoma miliardami parametrów.
Lokalny model
Modele też są dostępne w Ollamie pod tym adresem i po wywołaniu komendy
ollama run gemma4jeśli jeszcze nie korzystałeś z Ollamy i wdrażaniu modeli lokalnie zapoznaj się z poradnikiem dostępnym tutaj.





