Po sześciu latach przerwy OpenAI powróciło na scenę open source, udostępniając modele GPT-OSS 20B i 120B na licencji Apache 2.0. To przełomowe wydarzenie w świecie sztucznej inteligencji – pierwsza publiczna publikacja wagszych modeli od czasów GPT-2 w 2019 roku oznacza radykalną zmianę strategii jednej z najbardziej wpływowych firm AI.
Architektura Mixture of Experts z kwantyzacją MXFP4
Modele GPT-OSS wykorzystują zaawansowaną architekturę Mixture of Experts (MoE) z odpowiednio 32 ekspertami w modelu 20B i 128 ekspertami w wersji 120B. Kluczową innowacją jest zastosowanie formatu MXFP4 (Microscaling FP4) do kwantyzacji wag eksperckich, które stanowią około 90% wszystkich parametrów modelu.
MXFP4 to 4-bitowy format zmiennoprzecinkowy wprowadzony przez Open Compute Project, który wykorzystuje reprezentację E2M1 (2 bity eksponent, 1 bit mantysa) z współdzielonym 8-bitowym skalowaniem dla bloków 32 elementów. Ta technologia umożliwia znaczące zmniejszenie zużycia pamięci – model 120B mieści się w 80GB VRAM, a model 20B wymaga jedynie 16GB pamięci.
Wsparcie sprzętowe i ekosystem wdrożeniowy
Modele GPT-OSS otrzymują natywne wsparcie w architekturze NVIDIA Blackwell oraz zoptymalizowane kernele dla GPU Hopper poprzez framework Triton. Współpraca z Ollama zapewnia łatwą instalację lokalną za pomocą prostych komend ollama run gpt-oss:20b i ollama run gpt-oss:120b.
Ekosystem wspierających narzędzi obejmuje vLLM, Hugging Face, oraz integracje z platformami chmurowymi takimi jak Amazon, Microsoft i Baseten. Ta szeroka kompatybilność umożliwia elastyczne wdrażanie zarówno lokalnie, jak i w chmurze.
Bezpieczeństwo i framework oceny ryzyka
OpenAI zastosowało kompleksowy proces oceny bezpieczeństwa w ramach swojego Preparedness Framework. Modele przeszły rigorystyczne testy na złośliwe fine-tuning w domenach biologii i cyberbezpieczeństwa, wykazując wydajność poniżej progów wysokiego ryzyka.
Firma współpracowała z trzema niezależnymi grupami ekspertów w celu walidacji metodologii oceny ryzyka i przeprowadziła symulacje potencjalnego nadużycia przez złośliwych aktorów. Wyniki tych analiz przyczyniły się do decyzji o publicznym wydaniu modeli.
| Model | Parametry | Pamięć | Eksperci MoE | Kontekst |
|---|---|---|---|---|
| GPT-OSS-20B | 20 miliardów | 16GB | 32 | 128K tokenów |
| GPT-OSS-120B | 120 miliardów | 80GB | 128 | 128K tokenów |
Implementacja
Jeśli zdecydujesz się na ollamę to implementacja w kodzie występuje następująco:
import ollama
response = ollama.chat(
model='gpt-oss:20b', #lub gpt-oss:120b, nie zapomnij wcześniej pobrać
messages=[{
'role': 'user',
'content': "Prompt użytkownika"
}]
)
print(response['message']['content'])Praktyczne zastosowania i możliwości dostosowania
Licencja Apache 2.0 umożliwia nieograniczone użycie komercyjne, modyfikacje i redystrybucję bez restrykcji copyleft. Deweloperzy mogą przeprowadzać pełne fine-tuning parametrów, dostosowywać poziom wysiłku rozumowania (niski, średni, wysoki) oraz uzyskiwać dostęp do kompletnego łańcucha myślenia modelu.
Modele wspierają natywne wywołania funkcji, przeglądanie internetu oraz wykonywanie kodu Python w ramach format odpowiedzi Harmony. Ta funkcjonalność czyni je szczególnie przydatnymi do zadań agentalnych i złożonych problemów wymagających wieloetapowego rozumowania.
Wydanie GPT-OSS reprezentuje znaczący krok w demokratyzacji dostępu do zaawansowanych modeli AI, oferując organizacjom pełną kontrolę nad wdrażaniem przy zachowaniu wysokich standardów bezpieczeństwa i wydajności. To przełomowe posunięcie może znacząco wpłynąć na konkurencyjność ekosystemu open source względem rozwiązań własnościowych.





