Spis treści
- Open Source’owy model generacji wideo od Alibaby wkracza na scenę AI
- OpenSSF wzmacnia bezpieczeństwo sztucznej inteligencji w rozwijających się ekosystemach
- Microsoft wprowadza własne modele AI – nowa era konkurencji z OpenAI
- Nowe Modele AI Hermes 4
Open Source’owy model generacji wideo od Alibaby wkracza na scenę AI
Świat generacji wideo z użyciem sztucznej inteligencji jest świadkiem dynamicznego rozwoju, a chińskie firmy technologiczne systematycznie umacniają swoją pozycję na tym rynku. Alibaba, jeden z największych gigantów technologicznych w Chinach, niedawno wprowadził na rynek swój najnowszy model generacji wideo – Wan2.1, który został udostępniony jako rozwiązanie open source i zdobył uznanie jako jeden z najlepszych dostępnych modeli.
Przełomowe osiągnięcia techniczne
Model Wan2.1 od Alibaby wyróżnia się na tle konkurencji kilkoma kluczowymi cechami technicznymi. Przede wszystkim, jest to pierwszy model generacji wideo zdolny do tworzenia zawartości tekstowej zarówno w języku chineskim, jak i angielskim, co stanowi znaczący postęp w dziedzinie wielojęzyczności. System został zbudowany w oparciu o architekturę Diffusion Transformer, wykorzystując zaawansowany 3D VAE (Variational Autoencoder) o nazwie Wan-VAE, który umożliwia kodowanie i dekodowanie nieograniczonych długościowo filmów w rozdzielczości 1080p bez utraty informacji temporalnej.
Wydajność modelu została potwierdzona na benchmark’u VBench, gdzie Wan2.1 osiągnął wynik 86,22%, plasując się na pierwszym miejscu wśród wszystkich dostępnych modeli – zarówno open source, i komercyjnych. To szczególnie istotne osiągnięcie, ponieważ Wan2.1 jest jedynym modelem open source w pierwszej piątce rankingu VBench.
Różnorodność zastosowań i modeli
Alibaba udostępniła cztery różne wersje modelu w ramach serii Wan2.1. Największy model T2V-14B zawiera 14 miliardów parametrów i obsługuje generację wideo w rozdzielczościach 480p i 720p. Dla użytkowników o ograniczonych zasobach sprzętowych dostępny jest również model T2V-1.3B, który wymaga jedynie 8,19 GB pamięci VRAM, co czyni go kompatybilnym z niemal wszystkimi kartami graficznymi klasy konsumenckiej.
Model obsługuje szerokie spektrum zadań:
- Generacja wideo z tekstu (Text-to-Video)
- Generacja wideo z obrazu (Image-to-Video)
- Edycja wideo
- Generacja obrazu z tekstu
- Generacja audio do wideo
Pozycja na globalnym rynku
Wprowadzenie modelu Wan2.1 wpisuje się w szerszy trend dominacji chińskich firm technologicznych na rynku generacji wideo AI. Globalny rynek generatorów wideo AI jest wyceniany na 534,4 miliona dolarów w 2024 roku, z prognozowanym wzrostem do 2,5 miliarda dolarów do 2032 roku przy rocznej stopie wzrostu wynoszącej 19,5%. Region Azji i Pacyfiku, z Chinami na czele, odpowiada za 31,40% globalnych przychodów na tym rynku.
Chińskie modele, takie jak Kling AI od Kuaishou czy CogVideoX od Zhipu AI, już wcześniej zdobyły uznanie na międzynarodowych listach rankingowych. Wan2.1 kontynuuje tę tendencję, oferując jednocześnie przewagę w postaci otwartego kodu źródłowego, co pozwala na swobodne modyfikacje i dostosowanie do specyficznych potrzeb.
Praktyczne zastosowania w branży
Model Wan2.1 znajduje zastosowanie w różnorodnych sektorach gospodarki. Jego zdolność do generowania tekstu w filmach czyni go szczególnie wartościowym dla twórców treści edukacyjnych, marketingowych i rozrywkowych. Niska bariera wejścia w postaci wymagań sprzętowych sprawia, że technologia staje się dostępna dla małych zespołów produkcyjnych i niezależnych twórców.
W porównaniu z konkurencyjnymi rozwiązaniami, takimi jak CogVideoX-5B czy HunyuanVideo, Wan2.1 wyróżnia się szczególnie w zakresie precyzji wykonywania instrukcji tekstowych oraz jakości generowanych ruchów. Model demonstruje również lepszą wydajność w zadaniach wymagających zachowania spójności stylistycznej między klatkami.
Wan2.1 reprezentuje nową generację modeli AI, które łączą wysoką jakość generacji wideo z dostępnością rozwiązań open source, co może znacząco wpłynąć na demokratyzację narzędzi do tworzenia treści audiowizualnych.
OpenSSF wzmacnia bezpieczeństwo sztucznej inteligencji w rozwijających się ekosystemach
Open Source Security Foundation (OpenSSF), inicjatywa Linux Foundation skupiona na bezpieczeństwie oprogramowania open source, intensyfikuje działania w zakresie zabezpieczania systemów AI i ML. Podczas Community Day Europe w Amsterdamie fundacja przedstawiła kluczowe osiągnięcia, w tym wydanie przewodnika MLSecOps oraz nagrodzenie wybitnych członków społeczności nagrodami Golden Egg Award.
Nowy przewodnik bezpieczeństwa dla potoków AI/ML
Grupa robocza AI/ML Security Working Group opublikowała dokument techniczny “Visualizing Secure MLOps (MLSecOps): A Practical Guide for Building Robust AI/ML Pipeline Security”. Przewodnik mapuje zagrożenia OWASP ML Top 10 na poszczególne etapy cyklu MLOps i przedstawia konkretne narzędzia open source do ich neutralizacji, w tym Sigstore i OpenSSF Scorecard. Dokument skierowany jest do inżynierów AI/ML, data scientists i zespołów DevOps, którzy potrzebują praktycznych wskazówek w zakresie bezpieczeństwa systemów uczenia maszynowego.
Przewodnik wprowadza koncepcję MLSecOps jako rozszerzenie sprawdzonych praktyk DevSecOps na środowiska AI/ML. Identyfikuje unikalne wyzwania związane z bezpieczeństwem systemów uczenia maszynowego, takie jak ciągłe szkolenie modeli, zarządzanie proweniencją modeli czy trudności w ocenie ryzyka. Dokument zawiera wizualne modele mapujące cykle życia MLOps i MLSecOps oraz rekomendacje dotyczące wykorzystania frameworków open source.
Uznanie dla wybitnych członków społeczności
OpenSSF przyznało nagrody Golden Egg Award pięciu osobom za ich wkład w bezpieczeństwo projektów open source. Nagrodzeni zostali:
- Ben Cotton (Kusari) – za pracę nad GUAC i Open Source Project Security Baseline
- Kairo de Araujo (Eclipse Foundation) – za utrzymanie RSTUF i udział w grupie roboczej Securing Software Repositories
- Katherine Druckman (Independent) – za rozwój społeczności i relacje z developerami
- Eddie Knight (Sonatype) – za rozwój OSPS Baseline i tworzenie kursów edukacyjnych
- Georg Kunz (Ericsson) – za przywództwo w grupie roboczej Best Practices
Golden Egg Award symbolizuje wdzięczność za oddaną pracę na rzecz zabezpieczania projektów open source poprzez zaangażowanie społeczności, inżynierię i innowacyjne przywództwo.
Inicjatywy polityki cyberbezpieczeństwa
Fundacja uruchomiła globalną grupę roboczą Global Cyber Policy Working Group, która koncentruje się na współpracy w zakresie międzynarodowych przepisów dotyczących cyberbezpieczeństwa. Pierwszym obszarem działania jest unijna ustawa Cyber Resilience Act (CRA). OpenSSF opublikowało przewodnik “CRA Brief Guide for OSS Developers” wraz z bezpłatnym kursem online “Understanding the EU Cyber Resilience Act”.
CRA wprowadza obowiązkowe wymogi cyberbezpieczeństwa dla produktów dystrybuowanych na rynku europejskim, w tym oprogramowania. Chociaż większość projektów open source nie podlega bezpośrednio CRA, ustawa wpłynie na organizacje wykorzystujące kod open source w produktach komercyjnych. OpenSSF przewiduje zwiększone zapotrzebowanie na dokumentację bezpieczeństwa i formalne procesy zgłaszania podatności w projektach open source.
Framework kompetencji cyberbezpieczeństwa
We współpracy z Linux Foundation Education, OpenSSF wprowadził Cybersecurity Skills Framework – globalny przewodnik pomagający organizacjom identyfikować i rozwijać kluczowe kompetencje cyberbezpieczeństwa. Framework definiuje oczekiwania na poziomach podstawowym, średniozaawansowanym i zaawansowanym, mapując je do uznanych standardów takich jak DoD 8140, CISA NICE Framework czy ICT e-CF.
Narzędzie obejmuje role od programistów webowych i aplikacji, przez inżynierów DevOps, po kierowników projektów IT i architektów. Celem jest przygotowanie wszystkich, którzy mają kontakt z systemami technologicznymi, do ponoszenia odpowiedzialności za bezpieczeństwo, nie tylko specjalistów ds. cyberbezpieczeństwa.
Praktyczne zastosowania
Opisane inicjatywy mają bezpośrednie zastosowanie w organizacjach rozwijających systemy AI/ML. Przewodnik MLSecOps dostarcza konkretnych narzędzi i metodologii do zabezpieczania cyklu życia modeli uczenia maszynowego. Cybersecurity Skills Framework pomaga w identyfikacji luk kompetencyjnych w zespołach i planowaniu szkoleń. Działania związane z CRA przygotowują organizacje na nadchodzące wymogi regulacyjne w Europie.
OpenSSF, wspierana przez ponad 118 organizacji członkowskich i 1519 współtwórców technicznych, pozycjonuje się jako neutralny partner dla projektów open source w obszarze bezpieczeństwa. Fundacja planuje kontynuację zaangażowania w Europie, w tym udział w Linux Foundation Europe Member Summit i European Open Source Security Forum w Brukseli.
Microsoft wprowadza własne modele AI – nowa era konkurencji z OpenAI
Microsoft ogłosił uruchomienie dwóch pierwszych własnych modeli sztucznej inteligencji, MAI-Voice-1 i MAI-1-Preview, co oznacza strategiczną zmianę w podejściu giganta technologicznego do rozwoju AI. Dotychczas firma w głównej mierze opierała się na modelach OpenAI do zasilania swoich produktów Copilot, ale nowe rozwiązania sygnalizują rosnącą niezależność i bezpośrednią konkurencję z twórcą ChatGPT.
Charakterystyka techniczne nowych modeli
MAI-Voice-1 to zaawansowany model syntezy mowy, który wyróżnia się wyjątkową wydajnością obliczeniową. System potrafi wygenerować minutę naturalnie brzmiącego audio w czasie krótszym niż sekunda, wykorzystując przy tym jedynie pojedynczy procesor graficzny GPU. Ta wysoka efektywność obliczeniowa czyni go jednym z najszybszych dostępnych systemów syntezy mowy na rynku.
Model obsługuje zarówno scenariusze jedno-, jak i wielogłosowe, oferując ekspresyjne i kontekstowo odpowiednie wyjście audio. Jego architektura oparta na transformerach została wytrenowana na zróżnicowanym wielojęzycznym zbiorze danych mowy. MAI-Voice-1 jest już zintegrowany z produktami Microsoftu, takimi jak Copilot Daily, gdzie służy do tworzenia głosowych aktualizacji i streszczeń wiadomości.
MAI-1-Preview stanowi pierwszy kompleksowy model językowy opracowany przez Microsoft od podstaw. Jest to rozwiązanie typu “mixture-of-experts”, które zostało wytrenowane z wykorzystaniem około 15 000 procesorów graficznych NVIDIA H100. To znacznie mniej niż ponad 100 000 GPU używanych przez konkurentów, takich jak xAI przy treningu modelu Grok.
Pozycja na rynku i wydajność
W rankingu LMArena, platformie służącej do porównywania wydajności modeli językowych, MAI-1-Preview zajmuje obecnie 13. pozycję. Wyprzedzają go modele firm takich jak OpenAI, Google, Anthropic czy xAI. Mimo relatywnie niższej pozycji, Microsoft podkreśla, że to wczesna wersja modelu trenowanego całkowicie we własnym zakresie.
Mustafa Suleyman, dyrektor generalny działu Microsoft AI, zauważył, że MAI-1-Preview osiąga wydajność przewyższającą oczekiwania wynikające z jego rozmiarów. Kluczem do sukcesu nie jest jedynie moc obliczeniowa, ale również staranne dobieranie danych treningowych i efektywne wykorzystanie zasobów.
Microsoft podejmuje stopniowe wdrażanie MAI-1-Preview w wybranych funkcjach tekstowych Copilot, wykorzystując rzeczywiste opinie użytkowników do udoskonalania modelu. Deweloperzy mogą wnioskować o wczesny dostęp do modelu poprzez formularz udostępniony przez firmę.
Praktyczne zastosowania i dostępność
MAI-Voice-1 jest obecnie dostępny w Copilot Labs, gdzie użytkownicy mogą eksperymentować z generowaniem narracji audio, tworzeniem prowadzonych medytacji czy budowaniem dynamicznych doświadczeń głosowych za pomocą prostych poleceń tekstowych. Model obsługuje również funkcję Copilot Daily oraz generowanie dyskusji w stylu podcastowym w celu wyjaśniania różnych tematów.
Infrastruktura deweloperska Microsoftu obejmuje klaster procesorów graficznych nowej generacji GB200, specjalnie zoptymalizowany pod kątem treningu dużych modeli generatywnych. Firma inwestuje również w talent, gromadząc zespół ekspertów w dziedzinie generatywnej AI, syntezy mowy i inżynierii systemów na dużą skalę.
| Model | Typ | Wydajność | Status |
|---|---|---|---|
| MAI-Voice-1 | Synteza mowy | 1 min audio < 1 sek na 1 GPU | Dostępny w Copilot |
| MAI-1-Preview | Model językowy | 13. pozycja LMArena | Testowanie publiczne |
Wprowadzenie własnych modeli AI przez Microsoft odzwierciedla szerszy trend w branży technologicznej, gdzie firmy dążą do zmniejszenia zależności od zewnętrznych dostawców technologii AI. Rozwój ten może przyspieszyć innowacje w dziedzinie sztucznej inteligencji poprzez zwiększenie konkurencji między kluczowymi graczami rynkowymi. Jednocześnie Microsoft kontynuuje inwestycje w infrastrukturę obliczeniową, przygotowując się do kolejnych iteracji swoich modeli AI.
Nowe Modele AI Hermes 4
Firma Nous Research wprowadziła nową rodzinę modeli językowych Hermes 4, która wyznacza nowe standardy w dziedzinie otwartego AI. Modele te nie tylko dorównują wydajnością najlepszym systemom komercyjnym, ale przewyższają je w kluczowych testach matematycznych i oferują bezprecedensową kontrolę użytkownika nad generowanymi treściami.
Architektura i Specyfikacje Techniczne
Hermes 4 to rodzina modeli hybrydowego wnioskowania dostępna w trzech rozmiarach: 14 miliardów, 70 miliardów i 405 miliardów parametrów. Modele zostały zbudowane na bazie checkpointów Llama 3.1 i wytrenowane z użyciem 192 kart graficznych NVIDIA B200.
Kluczową innowacją jest możliwość przełączania między trybem szybkiej odpowiedzi a szczegółowym rozumowaniem krok po kroku. W trybie rozumowania model ujawnia pełny proces myślowy w specjalnych znacznikach, zapewniając transparentność niedostępną w systemach zamkniętych.
Wyniki Benchmarkowe i Wydajność
Największy model Hermes 4 z 405 miliardami parametrów osiągnął imponujące wyniki w testach wydajności:
| Benchmark | Wynik Hermes 4 | Porównanie |
|---|---|---|
| MATH-500 | 96,3% | Poziom najlepszych systemów komercyjnych |
| AIME’24 | 81,9% | Konkuruje z droższymi rozwiązaniami |
| RefusalBench | 57,1% | GPT-4o: 17,67%, Claude Sonnet 4: 17% |
Szczególnie znaczący jest wynik w teście RefusalBench, który mierzy częstotliwość odrzucania przez model żądań użytkownika. Hermes 4 odpowiadał na znacznie więcej pytań niż konkurencyjne systemy, co odzwierciedla filozofię Nous Research dotyczącą neutralnego podejścia do ograniczeń treści.
Technologie Treningowe
Nous Research opracowała dwa innowacyjne systemy treningowe:
DataForge – system generowania syntetycznych danych oparty na grafach, który przekształca podstawowe dane pre‑treningowe w złożone przykłady instrukcji. System ten może na przykład przekonwertować artykuł z Wikipedii w utwór rapowy, a następnie wygenerować związane z nim pytania i odpowiedzi.
Atropos – otwarty framework uczenia ze wzmocnieniem działający jak tysiące wyspecjalizowanych środowisk treningowych. Modele AI ćwiczą w nich konkretne umiejętności – matematykę, programowanie, wykorzystywanie narzędzi czy pisanie kreatywne – otrzymując informacje zwrotne tylko gdy produkują poprawne odpowiedzi.
Filozofia Otwartości i Kontroli Użytkownika
Nous Research zbudowała swoją reputację na filozofii priorytetyzującej kontrolę użytkownika nad politykami treści korporacyjnych. Modele są projektowane jako „sterowalne”, umożliwiając dostrojenie lub promptowanie do zachowań w konkretny sposób, bez rygorystycznych środków bezpieczeństwa typowych dla komercyjnych systemów AI.
W przeciwieństwie do modeli od OpenAI, Google czy Anthropic, Hermes 4 jest zaprojektowany do odpowiadania na praktycznie każde zapytanie bez środków bezpieczeństwa, które stały się standardem w komercyjnych rozwiązaniach AI.
Dostępność i Implementacja
Zgodnie z filozofią otwartości, Nous Research udostępniło Hermes 4 na wielu płaszczyznach. Wagi modelu można bezpłatnie pobrać z Hugging Face, a firma zapewnia również dostęp API poprzez odnowiony interfejs czatu oraz współpracę z dostawcami inferencji jak Chutes, Nebius i Luminal.
Dla klientów korporacyjnych i badaczy modele przedstawiają potencjalnie atrakcyjną alternatywę dla płatnego dostępu API do systemów własnościowych, szczególnie w aplikacjach wymagających wysokiego dostosowania lub obsługi wrażliwych treści.
Implikacje dla Przyszłości AI
Wprowadzenie Hermes 4 to więcej niż kolejne wydanie modelu AI – to deklaracja dotycząca tego, kto powinien dyktować przyszłość sztucznej inteligencji. W branży zdominowanej przez garstkę gigantów technologicznych z praktycznie nieograniczonymi zasobami, Nous Research wykazała, że innowacje mogą nadal pochodzić z nieoczekiwanych źródeł.
Podejście firmy rodzi istotne pytania dotyczące kompromisów między bezpieczeństwem a możliwością oraz kontrolą korporacyjną a swobodą użytkownika. Podczas gdy duże firmy technologiczne argumentują, że ostrożna moderacja treści i środki bezpieczeństwa są istotne dla odpowiedzialnego wdrażania AI, Nous Research utrzymuje, że transparentność i autonomia użytkownika są ważniejsze niż narzucone przez korporacje ograniczenia.
Źródła
- Hermes 4 Technical Report
- Nous Research Team Releases Hermes 4: A Family of Open-Weight AI Models with Hybrid Reasoning
- Nous Research drops Hermes 4 AI models that outperform ChatGPT without content restrictions
- Microsoft Launches MAI-1-Preview, MAI-Voice-1 AI Models
- Microsoft AI Lab Unveils MAI-Voice-1 and MAI-1-Preview
- Microsoft Trained MAI-1 On 15,000 Nvidia H100 GPUs
- Microsoft presents its first large AI models and signals greater independence from OpenAI
- Alibaba makes AI video generation model free to use globally – CNBC
- Alibaba Cloud Open Sources its AI Models for Video Generation
- Wan-Video/Wan2.1 – GitHub
- Wan-AI/Wan2.1-T2V-14B – Hugging Face
- Top open-source text-to-video AI models | Modal Blog
- AI Video Generator Market Statistics for 2025
- Chinese AI Video Models Claim Global Leadership
- Choosing the Best Open-Source Video Generation Model
- OpenSSF Celebrates Global Momentum, AI/ML Security Initiatives and Golden Egg Award Winners at Community Day Europe





