Qwen 2.5 to zaawansowana seria dużych modeli językowych opracowana przez Alibaba Cloud, wyróżniająca się znacznym skalowaniem danych pre-trainingowych (do 18 bilionów tokenów) oraz wszechstronnymi możliwościami multimodalnymi. Modele te charakteryzują się innowacyjnymi architekturami transformerowymi, obsługą okna kontekstowego do 128 tysięcy tokenów, wsparciem dla ponad 29 języków oraz zdolnościami do zaawansowanego kodowania, matematyki i generowania ustrukturyzowanych danych (np. JSON). Dodatkowo wprowadzono ulepszenia w rozumowaniu i adaptacji do zadań specjalistycznych.
Qwen 2.5
Źródło: arxiv.org




