MoonViT (Native-resolution Vision Encoder) to otwartoźródłowy encoder wizyjny o architekturze Vision Transformer (ViT), opracowany przez firmę Moonshot AI i posiadający około 400 milionów parametrów. Charakteryzuje się zdolnością do bezpośredniego przetwarzania obrazów o różnych, natywnych rozdzielczościach i proporcjach, co eliminuje potrzebę skomplikowanego dzielenia czy zniekształcania danych wejściowych. W celu optymalizacji obliczeniowej globalna warstwa self-attention została w nim zastąpiona przez mechanizm attention oparty na mniejszych, stałych oknach. Technologia ta, wykorzystująca również zaawansowane kodowanie pozycyjne 2D RoPE, stanowi kluczowy komponent wizualny modeli z serii Kimi, pozwalając na precyzyjne rozumienie detali przy zachowaniu niskich kosztów operacyjnych.




