LLaVA (Large Language and Vision Assistant) to otwartoźródłowy model multimodalny, który łączy koder wizualny CLIP z modelem językowym w celu rozumienia obrazów i prowadzenia naturalnych rozmów na ich temat. Dzięki technice dostrajania instrukcjami wizualnymi, potrafi on analizować złożone sceny, odpowiadać na pytania dotyczące treści graficznych oraz podążać za instrukcjami użytkownika, naśladując możliwości modelu GPT-4 Vision.
📖 Dowiedz się więcej w kontekście:
Reklama




