LLaVA

LLaVA (Large Language and Vision Assistant) to otwartoźródłowy model multimodalny, który łączy koder wizualny CLIP z modelem językowym w celu rozumienia obrazów i prowadzenia naturalnych rozmów na ich temat. Dzięki technice dostrajania instrukcjami wizualnymi, potrafi on analizować złożone sceny, odpowiadać na pytania dotyczące treści graficznych oraz podążać za instrukcjami użytkownika, naśladując możliwości modelu GPT-4 Vision.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry