VLM (Vision Language Model) to rodzaj multimodalnego modelu sztucznej inteligencji, który potrafi jednocześnie przetwarzać i rozumieć informacje tekstowe oraz wizualne, takie jak obrazy czy filmy. Dzięki integracji koderów wizji i języka, systemy te mogą generować opisy treści wizualnych, odpowiadać na pytania dotyczące obrazów oraz rozpoznawać obiekty w kontekście podanych instrukcji tekstowych.
📖 Dowiedz się więcej w kontekście:
Reklama





