CLIP (Contrastive Language-Image Pre-training) to model sieci neuronowej opracowany przez OpenAI, który uczy się reprezentacji wizualnych na podstawie opisów tekstowych. Dzięki trenowaniu na parach obraz-tekst, model potrafi skutecznie rozumieć powiązania między treścią wizualną a językiem naturalnym, co pozwala na klasyfikację obrazów bez konieczności wcześniejszego definiowania sztywnych kategorii.
📖 Dowiedz się więcej w kontekście:
Reklama





