GERVIGREIND · TÖLVUSJÓN · NLP

Hvernig
CLIP virkar

Kíktu í gegnum arkitektúr og þjálfunarferli CLIP líkansins — sem tengir saman myndir og texta í sameiginlegu vigurrúmi.

01

Arkitektúr

Tvö aðskilin taugakerfi sem læra að tala sama tungumálið

Myndkóðari Vision Transformer Smelltu fyrir nánar Sameiginlegt vigurrúm Aa Textakóðari Transformer Smelltu fyrir nánar

Myndkóðari

Vision Transformer
ViT-B/32 eða ViT-L/14 arkitektúr
Myndir skipt í 14×14 eða 32×32 reiti
Úttak: 512 eða 768 vídda vigur
Þjálfað á 400M mynd-texta pörum

Textakóðari

Transformer
12-laga Transformer net
63M færibreytur
49,152 orða BPE orðasafn
Hámarks lengd: 77 tákn

Sameiginlegt rúm

Embedding Space
Myndir og texti í sama vigurrúmi
Cosine similarity mælir líkindi
Núll-skots flokkun möguleg
Kross-modal leit
02

Andstæðunám

Contrastive learning með mynd-texta pörum

SKREF 1/4

Sækja runu

N mynd-texta pör valin úr gagnasafni

MYNDIR

I₁
I₂
I₃
I₄
LÍKINDAFYLKI T₁ → T₄

TEXTAR

T₁
T₂
T₃
T₄

TAPFALL

L = ½ (Li→t + Lt→i)

Kross-entrópu tap í báðar áttir: mynd til texta og texta til myndar

03

Prófaðu sjálf/ur

Reyndu leitina og sjáðu hvernig CLIP finnur svipaðar myndir

LEITARFYRIRSPURN

Hvernig þetta virkar: Leitarfyrirspurnin er umbreytt í vigur með textakóðara. Síðan er cosine similarity reiknuð milli fyrirspurnarvigursins og allra myndvigra í gagnasafninu. Myndir með hæstu líkindagildi birtast efst.

04

Geta líkansins

80%+

Nákvæmni á ImageNet

Núll-skots flokkun

Zero-shot Classification

CLIP getur flokkað myndir í flokka sem það sá aldrei við þjálfun. Þú þarft bara að lýsa flokkunum með texta.

400M

Mynd-texta pör

Kross-modal leit

Cross-modal Retrieval

Leitaðu að myndum með texta eða finndu svipaðar myndir á milli ólíkra sviða og tegunda.

30+

Gagnasöfn prófuð

Fjölnota notkun

Transfer Learning

Notaðu CLIP sem grunnlíkan fyrir ýmis verkefni án sérstakrar þjálfunar á hverju verkefni.