GERVIGREIND · TÖLVUSJÓN · NLP
Kíktu í gegnum arkitektúr og þjálfunarferli CLIP líkansins — sem tengir saman myndir og texta í sameiginlegu vigurrúmi.
Tvö aðskilin taugakerfi sem læra að tala sama tungumálið
Contrastive learning með mynd-texta pörum
SKREF 1/4
N mynd-texta pör valin úr gagnasafni
MYNDIR
TEXTAR
TAPFALL
L = ½ (Li→t + Lt→i)
Kross-entrópu tap í báðar áttir: mynd til texta og texta til myndar
Reyndu leitina og sjáðu hvernig CLIP finnur svipaðar myndir
LEITARFYRIRSPURN
Hvernig þetta virkar: Leitarfyrirspurnin er umbreytt í vigur með textakóðara. Síðan er cosine similarity reiknuð milli fyrirspurnarvigursins og allra myndvigra í gagnasafninu. Myndir með hæstu líkindagildi birtast efst.
80%+
Nákvæmni á ImageNet
Zero-shot Classification
CLIP getur flokkað myndir í flokka sem það sá aldrei við þjálfun. Þú þarft bara að lýsa flokkunum með texta.
400M
Mynd-texta pör
Cross-modal Retrieval
Leitaðu að myndum með texta eða finndu svipaðar myndir á milli ólíkra sviða og tegunda.
30+
Gagnasöfn prófuð
Transfer Learning
Notaðu CLIP sem grunnlíkan fyrir ýmis verkefni án sérstakrar þjálfunar á hverju verkefni.