新媒易动态
NEWS CENTER
NEWS CENTER
2023-09-26
依照上面所说的原理,图片是被一点点抹去马赛克的,但是我写的文本信息是怎么匹配到某一个马赛克图片的呢?
咱们都知道,目前AI绘画最主流的使用方式便是在模型或软件里,输入一句话(俗称Prompt),能够写主体、布景、人物、风格、参数等等,然后发送,就能够得到一张图。
比如,“一个穿背带裤打球的鸡”,效果如下:
图画制作:Source: Designed byLiunn
AI绘画底层也是大模型,是一个图画模型。
最早的时分文本操控模型的做法是让模型生成一堆图片,然后再让分类器从中选出一个最符合的,这种方式没什么欠好,唯一的缺陷便是当数据量大到必定程度的时分,就会溃散(想象一下,用excel处理上百亿行的数据,是不是担负很大)。
所以一方面需要十分多的图片数据来训练,另一方面又需要高效且快捷的处理,能承担这个任务的,便是Openai在21年推出的OpenCLIP。
CLIP的工作原理其实能够简略理解为:爬虫、文本+图片的信息对。
第一,先看CLIP的爬虫和数据库。
CLIP的最大亮点之一便是采用了十分多的数据,构成了一个庞大的数据库。
每次CLIP爬取到一张图片后,都会给图片打上对应的标签以及描绘(实际CLIP 是依据从网络上抓取的图画以及其 “alt” 标签进行训练的)
Source:https://jalammar.github.io/illustrated-stable-diffusion/,引自Jay Alammar博客
然后从768个维度从头编码这些信息(你能够理解为从768个不同的角度来描绘这个图)。
然后依据这些信息构出一个超多维的数据库,每一个维度都会和其他维度交叉起来。
同时类似的维度会相对挨近在一起,依照这种方式CLIP不断爬取,最终构建了一个大概4~5亿的数据库。
图画制作:Source: Designed byLiunn
第二,再看CLIP的文本图画匹配才能。
OK,有了数据库,库里的图画怎么和输入的文字匹配呢?这里又分两个过程:
过程01,怎么具有文本-图画匹配的才能。
先看下图,是算法的原理图,看不懂没关系,我在下面从头制作了一幅降维版的示意图。
Source: https://github.com/openai/CLIP
咱们来看下面这幅示意图,CLIP是怎么辨认文本和图画的相关。
这里是一个简化的算法模型,其本质是不断地经过很多数据来训练CLIP去相关、认识图片和文字,而且依据和答案的比对,不断地纠正,最后达到准确匹配关键词和特征向量。
过程02,怎么去做文本-图画匹配的相关。
好了,咱们再来看CLIP是怎么做到文本图画的匹配的。
当咱们开端作画时,会录入文本描绘(即Prompt),CLIP模型就会依据Prompt去上面的数据库里从768个维度进行类似度的匹配,然后拿图画和文本编码后的特征去计算出一个类似性矩阵。