仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

用来不断让AI学习和纠错的,让AI能够不断成长的一个数据调集

2023-09-26

这样优点在于处理图片时,相同位置的信息在编码、解码进程中能够方便快捷的进行信息传输。

那它是怎样工作的呢?

刚才我们说了,DDPM说到,目前基本上一切的模型都选用直接猜测图画中的噪声,以便于取得一张噪声更少的图片。

U-Net也是如此。

U-Net依据拿到第一节里说到的图画的悉数特征向量调集后,从向量调集里经过采样的办法抽取一部分特征向量,再依据这些向量辨认出其中的无用的噪声

然后用最开始的全噪声图和当时这次猜测的噪声做减法(实践处理进程比这会复杂一些),然后得到一个比最开始噪声少一些的图,然后再拿这个图,重复上述流程,再次经过采样的办法抽取一部分特征向量,再去做噪声猜测,然后再拿N-2次的图画和N-1次的图画相减,拿到N-3次的图画

继续重复上述流程,直至终究图画清晰,没有噪声或没有辨认出无用的噪声为止,终究生成一张符合要求的图画。



这儿面,有的同学注意到了,还涉及到一个采样办法的环节。

每一次的采样,依据不同的采样办法,能够用同样的办法,也能够用不同的采样办法。不同的采样办法会抽取出不同维度、不同特质、不同规划的特征向量,终究确实会对输出结果有影响(这也是影响AI绘画可控性的要素之一)。

终究,还记得刚刚说到的数据降维吗?

降维是为了降低运算量,加快速度,降维后其实是进入到一个潜空间里,那么图画悉数降噪完成后,会经过图画解压器也便是VAE模型,从头还原回来,被从头释放到像素空间里(能够理解为IPhone里云端存储的相片,你最开始看的是缩略图,当你点开大图想看的时分,会慢慢从云端下载,变成高清的)。

以上,便是噪声模型网络去噪的简易进程。

第四个问题:应该去除哪些无用的噪声

AI是怎样能够依照我描绘的来去除特定的马赛克,而不是我写了“狗狗”,画出来一只“猫咪”呢?

U-Net模型怎样辨认应该去除哪些噪声呢?其实这便是一个模型练习的进程。

解说模型练习之前,需要先普及几个概念:

  • 练习集:用来不断让AI学习和纠错的,让AI能够不断成长的一个数据调集,你能够理解为打篮球时教练带你在练习场练习。
  • 强化学习:当AI犯错的时分,告知它错了;当AI正确的时分,告知他对了;你能够理解为篮球教练在不断纠正你的投篮姿势,让你练习的更快更强。
  • 测验集:用练习集练习一段时间后,看看AI能力怎样的一个数据调集,你能够理解为打篮球时练习半年,组织了一场友谊赛。

先看U-Net的练习集是怎样构建的,主要分为四个过程:

  1. 从图文数据集中随机挑选相片;
  2. 生产不同强度的噪声,依次排列;
  3. 随机挑选某个强度的噪声;
  4. 将该噪声加到图片里。



再来看U-net是怎样处理的。

U-Net的练习集是许多张已经叠加了随机噪声的数据库,能够理解为许多添加了马赛克的图片(篮球练习场地),然后让AI不断地从这个数据库里抽取图片出来,自己尝试抹去噪声,悉数抹掉后再来和这张图的原图做比对,看看不同多大。



计算出这个距离,然后从头去库里抽取,再尝试抹去噪声(强化学习),循环无数次,终究完成的作用是,不管怎样随机抽,而且换一个新的噪声图片库(测验集),AI抹掉的噪声后的图画也能和原图很像(风格都类似,不一定是原图,这也便是为什么AI每次出图都不相同)。

这样的话就算经过了,这个模型就算Ready了(能够上线了)。

以上便是U-Net辨认且去除无用噪声的进程。

第五个问题(稳定性操控),我应该怎样操控出图作用?

经常玩AI绘画的小伙伴会发现,其实目前大模型最不可控的当地便是它的不稳定性。

那么假如想要稍微操控下AI绘画的作用,有什么好的办法吗?

这儿给出四种办法,供大家参阅。

first:调整Prompt(也便是改描绘语,实质是调整图片的CLIP特征)

经过输入不同的描绘词,以及更改部分Prompt,一步步引导AI模型输出不同的图画,其实质便是更改了匹配到的CLIP对应的待处理的图画特征向量调集,所以终究的出图会不断地调整、优化(这儿还有一些形而上学技巧,比如给某些Prompt里的部分起名字,也能够取得稳定性,实质是给部分Prompt结构打符号,便于AI算法辨认…)。

Second:垫图(也便是俗称的img2img,实质是加噪声)

现在干流的AI绘画软件和模型都支撑垫图功能,也便是你上传一张图,然后依据你这张图的轮廓或许大概款式,再生成一张图。

其实质便是将你上传的图叠加几层噪声,然后拿这个叠噪后的图片作为基础再让AI进行去噪操作,后续流程不变,所以终究风格、结构和原图类似的概率很大。

不过值得一提的是,现在许多Webui还支撑挑选和原图类似度多少的操作,对应到算法上其实便是在问你要叠加多少层噪声,当然是叠加的噪声越少,越和原图类似,反之或许越不像(不过这也是概率问题,也会存在叠加的多的时分生成的图也比叠加的少的时分更像)。

Third,插件(经过第三方插件/东西辅助操控,实质是练习模型)

拿最典型、最经典的ControlNet来说,能够经过恣意条件或要求来操控生成的作用,基本上能够说是指哪打哪的作用了。

其实质你能够理解为是经过一张图来练习模型,达到自己想要的作用。

相关推荐