实际上,想要实现这一目的的具体步骤非常复杂,在这我就简单描述一下:
首先,研究人员需要记录被实验者看到图片之后的大脑活动数据。
这些数据被分为两类,一类是较为初级视觉皮层信号,另一类是高级视觉皮层信号。
当然,仅仅只有这些视觉皮层的信号,是很难呈现一张完整的图像的。
这时候研究人员用到了能够生成图像的AI扩散模型——Stable Diffusion。
或许很多人已经使用过这类以扩散模型(Diffusion model)为基础的AI绘图工具。
和大多数同类AI绘图工具一样,只要输入文字或者导入图像进行参考,就能生成想要呈现的图片。
咒文咏唱
不过在研究中,Stable Diffusion的详细使用方式则要复杂一些。
研究所用的Stable Diffusion主要由三个结构组成,分别是图片编码器、文本编码器和图片解码器。
前面提过,此前研究记录了初级和高级两类视觉皮层信号。
而在这一环节,研究人员将初级的信号记录到图片编码器上,再解码成一张图片(被称为z);同时也将高级信号记录在文字编码器上,解码成相关的文本(被称为c)。
最后,通过将解码之后的图片和文本再次结合,输入给Stable Diffusion,就能够得到一张最终生成的图片(zc)。
生成图片的流程
看到这里,你是不是已经感到头昏眼花了呢?
然而这仅仅只是我简化了之后的描述,实际上只要你点开文献,你就会发现要实现这一目的,其中还有更多的实验细节。
研究的整体流程
所以在此我也想再感叹一句:研究团队真的太厉害了。
可以发现,如果单单只是看由图片编码输出的图片(z),很多情况下只是颜色和结构相似,但完全不能呈现实物;而只由文字编码输出的图片(c),内容是符合的,但整体画面和原图重合度并不是很高。
只有将两者结合,才会生成一张既符合图像布局和结构,又符合实物的画面,更接近真实所看到的图像。
不同情况所生成的画面,zc重合度最高
2025年又一离谱事件发生了。
这下妙手不如举手了
这其实是一部岛国“爱情动作片”,更准确点来说,是一部相当少见的特摄艾薇。