您当前的位置:首页 >> 关注 >  >> 正文
行业洞察 | ChatGPT写文章!被吹爆的AIGC到底是什么?_速读
来源: 出新研究微信号      时间:2023-02-16 20:43:23

“OpenAI的AIGC(生成AI)的普及为加密行业的更多用户介绍了这项技术。随着用户越来越熟悉它,他们能够认识到它的潜力。AIGC降低了创意表达的门槛,使普通人能够通过制作与专业标准相当的作品来展示他们的想象力和创造力。

来源:ChatGPT |


(相关资料图)

编译:唐诗 |

PS:本文是用ChatGPT制作的,它没有组织整篇文章,但它创建了包括句子和段落在内的内容,并引用了红杉资本和@WHeart_eth生成的AIGC论文。

ChatGPT 和类似的语言模型可以根据它们所训练的数据生成文本,但它们目前无法完全理解文本的上下文或预期含义。因此,人类有必要检查和修改输出,以确保其在预期上下文中的准确性和适当性。用ChatGPT写这篇文章展示了人工智能的强大。

01

AIGC元年:万亿新赛道

2023年,AIGC开启了人机共生的时代。AIGC不仅变得更快,更便宜,而且在某些情况下,由于其更快,更广泛的学习,比手动创建的更好。

每一个需要原创创意的行业,从社交媒体到游戏,从广告到行业咨询,从编码到建筑和平面设计,从产品设计到法律文件,从营销到销售,都会被重塑,一些重复性的工作可能会完全被生成式人工智能所取代。

随着人机共生继续渗透到许多行业,它们将在人与机器之间紧密迭代的创造力循环中茁壮成长,在广泛的市场中释放更好、更快、更便宜的创造。

人机共生的愿景是协助完成决策、数据分析和体力任务等任务,解放人类,让他们专注于需要人类创造力和判断力的更高层次的任务和活动。生成式人工智能将使创造和决策的边际成本降至零,产生巨大的劳动生产率和经济价值——以及相应的市场价值。

02

什么是AIGC?

AIGC是一种使用人工智能生成内容的技术。它在2015年成为行业的转折点,在此之前AIGC主要生成文本和语音。

从那时起,AIGC已经扩展到包括文本,语音,图像,视频和3D等新领域,并且在创造力,行为,性能,理解和个性化方面具有很大的优势。

生成对抗网络

最早的AIGC模型是生成对抗网络(GAN)。GAN的基本原理其实很简单。在这里,将使用生成图像的示例来解释。

假设我们有两个网络,G(生成器)和D(鉴别器)。顾名思义,G是一个生成图像的网络。它接收随机噪声z并通过该噪声生成图像,表示为G(z)。D是一个判别网络,用于确定图像是否“真实”。它的输入参数是x,表示图像,输出D(x)表示x是真实图像的概率。如果为1,则表示它是100%的真实图像,如果输出为0,则表示不可能是真实图像。

在训练过程中,生成器网络G的目标是生成尽可能逼真的图像来欺骗判别器网络D。另一方面,D的目标是将G生成的图像与真实图像区分开来。这样,G和D就形成了一个动态的“博弈过程”。

这个游戏的结果是什么?在理想状态下,G能够生成足够“欺骗性”的图像G(z)。对于 D,很难确定 G 生成的图像是否真实,因此 D(G(z)) = 0.5。这样,我们就实现了我们的目标:我们获得了一个可用于生成图像的生成模型 G。

GAN和传统自然语言理解模型的缺点是它们在结构化创造力和联想方面的能力有限,导致它们缺乏令人印象深刻的应用。

深度学习模型

在2020年,OPENAI开发了跨模态预训练深度学习模型GPT(生成预训练转换器)及其变体CLIP(对比语言-图像预训练),并使其开源。CLIP 模型能够通过首先收集包含 4 亿个未处理图像+文本的数据集并预训练来完成任务,从而将文本与图像相关联。

CLIP 模型使用对比学习目标进行训练:分别对图像和文本(其中文本是完整的句子)进行编码,然后计算它们之间的余弦相似性,然后对图像的每一行或文本的每一列进行分类以找到匹配的正面示例。每张图片有 32,768 个候选文本,是 SimCLR 的两倍,负示例数量的增加也是性能良好的原因之一。

预测起来也很简单:找到一个图像分类数据集,将标签转换为自然语言,比如“狗”可以转换成“一张狗的照片”。然后使用预先训练的编码器对标签和图像进行编码,然后计算相似性。

整个过程可以总结如下:输入图像,预测数据集中 32768 个随机采样文本片段中的哪一个与数据实际匹配。由于文本描述不是特定的类别,因此零镜头学习可用于各种图像分类任务。

零镜头学习是一种迁移学习,例如,对斑马的描述可以是“马轮廓 + 老虎皮毛 + 熊猫黑白”以生成一个新类别。典型的监督分类器可以正确分类马、老虎和熊猫的图像,但如果它遇到以前没有学过的斑马照片,它就无法对其进行分类。但是,由于斑马与已经分类的图像具有共同点,因此可以推断它属于这一新类别。

因此,我们的想法是将更精细的类别设置为属性,以便在测试集和训练集之间建立连接。例如,将马的特征向量转换为语义空间,其中每个维度表示类别的描述,如 [有尾巴 1,马的轮廓 1,有条纹 0,黑白 0],熊猫将是 [有尾巴 0,马的轮廓 0,有条纹 1,黑白 1]。

这样,通过定义斑马的向量并比较输入图像的向量和斑马向量之间的相似性,我们可以确定输入图像是否是斑马。

因此,CLIP模型有两个优点:

一方面,它同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。

另一方面,为了有足够好的标注“文本图像”进行训练,CLIP模型广泛使用来自互联网的图片,这些图片通常具有各种文字描述,成为CLIP的自然训练样本。据统计,CLIP模型已经从互联网上收集了超过4亿条“文本-图像”训练数据,这使得CLIP能够进行图像和文本匹配,并作为各种自然语言处理和计算机视觉应用的基础,例如AIGC系统,该系统允许用户输入文本并生成图像或视频。

去噪扩散模型

由于GPT和CLIP的开源,去噪扩散模型迅速成熟并得到实施。真正允许文本生成图像的 AIGC 在 2022 年下半年随着 Dalle-2、Midjourney 和稳定扩散应用程序的推出而为公众所熟知。

扩散模型的想法来自非平衡热力学。具有定义扩散步骤(当前状态仅取决于先前状态)的马尔可夫链在真实数据(正向过程)中被随机噪声缓慢扰动,然后学习反向扩散过程(逆过程)以从噪声构建所需的数据样本。

正向过程是一个连续噪声注入的过程,添加的噪声随时间增加。根据马尔可夫定理,噪声注入后的当前时刻与前一时刻的相关性也与要添加的噪声有关(是前一个矩的影响更大还是增加的噪声影响更大)。随着前向过程在时间上向前移动,噪声或随机事件的影响可能会变得更加显着,因为一开始一点噪声就会产生影响,以后需要添加越来越多的噪声。

逆过程从随机噪声开始,逐渐恢复原始图像,无噪声 — 去噪和实时数据生成。在这里,我们需要了解整个数据集,因此我们需要学习一个神经网络模型(目前主流是U-net+注意力结构)来近似这些条件概率并运行反向扩散过程。

扩散模型有两个特点:

一方面,它向图像添加高斯噪声,通过破坏训练数据进行学习,然后找到一种逆转噪声过程的方法来恢复原始图像。训练后,模型可以从随机输入中合成新数据。

另一方面,像稳定扩散这样的公司通过数学变换将模型的计算空间转换为低维空间,这大大降低了计算成本和时间,大大提高了模型训练的效率。降维优化等创新直接推动了AIGC技术的实际发展。

03

AIGC的未来

毫无疑问,未来是光明的。

我们已经看到了AIGC充满活力的应用,我们知道方向。一旦你看到机器产生复杂的功能代码或优秀的图像,你就不得不承认,人机共生的时代终于到来了,机器在我们的工作和创作中扮演着基本的辅助角色。

也许在不远的将来,我们将能够写出我们在脑海中设想的神话世界;打印出我们能想象到的任何内容;观看我们自己在影院创作的电影;并让世界各地的玩家沉浸在我们制作的电子游戏中,并获得良好的游戏体验。

在短短几年内,AIGC迅速从小型开源架构发展成为拥有数千亿参数的大型模型。如果我们继续以这种发展速度,并遵循大型模型的摩尔定律,这些未来场景可能会变得触手可及。

本文提供的信息仅用于一般指导和信息目的,本文的内容在任何情况下均不应被视为投资、业务、法律或税务建议。

本文首发于微信公众号:出新研究。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

X 关闭

X 关闭