从预测到创作:MIT专家解读生成式AI

本文翻译自MIT文章《Explained: Generative AI》(作者:Adam Zewe,2023年11月9日发布)


 

是否曾注意到,现在几乎每一条新闻标题都与生成式人工智能有关?事实上,有些标题可能就是由生成式AI,比如OpenAI的ChatGPT生成的。这种聊天机器人展现了惊人的能力,能够写出看起来像人类撰写的文字。

那么,当人们说“生成式AI”时,他们到底是什么意思?

在过去几年生成式AI爆发之前,人们提到AI时,通常是指一种机器学习模型,它能基于数据进行预测。例如,这类模型可以通过数百万个样本的训练来判断一张X光片是否显示出肿瘤迹象,或一个借款人是否可能违约。

而生成式AI则是一种被训练用来创造新数据的机器学习模型,而非仅仅在特定数据集上做出预测。它学会如何生成更多“看起来像”训练数据的对象。

在生成式AI与其他类型AI的具体机制上,两者之间的界限其实有些模糊。很多时候,它们使用的是同一类算法。
——Phillip Isola,MIT电气工程与计算机科学副教授、计算机科学与人工智能实验室(CSAIL)成员

尽管ChatGPT等模型的发布引发了巨大的热潮,但这种技术本身其实并不新颖。它们建立在过去50多年间的研究与计算技术进步之上。

复杂性的提升

生成式AI的早期实例是名为马尔可夫链(Markov Chain)的简单模型。该方法得名于俄国数学家安德烈·马尔可夫(Andrey Markov),他于1906年提出这种统计模型,用以描述随机过程。在机器学习领域,马尔可夫模型长期被用于“下一个词预测”任务,例如电子邮件中的自动补全功能。

在文本预测中,马尔可夫模型根据前一个或几个词来生成下一个词。但正因这种模型“回看”范围有限,它难以生成自然流畅的文本。

我们在十年前就已经可以生成东西了,但真正的变化在于,我们现在能生成的对象更复杂,训练模型的规模也更大。
——Tommi Jaakkola,MIT计算机科学与电气工程教授、CSAIL和IDSS成员

几年前,研究者的关注点是如何让某个特定数据集上实现最佳效果。而现在,研究者倾向使用规模更大的数据集——可能包含数亿甚至数十亿条数据——来训练能够生成惊人结果的模型。

虽然ChatGPT等基础模型在工作方式上与马尔可夫模型类似,但差别在于它的规模与复杂性远远更高,拥有数十亿个参数,并在互联网上海量公开文本中进行训练。

这些文本数据中的词与句子遵循特定的排列依赖关系。模型通过学习这些统计模式,来预测合理的下一部分内容。

更强大的架构

除了更大规模的数据集以外,多项研究突破也推动了生成式AI的爆发。

2014年,蒙特利尔大学的研究者提出了生成对抗网络(GAN)架构。它由两个模型组成:一个尝试生成目标输出(如图像),另一个尝试判断生成结果的真假。生成器不断试图“欺骗”判别器,并在这一过程中不断进步。图像生成系统StyleGAN正是基于这一思路。

2015年,斯坦福大学和加州大学伯克利分校的研究者提出了扩散模型(Diffusion Models)。它通过迭代优化输出,逐步生成逼真的数据样本。这类模型被用于Stable Diffusion等图像生成系统。

2017年,谷歌研究者提出Transformer架构,这项技术推动了大语言模型(如ChatGPT背后的GPT)的发展。在自然语言处理中,Transformer将文本中的每个词编码为一个“Token”(符号),并生成注意力图谱(attention map),用于捕捉不同词之间的关联性,从而提升模型理解上下文的能力。

这只是生成式AI模型众多方法中的几个代表。

多样化应用场景

这些模型的共同点是:它们都能将输入数据转化为token,即数据的数字化表示。只要某种数据可以被转化为token格式,就理论上可以应用这些生成方法来生成相似的新数据。

虽然效果会因数据噪声和信号提取难度而异,但这已经非常接近一种“通用处理器”,可以统一处理各种数据的方式了。
——Phillip Isola

这也意味着生成式AI有着广泛的应用可能:

Isola 的研究团队正在利用生成式AI合成图像数据,用于训练其他智能系统(如训练计算机视觉模型识别物体)。
Jaakkola 的团队则用于设计新蛋白质结构或有效晶体结构,用于新材料开发。和语言中的词之间有依赖关系一样,模型可以学习晶体结构之间的规则关系。

不过,并非所有任务都适合用生成模型。

比如结构化数据预测(如表格数据),传统机器学习方法往往比生成式AI更有效。
——Devavrat Shah,MIT电气工程与计算机科学教授,IDSS与信息与决策系统实验室成员

我认为它最有价值的地方,是它构建了一种既能理解人类语言、又能操控机器的接口。过去我们需要用机器语言与电脑沟通,而现在,这个接口能同时理解人类与机器。
——Devavrat Shah

风险与挑战

生成式AI聊天机器人如今被广泛应用于呼叫中心等领域,帮助回答用户问题,但这类应用也引发了“人类工种被替代”的担忧。

此外,生成式AI还可能:

延续并放大训练数据中的偏见;
扩散仇恨言论与错误信息;
存在抄袭与版权风险,可生成“看起来像某个特定人类创作者”的内容。

另一方面,Shah也指出,它也可以成为艺术创作的有力工具,使艺术家创造出原本无法独立完成的作品。

未来愿景

Isola 对生成式AI在制造(fabrication)方面的未来用途充满期待

也许某天它不仅能生成“椅子的图片”,还能生成“可以直接被制造的椅子设计图”。

他还认为,生成式AI将推动更广义智能体(General Intelligence Agent)的发展:

这些模型虽然与人类大脑的工作方式不同,但也有相似之处。我们能在脑中思考、幻想、构思创意和计划——生成式AI也许能让机器具备这种能力。


原文链接:https://news.mit.edu/2023/explained-generative-ai-1109

You may also like