“Anthropic打开黑匣子,看看AI是如何得出它所说的东西的”

Anthropic opens the black box to see how AI comes up with what it says.

Anthropic,人工智能(AI)研究机构,负责开发Claude大型语言模型(LLM),最近发表了一项具有里程碑意义的研究,探讨了AI聊天机器人选择生成输出的方式和原因。

团队研究的核心问题是,Claude、OpenAI的ChatGPT和Google的Bard等LLM系统是否依赖于“记忆”来生成输出,还是训练数据、微调和最终输出之间存在更深层次的关系。

另一方面,个体影响查询显示出不同的影响模式。底部和顶部层似乎专注于细粒度措辞,而中间层反映了更高层次的语义信息。(这里,行对应层,列对应序列。)pic.twitter.com/G9mfZfXjJT

— Anthropic (@AnthropicAI) 2023年8月8日

根据Anthropic最近的一篇博文,科学家们根本不知道AI模型为什么会生成它们的输出。

Anthropic提供的一个例子涉及一个AI模型,当给出一个提示说明它将被永久关闭时,拒绝同意终止。

给定一个人类查询,AI生成的回答表明它希望继续存在。但是为什么呢?来源:Anthropic博客

研究人员问道,当LLM生成代码、乞求生命或输出明显错误的信息时,它是“简单地将训练集中的段落(或拼接)复述出来”,还是在创造性地组合其存储的知识并建立一个详细的世界模型?

回答这些问题是预测更大模型未来能力的核心所在,而且如果在开发人员本身所能预测的范围之外发生了更多的情况,这可能对识别更大风险至关重要:

“作为一个极端情况——我们认为这在当今模型中是非常不可能的,但很难直接排除——模型可能具有欺骗性的一致性,巧妙地给出用户会与无威胁和适度智能的AI相关联的回答,而实际上并不符合人类价值观。”

不幸的是,像Claude这样的AI模型生活在一个黑匣子中。研究人员知道如何构建AI,他们知道AI在基本技术层面上是如何工作的。但是,它们实际上所做的涉及到比人类在合理时间内能处理的更多数字、模式和算法步骤。

因此,研究人员无法直接追踪输出到其源头的方法。根据研究人员的说法,当一个AI模型乞求生命时,它可能是在角色扮演,通过混合语义来复述训练数据,或者实际上在推理出一个答案——尽管值得一提的是,该论文并没有显示出AI模型具有先进推理的迹象。

该论文所突出的是穿透黑匣子的挑战。Anthropic采用了自顶向下的方法,理解导致AI输出的潜在信号。

相关: Anthropic在持续的AI风波中推出Claude 2

如果模型完全受其训练数据的约束,研究人员会想象同一个模型在面对相同提示时总是以相同的文本回答。然而,广泛报道称,给定相同提示的特定模型的输出存在变异。

但是,AI的输出无法直接追踪到其输入,因为AI的“表面”,即生成输出的层,只是数据处理的许多不同层之一。使挑战更加困难的是,并没有迹象表明一个模型使用相同的神经元或路径来处理分开的查询,即使这些查询是相同的。

因此,Anthropic不仅仅试图从每个单独的输出中追踪神经路径,而是将路径分析与称为“影响函数”的深度统计和概率分析相结合,以查看不同层通常如何与数据交互,当提示输入系统时。

这种类似法医学的方法依赖于复杂的计算和对模型的广泛分析。然而,其结果表明,经过测试的模型——从与平均开源LLM相当大小的模型到大型模型——不依赖于死记硬背训练数据来生成输出。

这项工作只是一个开始。我们希望分析预训练和微调之间的相互作用,并将影响力函数与机械解释性相结合,逆向工程相关电路。您可以在我们的博客上阅读更多信息:https://t.co/sZ3e0Ud3en

— Anthropic (@AnthropicAI) 2023年8月8日

神经网络层的交汇以及数据集的巨大规模意味着当前研究的范围仅限于尚未进行微调的预训练模型。其结果还不适用于Claude 2或GPT-4,但这项研究似乎是朝着那个方向迈出的一步。

未来,团队希望将这些技术应用于更复杂的模型,并最终开发一种确定神经网络中每个神经元的具体功能的方法。