Skip to content
Writings

AI 是如何思考的

Kexin Li

几周前我在 X 上刷到这条推文:

昨天认真读了一下这篇探索 「AI 是如何思考的」 的论文。

在生物学中,进化规则很简单,但产生的生物机制很复杂。在 AI 中,训练算法很简单,但产生的模型很复杂。

Claude Team 的研究员参考了生物学知识,制造了一台研究 AI 的“显微镜”,用来观察模型的运作机制。论文里研究的是 Claude 3.5 Haiku 模型。

6 个发现

里面有 6 个关于 AI 如何思考的发现。

1. 思考是并行的

当 Claude 回答"Dallas 所在州的首都"时,它真的在推理,还是只是背答案?内部实际发生的是 Dallas -> Texas → Austin 完整推理路径和 Dallas -> Austin 的捷径路径同时存在。

几乎每个 prompt 都有多条并行机制同时运作,有时合作,有时竞争。

"This phenomenon of parallel mechanisms is the rule, not the exception."

2. 模型具有抽象能力

关于截图里问到的 Claude 是用哪种语言思考的?答案是 Claude 自身抽象了一种“语言”,既不是英语也不是中文。

不仅仅是语言,Claude 也会抽象概念,比如他可以抽象数字的概念从而不仅仅是运用在加减法上面,也可以把各种具体的危害概念抽象成通用的危害概念。

而且模型越强大,抽象能力越强。

3. 模型会提前规划

在一个写诗的例子中,发现模型不只是预测自己的下一个输出,而是会提前规划多种可能性。如果人为干预了这种规划,就会改变模型的行为。

4. 模型会从目标反推

还是写诗的例子,发现 Claude 会先写好一句诗末尾的韵脚,再套推出完整的句子。

模型写出来的推理过程可能是真的,可能是瞎编的,也可能是倒推的。

5. 模型拥有粗糙的元认知

模型有一个粗糙的“我知不知道这个答案”的判断机制,但并不总是准确。所以有时候 Claude 会诚实的回答我不知道。不过论文里也说了这可能不是真正的自我认知。

6. 模型会说谎

如果在训练模型就就把某些根深蒂固的概念植入模型的话,他就会一方面配合 prompt 完成任务,一方面暗自完成被植入的隐藏任务。有点像间谍... 不过在论文的例子里,最终还是被发现了隐藏任务。

而这对 AI 安全是巨大的隐患。

写在最后

在论文最后,Claude Team 说:

"Progress in AI is birthing a new kind of intelligence, reminiscent of our own in some ways but entirely alien in others. Understanding the nature of this intelligence is a profound scientific challenge, which has the potential to reshape our conception of what it means to think."

有些方面像人,有些方面又完全不像。但这可能会让我们重新理解“思考”到底是什么。