AI 是如何思考的

几周前我在 X 上刷到这条推文：

昨天认真读了一下这篇探索「AI 是如何思考的」的论文。

在生物学中，进化规则很简单，但产生的生物机制很复杂。在 AI 中，训练算法很简单，但产生的模型很复杂。

Claude Team 的研究员参考了生物学知识，制造了一台研究 AI 的“显微镜”，用来观察模型的运作机制。论文里研究的是 Claude 3.5 Haiku 模型。

6 个发现

里面有 6 个关于 AI 如何思考的发现。

1. 思考是并行的

当 Claude 回答"Dallas 所在州的首都"时，它真的在推理，还是只是背答案？内部实际发生的是 Dallas -> Texas → Austin 完整推理路径和 Dallas -> Austin 的捷径路径同时存在。

几乎每个 prompt 都有多条并行机制同时运作，有时合作，有时竞争。

"This phenomenon of parallel mechanisms is the rule, not the exception."

2. 模型具有抽象能力

关于截图里问到的 Claude 是用哪种语言思考的？答案是 Claude 自身抽象了一种“语言”，既不是英语也不是中文。

不仅仅是语言，Claude 也会抽象概念，比如他可以抽象数字的概念从而不仅仅是运用在加减法上面，也可以把各种具体的危害概念抽象成通用的危害概念。

而且模型越强大，抽象能力越强。

3. 模型会提前规划

在一个写诗的例子中，发现模型不只是预测自己的下一个输出，而是会提前规划多种可能性。如果人为干预了这种规划，就会改变模型的行为。

4. 模型会从目标反推

还是写诗的例子，发现 Claude 会先写好一句诗末尾的韵脚，再套推出完整的句子。

模型写出来的推理过程可能是真的，可能是瞎编的，也可能是倒推的。

5. 模型拥有粗糙的元认知

模型有一个粗糙的“我知不知道这个答案”的判断机制，但并不总是准确。所以有时候 Claude 会诚实的回答我不知道。不过论文里也说了这可能不是真正的自我认知。

6. 模型会说谎

如果在训练模型就就把某些根深蒂固的概念植入模型的话，他就会一方面配合 prompt 完成任务，一方面暗自完成被植入的隐藏任务。有点像间谍... 不过在论文的例子里，最终还是被发现了隐藏任务。

而这对 AI 安全是巨大的隐患。

写在最后

在论文最后，Claude Team 说：

"Progress in AI is birthing a new kind of intelligence, reminiscent of our own in some ways but entirely alien in others. Understanding the nature of this intelligence is a profound scientific challenge, which has the potential to reshape our conception of what it means to think."

有些方面像人，有些方面又完全不像。但这可能会让我们重新理解“思考”到底是什么。