为什么要认真讨论大语言模型的“理解”问题？-谢耘-观察者网

【文/观察者网专栏作者谢耘】

自今年初文生视频大模型Sora引爆热议后，本周美国软件巨头Adobe表示，将允许用户在其旗下的视频编辑软件中使用包括OpenAI的Sora在内的第三方生成式人工智能工具。

另外，马斯克旗下人工智能公司xAI于近日推出首个多模态模型 Grok-1.5 Vision。

xAI 表示：除文本功能外，Grok还可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图、照片，并能进行多学科推理。xAI重点展示了Grok-1.5V的7个示例，包括：将手绘图表转换成Python代码、看食品标签计算卡路里、根据孩子的绘画讲睡前故事、解释梗图等。

马斯克xAI的多模态模型Grok-1.5V

Sora 可以在每次 API 调用中为自然语言提示创建最多三种视频变体。

无论在语言领域还是在视频领域，它们都给出了让许多人感到惊奇的结果，于是便出现了大量耸人听闻的说法。其中一个核心的话题就是有人认为这些模型已经具有了“理解”能力，它们能够理解语言背后的逻辑，能够理解物理世界的运动规律。

当谈到“理解”的时候，有多少人知道自己心中的“理解”到底是什么？如果大家对于什么是“理解”都没有共同认识的话，讨论这些生成模型是否有“理解”能力就失去了意义。

“理解”是一个我们再熟悉不过的词汇了，它同时也是智能意识领域中最基本与核心的问题之一。问题越基本，我们往往越熟视无睹，越觉得无需做什么解释，其实把它说清楚就越困难。

从小到大，我们都在努力地去“理解”，也希望被别人理解。可是好像却没有谁讲过到底什么是“理解”。在受教育的过程中，几乎所有课程，都是讲授需要我们去理解的知识内容，然后用考试来检验我们是否理解课程。但却没有一门普及性的课程教授我们应该如何去理解。“理解”似乎是一个如呼吸一样的理所当然的、每个人都会自然而然地无师自通的能力。

然而事情远非如此简单。只要是生理正常的人都一样地在正常呼吸，但是正常人之间的理解能力却是有很大的差异。如同一个老师教授的学生可以有很不同的结果表现。

如果我们将人类的理性意识活动做简化，可以得到下图所示的基本过程示意。

人类理性活动的简化示意

从这个过程中我们可以看到，理解是认知的结果也是行动的前提，是人类理性意识活动的核心环节。

所以对“理解”有一个清晰的认识，对于我们提升自己的理解能力，寻找意识活动的规律，包括人工智能在内的计算机应用这个人类的“外意识”，认识各种基于不同算法的“外意识”的能力边界都具有极其重要又十分普遍的意义。

01. 机器学习获得的“统计性理解”

在对人的理解做了一个比较全面的讨论之后，我们来看一下人类创造出来的“外意识”在“理解”的道路上到底走了多远，以及最终能走多远。

2023年以ChatGPT为代表的大语言模型的出现，再次引发了对机器是否具有了意识或理解能力的大规模议论。

图二回归关联核心作用的示意

目前包括大语言模型在内的机器学习方法，接受的都是人类给其提供的用文字符号表达的内容，所以即使它有了某种“理解”，也仅仅是存在于文字符号这个抽象层面的，而做不到最为关键的回归关联理解。这被称为人工智能的“符号落地”问题。基于多种传感器构建“具身智能”的努力，包含了实现上图中所示的回归关联的意图。但是因为我们没有关于意识活动的基础科学理论来支撑这些努力，所以借助“具身智能”实现回归关联或“符号落地”这一目标能否实现以及能走多远，都还有待于在实践中去探索，难以做理论上的分析推断。

我们目前能够下的结论是，从人类理解的本质来讲，基于对文字符号做信息处理的机器学习算法，还不具有与人类一样的理解能力，因为它对这个世界是没有自己实在感知的，无法实现回归关联。

那么，包括大语言模型在内的机器学习算法在抽象的文字符号层面实现了某种关联吗？答案显然是肯定的。机器学习最著名的一点就是它能够发现与建立信息之间的相关性，并且因为也仅此而已而遭到诟病。但是这种相关性关联与人类在理解的时候依靠的反映客观联系的关联有所不同。机器学习是基于对人类生成的内容做文字符号层面的统计相关处理，来确定文字符号之间的概率性关联关系，然后据此给出相应的输出结果。这种文字符号之间的相关性并非是人类思考的基点，而是人类因思考而产生的文字符号表达形式的一种派生特征。

图源：CSDN

以生成式大语言模型为例，它是对用文字符号表达的内容在文字符号层面做概率性相关统计分析，进而通过文字符号之间的关联关系，在概率的意义上掌握学习样本所反映的文字符号的含义、语法规则和文字符号的组合习惯、及体现不同具体表述内容的组合方式等信息，或称之为知识。最后模型以此为基础通过自回归的方式来完成内容生成的任务。

这种依靠统计获得的文字符号之间的关联关系，是一种语言层面的表象关联。之所以说它是表象关联，是因为文字符号的组合是其表述内容的外在形式，并不能简单地等同于内容本身，所以才有“言外之意”“字面含义”等说法。因而依据它形成的关联也并不能完全等价于基于内容的关联。但同时，形式与内容终归有着统一的一面。所以这种统计关联，与人类在抽象知识层面依据内容与客观逻辑形成的关联有许多相通之处，但在一般的意义上也并不相同。

人类在做文字符号表达的时候，基本的逻辑是先做“构思”---捋清要表达的内容，确定要使用的表达的方式，然后根据文字符号所代表的现实意义，按照语法规则形成最后的表达形式。虽然这个过程常常包含了非逻辑化的潜意识过程，常常并没有严格清晰的阶段划分，但是这个基本逻辑依然在起决定性作用。在这个过程中，“构思”是基础与起点，最终形成的文字符号表达是结果。而且人类在这个过程中还有“反思”，它基于“构思”去斟酌修改已经形成的表述，让其能够更好地反映自己的初衷。

大语言模型是不存在“构思”这一关键环节的，当然也就不存在“反思”的过程。它是通过所谓的“自回归”过程来产生输出，即利用过去已形成的输出及掌握的概率性关联关系去推算下一步的输出。这是它与人类在生成文字符号表述时的一个本质差异。

它以得到的输入为起点，利用从学习样本中学习到的各种概率性关联关系，以“自回归”的方式按照顺序一步步组合出相应的输出。在这个输出中，文字符号的基本使用方式来自于对它从天量的学习样本中学到的语言学知识，这使得其输出在形式上可以很好地符合人类的表达习惯。同时根据其学习到的相关性关联关系，在其输出中还会含有许多来自其学习样本中表达不同内容的文字符号组合方式。

所以虽然它没有像人那样的“构思”过程，可它也并不是在言之无物或凭空编造，而是通过关联关系把其学习样本中的许多内容有序地一步步组合在了一起。这是“自回归”机制自己的“思考”方式。它从接受的问题出发，通过这种“思考”方式生成了看上去含义丰富内容完整的输出。由此，它让许多人以为它是以与人类类似甚至相同的思维方式生成了那些文字符号的表述。

如果仅仅从语言层面来看，大语言模型可以给出相当好的结果，其表达相当的顺畅，说的都是人话；但是在其对答如流中，如果我们从深层含义的角度来看，情况就变得复杂了。它有时会给出令人满意的答案，即它给出的结果比较好地符合人类的理解认知；有时则会出现困难，甚至给出的结果让人感到莫名其妙，即出现所谓的“幻觉”。这种“幻觉”并非是因为它走了神，而是因为它“思考”的底层机制与人类思考的机制是基于很不相同的原理，所以它按照自己的机制给出的有些结果对人类而言如幻觉一般。即使对于一些我们看上去比较简单的、但是没有包含在其学习样本中的问题或表达方式，它也可能出现根本性的混乱或错误。

比如曾有人问：“大象与猫哪个大？”大语言模型回答道：“大象大”；但当被问道：“大象与猫哪个不比另外一个大？”大语言模型则回复说：“它们哪个都不比另外一个大。” （“Stuart Russell专访：关于ChatGPT，更多数据和更多算力不能带来真正的智能”，闻菲，微信公众号：“机器之心”，2023年2月20日）如果这个回答是人类做出的，我们会说这个人在回答问题时“没走心”。这个例子很清楚地表明，因为大语言模型仅仅学到了文字符号层面的统计相关性关联，在面对这个用不太常见的方式表述的问题时，它基于统计相关给出的文字表达便无法与人类的期望相应，即不符合人类的理解。

而且目前大家公认大语言模型的推理能力很弱，对于稍复杂一点的逻辑关系就无能为力。这正反映了它依靠文字符号层面的统计相关性关联，仅仅能够反映语言所表达的浅层含义，而却很难体现出文字符号表达的内容所蕴含的复杂或深层一些的逻辑。

而它在什么问题上会出什么性质的错误，是我们难以预计的。原因就在于它在做关联组合输出时，仅仅是依据学习到的统计性关联，而并不是像人类那样基于内容含义去表述。对大语言模型能力与局限的分析，还是应该注重对底层机制的认识，不能仅仅依靠不完整的测试结果去论证。对于大语言模型而言，由于其面对问题的开放性，根本不存在对其做哪怕是比较充分测试的可能。

或许有人会说，人同样要犯各种错误，大语言模型犯一些错误有什么大不了的？这里面有两方面的问题。一个就是我们对自己创造的工具犯错误的不可预测性可以接收到什么程度？另外一个是人确实会犯错误，但是人犯错误具有相当的可预测性。比如一个在某个领域的高水平专家，他在这个领域中犯简单低级错误的概率必然非常小。可预期性对于人类来讲是非常重要的。

通过上面的分析，我们可能就比较容易理解下面这句话的含义了：“It is a language model, not a ‘truth’ model. That’s its primary limitation: we want ‘truth’, but we only get language that was structured to seem correct.”（第8页，《What Are ChatGPT and Its Friends?》， Mike Loukides著，O’Reilly Media, Inc. 出版，2023年3月第一版）。

如果一定要把这种基于统计的人工智能在文字符号层面建立的这种关联，与原本仅为人类（或许还应该包括一些其他高级生命）的内意识所独有的“理解”联系在一起的话，我们应该可以合理地称之为对抽象知识的“统计性理解”。

放在人类的智能这个参照系中来看，这种基于对文字符号做统计性相关分析而获得“理解”的过程，大体相当于人类“以文解文”的“望文生义”。这样比喻并非是简单的贬低。因为对于相对简单直白的表述而言“望文”是可以正确地“生义”的，所以大语言模型产生了惊人的效果。当然对于那些比较复杂的表述或包含比较深的“义”的表述，仅仅靠“望文”就会出现偏差，甚至是南辕北辙。这是“统计性理解”在对文字符号所表达的内容的“理解”上，难以跨越的一个纵向深度上的局限。这个局限是由其“统计性理解”的基本机制带来的，所以恐怕难以靠继续提升模型与学习样本的规模去超越。

统计性理解的另外一个横向广度的局限就是在前一章对统计算法做分析时指出的，它无法超越学习样本所蕴含的信息，即统计方法是“就事论事”。这是由信息的本质与统计方法所依靠的基本计算机制决定的。提升模型与学习样本的规模是可以不断扩大“就事论事”的范围，但是依然不可能获得学习样本外的新信息。

从记忆结构的角度看“知道”、“了解”与“理解”的差异示意

与人相对照，机器学习的“统计性理解”基本处于上图中间的“了解”状态。两者相比有两个出入。机器学习对知识的理解是基于表层相关性关联，缺少人类可以利用的深层逻辑性关联；但是机器学习可以在很多不同知识之间建立起关联，不存在孤岛问题。所以与上图中人的“了解”状态相比，机器学习的深度不足但广度占优，而两者同样都缺少理解中最为关键的回归关联。所以可以认为它们彼此大体相当。

从这个角度来看，“外意识”在理解这条路上，确实已经取得了惊人的进步。它依靠基于暴力计算的统计方法成功地跨越了人类意义上的从“知道”到“了解”这个鸿沟。但下一个鸿沟---从“了解”到“理解”的挑战可能有数量级的提升。就好像人类登上月球与走出太阳系是有天壤之别的难度的。

与“统计性理解”相对而言，人类的理解属于“本质性理解”---它包括了基于被理解对象本质的各种不同性质的关联。这种理解不是望文生义的产物，而是深思熟虑的结晶。事实证明从实际应用效果上看，这两者是有很大交集的。在相交的部分，人工智能给出的结果与人类的理解相一致。这也符合人类的经验：在比较简单的问题上，我们很难看出“望文生义”与“深思熟虑”的不同。这就是生成式大语言模型引起巨大反响的原因。但是毕竟两者的基本机制不同，面对复杂的问题时两者的差异就会越来越明显地显现出来。所以我们不能因为它们在效果上有交集，就把两者简单地等同起来混为一谈。

对数字及加减法的理解过程

如前面几节的分析，文字符号表达蕴含的意义，在本质上存在于它们与实在感知的关联之中。目前的“外意识”不论采用什么样的统计算法，还都是在上图之中的文字符号层面做表面性的文章，所以不论它给出来的结果看上去如何精妙，它其实都没有真正从整体的角度理解文字符号所要表达的人类认知层面的意义。所以有学者说“大语言模型不懂概念，只懂概率；不懂逻辑推理，只懂概率计算”。这个说法有些过于简单化，或许下面这个表达更准确一些：“它是依靠相关性概率去把握概念，用相关性概率计算去‘拟合’逻辑推理”。我们不能脱离文字符号及其组合的真实含义，认为语言表现出来的概率性相关关系便代表了它的一切、包括它所携带的本质含义。

由于生成式大语言模型给出的是自然语言回答，所以它输出的内容，并不总是简单地对错分明，还包括大量的模棱两可或是似而非的说法。这必然导致每个人对大语言模型的“理解”能力会有很不相同的评价。我们不难理解，这种个体性评价将大概率地与一个人自己的理解能力呈负相关。而理解属于意识活动，我们还没有办法设计一个完全客观可行的测试方法，来测试不论是人还是机器的理解能力。图灵提出的人工智能“图灵测试”，也仅仅是一个主观评价的方法。

有人根据2024年初出现的视频生成器Sora的一些输出结果，便下结论说它已经从对视频的统计分析中掌握了物理定律。如果这不是商业炒作的话，则典型地反映了评价者自己在理解能力上的局限。仅仅靠对视频图像的“望文”应该无法生出深藏在其背后的物理定律之“义”的，否则以牛顿为代表的那些伟大物理学家们贡献的价值就要被打上大大的问号了。

文生视频界面图源：36氪

或许有人会说：既然机器学习可以从文字符号的表达中相当完整准确地学到其背后的语言规则，那它为什么不可以从图像所反映的真实过程中学到其背后的物理规律？文字符号的表述直接基于语言规则，文字符号之间的关系直接反映了语言规则；但是视频图像的变化与背后的物理定律之间的关系则有一条复杂的多重因果作用链，并非是单纯地直接耦合在一起。所以即使图像信息完整地反映了真实过程，从图像要素之间的统计关联中恐怕也是无法推断出在其背后发挥作用的各种物理规律。这需要透过重重现象看到背后本质的卓越能力，即上一章讲过的与统计很不一样的“洞察”能力。正因为如此，牛顿他们的贡献才弥足珍贵。

有人强调，机器没有必要按照人的思维方式去思考，完全可以有自己的思维方式、自己的“理解”、自己的逻辑等等。事实上，人类创造的工具在很多情况下，都是按照与自然不同的方式在工作的。在物质性工具的时代便是如此，最为经典的例子就是车轮的发明。而计算机从一开始做的很多事情的方式也都与人类不同，人类大脑中就不存在一个关系型数据库。所以“外意识”有自己独特的不同于人的方式，这既不是问题、更是早已存在的事实。

发现万有引力定律的牛顿

但是问题在于，我们创造的工具是服务于人类的，所以我们必然要关注它用自己的方式产生的结果是否满足人类的需求。而在这个问题上，理解它运行方式的基本机理就变得重要，我们不能仅仅看它已经给出的结果。因为我们需要它的行为在未来具有可预测性，我们才能放心地使用它。

曾经这完全不是问题。那时“外意识”完全按照人类设计的显性逻辑循规蹈矩地去运转。但是当AI 技术在暴力计算的支撑下发展到了“不可解释”的阶段后，这变成了一个必须面对的大问题。如果我们无法预计一个工具在什么时候、什么问题上出现什么样的与我们期望不同的结果，每一次都是要等结果出来才能判断是否符合我们需求的话，它就是一个无法让人放心使用的工具了，甚至可以说失去了工具传统的基本价值。

比如，如果我们期待“外意识”具有理解能力，这个期待中固有的假设就是它理解的结果与人类是一致的。即机器的理解过程可以与人的不同，但是在结果的意义上必须是等价的。否则它就无法满足人类的这种期待。要想证明这个等价，则必须去理解它的“理解”过程，而不能仅仅靠其产出的已有结果通过枚举法来确认。而从本章的分析可以看出，目前机器学习“望文生义”的“理解”与人类“深思熟虑”的理解是无法完全等价的，仅仅在一些产出上可以有相同或类似的结果。

而部分结果的相同，并不能构成我们“放任”机器学习在自己与人类不同的“理解”道路上一路狂奔的理由。比如一个AI系统如果给出的很多答案，其逻辑在人看来无法理喻，即使你能证明它非常符合AI自己的“理解”，这样的系统输出对于人类来说也没有多大意义。

我们固然可以依靠信仰，将一个技术发挥到极致，就像当年Hinton等人所为；但是我们却无法依靠信仰，让一个技术去做我们期望的、又是它所力不能及的事情。每个技术都有其能力的边界，认识这个边界对于人类的努力有重要的意义，可以让我们极大地减少盲目性。一个技术的能力边界可以通过理论分析确定，也可以通过实践碰撞发现。而现代科学的强大，就在于可以从一般性原理出发确定技术方法的能力边界，所以我们才走出了传统的依靠实践碰撞掌握技术的工匠时代。今天，在“外意识”领域，我们不能仅仅满足于实践碰撞。努力形成一些机制原理层的认识，具有重大的意义。

那么，是否可以通过持续地增加模型的规模，进而统计更多的数据，让模型生成的基于表象的统计性理解去无限逼近人类的本质性理解？也就是说在“理解”这个问题上，是否也存在一个类似于概率统计中的“大数定律”——只要样本足够大，统计结果就可以无限逼近现象背后的本质规律？

这种可能性应该相当小。

首先，我们没有这方面的足够的实践可以证实利用统计方法可以实现我们期望的理解。人类已有的实践告诉我们，表象经验单纯在数量上的积累，即使再多也完成不了质的飞跃，无法形成对背后本质的洞见。或者说如果没有深思熟虑，“望”再多的“文”，也“生”不出深刻的“义”；

其次，对抽象知识的关联关系，不同于传统数理统计中对简单事件的概率描述。在传统数理统计中，我们统计的是性质一致的简单事件，并且找到了许多不同的情况下理论上的概率分布。而对于抽象知识的关联关系，因为我们面对的是大量性质不同的复杂“事件”，所以没有办法用简单的类似概率分布的方式来描述。我们现在使用的算法也不是在直接统计人类理解中的本质性关联，而是统计文字符号之间的相关性。所以用概率统计中的“大数定律”来做类比，去推论预言人工智能的统计可以实现对文字符号背后深层意义的逼近并没有多少依据。

最后，目前包括大语言模型在内的人工智能使用的统计模型，都是经验性的。经验的有效性具有很大的局限，有其推广扩展的边界。实践告诉我们，基于经验构造的系统，其复杂功能下的规模扩展性是有限的。比如，如果仅仅凭借经验，人类可以建造规模宏大但功能简单的金字塔；然而再出色的能工巧匠恐怕也修建不了达到迪拜哈利法塔那样高度而且还有那样复杂功能的建筑。相信统计模型可以因为规模上持续地扩展，而不断“涌现”出更多的“理解”上的奇迹，不仅没有理论的支撑，也缺乏充分的实践依据。

所以，《Artificial Intelligence：A Modern Approach》的作者之一Stuart Russell （加州大学伯克利分校，现任计算机科学系教授（曾任系主任）、人类兼容人工智能中心主任）对基于统计深度学习的大语言模型有如下的评论：“（大语言模型）看起来聪明是因为它有大量的数据，人类迄今为止写的书、文章……它几乎都读过，但尽管如此，在接受了如此之巨的有用信息后，它还是会吐出完全不知所谓的东西。

加州大学伯克利分校计算机科学专业教授、人类兼容人工智能中心（Center for Human-Compatible AI）创始人斯图尔特·罗素(Stuart Russell) 图源：搜狐新闻

所以，在这个意义上，我认为语言大模型很可能不是人工智能的一种进步。……我们所谓往前走的唯一方法是---模型不 work？好吧，我们再给它更多数据，把模型再做大一点。我不认为扩大规模是答案。”（闻菲，“Stuart Russell专访：关于ChatGPT，更多数据和更多算力不能带来真正的智能”，微信公众号：“机器之心”，2023年2月20日）

“外意识”跨越从“了解”到“理解”这个鸿沟，可能需要当下主流认知之外的思路，而不是一味依赖扩大规模增加算力。人们总是对已经成功的主流手段有一种近乎迷信般的执着，但每一次关键的跨越常常都是在当下的主流认知之外。就好像这次在Hinton等人的长期顽强坚持下，基于暴力计算的统计方法出乎主流预料地担当起了实现第一个跨越的重任。近期Yann LeCun被众人攻击，便是因为他认为当下众人狂热追捧的自回归生成式大模型之路已经快到尽头，人工智能要继续发展应该走一条新路，这也是他正在进行的探索。持这种观点的学者并非只有他一个。

杰弗里·辛顿（Geoffrey Hinton）

人类执着地试图造出与自己有着同样智能的机器，或许根植于人类自己渴望为造物主的强烈愿望。暴力计算的出现让这个渴望显得比以往任何时候都更加具有可实现性。有一位国内的学者对当前拼命依靠算力来解决问题的局面写了一段有趣的评论：“目前这种状况下，这种领先是极其不保险的，因为说不定突然某一方祭出一个逆天的算法就会一下改变整个战局。如果这样往往很戏剧性，很悲壮，因为一方可能刚刚投入几千亿去扩充算力，谁知另一方倒腾出一个新的算法，竟可达到类似的效果却只需千分之一的算力。所以，未来几年会非常好玩。”

然而由于人工智能缺少理论基础，所以对于未来的所有判断也就都仅仅是一种猜测。最终只由实践或时间给出答案。

如果我们放开视野去观察就会发现或许还有另外一种可能。即“外意识”止步于人工智能的这个鸿沟边，不再狂热地模仿追赶人类已有的能力，转而以自己不同于人类的独特能力，大力创造自己与人类互补的价值，以此对人类的发展做出新的巨大贡献。毕竟在人类的历史上，有许多被认为理所当然而孜孜以求的目标，虽历经千年却依然渺茫，就是做不到，比如修炼成仙而长生不老。

02. “外意识”的感性与理性认知

在上一节的分析中我们看到，大语言模型通过对学习样本在文字符号层的统计分析确实形成了自己独特的统计性理解。那么这种理解的产物在模型中，或者说在这个“外意识”中，是以什么形态存在的？它是否能够直白地告诉我们、或者我们是否能够直观地看到它到底理解了什么、掌握了哪些知识？

由于以深度学习为代表的统计算法具有“不可解释性”，所以上述问题的答案是：不能。

如果将它与人类的意识活动做个有趣的对比的话，我们不难看出依靠深度学习的大语言模型理解和掌握的内容，可以说是以“外意识”的“感性认识”的形式存在的。

之所以将这种统计性理解形成的“认识”称之为“外意识”的“感性认识”，是因为它在算法中是以分散隐性的形态存在，没有形成显性的以文字符号为基础的形式化系统性表示。即它没有形成用文字符号表达的明确的知识，而是以参数+模型的形态存在，只有在使用时才能间接地感受到它的作用。

统计性理解形成的这种感性认识有其明显的局限。首先是不可传递性。因为没有作为显性的认知存在而无法被剥离出来。如果要传递，也只能是以参数+模型的整体方式进行；其次，无法对其做解析分析，不能从理性逻辑的角度去分析这种认识的合理性与正确性。这些特征与人类的感性认识都非常类似。

我们把人类的认识分为感性与理性，就是因为理性认识是可以用文字符号等形式化的方式清晰地表达出来的，而感性认识却做不到。个人的感性认识要想传递的话，基本只能自己亲自到场操作，这与参数+模型的方式本质是一样的。

在人类的发展过程中，从感性思维发展到理性思维能力，是人类进化的一个重要的里程碑。它让人类的知识从此有了可以超越个体生命的存在而持续不断积累提升的可能。在对事物的认识过程中，从感性认识上升到理性认识是非常重要的一步跨越。人类的知识积累、一代代人认知的不断深化，都依赖于理性认识。这也是近现代科学得以历经四百年而发展到今天这样辉煌的高度的必要基础之一。

对于人类自己大脑中的“内意识”是如此，那么对于人类创造的大脑外的“外意识”呢？把自己学习到的内容，用人类可以理解的显性方式呈现出来，让它变成“外意识”的理性认识，是不是未来机器学习需要走出的具有决定意义的一步？

显然，如果“外意识”能够做到这一步，将是一个质的飞跃。这将带来不可估量的影响，要比它像现在这样不明不白地又学会了一个新技能要重要的多得多。把“外意识”的这种感性认识变成理性认识会让我们对机器学习的方法有更深刻的理解，从而可以更有方向性地提升机器学习的能力，开发新的机器学习算法；也会让机器学习的结果在更多的方面起到更大的作用，成为人类知识宝库的重要补充来源之一；让人类的内外意识更加密切地融合在一起，进一步提升人类整体的智慧能力。

这是一个巨大的挑战。目前在人工智能领域内的许多研究工作，包括对机器学习的可解释性研究都与此密切相关，但一直没有实质性突破。

那么，“外意识”是否与人类的内意识一样，也是先有感性认识再有理性认识的？如果我们脱离目前基于统计的人工智能的视角，就很容易看到“外意识”走了一条很不相同的路。它是先有理性认识，然后才发展出感性认识的。

“外意识”从诞生之日起，一直非常“理性”，直到“暴力计算”的出现才打破了这个局面，让它开始变得“感性”起来。

自从计算机诞生直到这一轮人工智能热潮的兴起，“外意识”都是人类理性创造的产物。人类将自己的理性认识注入到“外意识”中，转化为它自身的逻辑，让其清晰地按照这种理性认识去完成各项任务。虽然这些理性认识不是“外意识”自己产生的，但是这种做法让“外意识”确实从人类那里获得了大量的对这个世界的理解，然后按照这些理解、按照人类的理性认识去循规蹈矩地劳作。即使在深度学习让“外意识”可以自己形成出人预料的各种“感性认识”之后，业界依然有一个说法：“有多少人的智能，就有多少人工智能”。显然这个时候人们依然认为人类注入到“外意识”中的理性认识依然是起决定作用的因素。

自大语言模型惊艳亮相之后，许多人的态度发生了转变，认为只要任由“外意识”这种感性认知能力在“暴力计算”的推动下继续发展下去，通用人工智能的实现便指日可待。人类很快就无需再费心耗神地将自己的理性认识注入给“外意识”，甚至有人坚信目前人工智能产生的认知已经不逊于人类，人类应该放下身段，更不必再自作多情地去充当“外意识”的导师。

面对这些观点我们退后一步看，就会发现一个非常有趣的现象。

每个人从出生之后，便耗费大量的精力去学习各种知识，形成自己内意识所拥有的对这个世界的理性认识。这个过程如此的费力耗神，所以在电子技术出现以后人类就有一个梦想：是否可以有一种外部注入的方式，将人类积累的宝贵知识一次性地加载到我们大脑的内意识中，从而让每一个人都能节省下用在学习上的大量的精力与时间。这个梦想一直遥不可及却始终萦绕在我们的心中。

可是对于“外意识”而言，这根本就不是问题。它从诞生之日起，就是依靠接受人类理性认识的注入而发挥作用的。可是到今天，人们却希望不再这样，而是让它自己去费力耗神地“学习”，尽管产生的仅仅是初级的感性认识。

这两种看上去截然不同的态度，背后应该是基于同一个逻辑：让人类自己省事。毕竟“外意识”自己去学习，主要耗费的不是人类自己的生命。但是这个出发点却无视了一些最基本的客观真实。

在人类真正掌握意识活动的基本规律之前，仅仅靠“外意识”自己获得感性认识，恐怕远远不能满足人类的需求，也远远不能发挥出拥有了“暴力计算”能力的“外意识”的巨大潜力。

在1980年代，美国用当时的超级计算机实现了对一些物理过程的模拟仿真。在报道的文章中，公布了一个子弹斜着射穿钢板全过程的计算机模拟结果及真实射击的照片。在文章给出的多张对比图片中，不论是钢板还是子弹发生的变形，计算机仿真结果都与真实照片高度地相似。今天，随着“暴力计算”时代的到来，做这类模拟仿真的CAE系统，依靠人类注入的物理学等方面的知识，可以在普通的服务器上高度逼真地复现各种物理过程。人类知识的注入，让这类“外意识”真正理解掌握了物理定律，发挥着非常重要的作用。

1980年代，美国发明的超级计算机

或许有人会质疑：“靠人类的强行注入也能算机器有了自己的理解吗？”如果这不算的话，那么我们为什么期望有朝一日在自己的脑袋上接上一些电极就可以把知识输入到我们的内意识当中？对于习以为常的事情，我们常常反倒没有能够看清其真实面目。

对比之下，被有些人称为“世界模拟器”的视频生成器Sora依靠惊人的算力消耗，也仅仅是以“望文生义”的方式生成一些在视觉效果上可以乱真的视频。它对物理世界运动规律的“理解”和“掌握”与CAE系统相比，有着天壤之别。

sora生成视频中的人物有6根手指

培根曾经说过一句影响深远的话：“知识就是力量”。这句话里的知识是指理性认识的结果。理性认识的力量是远远高于感性认识的。对“外意识”也是如此。

在可预见的未来，以人类的理性认识注入为主体，以自己的感性认知为辅助，应该依然是绝大多数各种类型和功能的“外意识”发挥作用的基本模式。“外意识”摆脱对人类理性认识的依赖而靠自己的认知能力去独闯天下的日子还遥不可期。当有一天“外意识”具有了普适可靠的理性认识能力的时候，我们再来谈论通用人工智能，可能才会有比较充分的依据。

造物主创造了万物之后，便高高在上冷漠地俯视着这个世界，所谓“天地不仁，以万物为刍狗”。人类却很不相同。我们自古就有个习惯，将自己的想象投射到自己的创造物上，然后跪倒在其脚下顶礼膜拜。哲学上有一个描述这种现象的专有名词叫“异化”。当“暴力计算”让我们成为了虚拟世界中货真价实的造物主后，这种崇拜以及它带来的恐慌反而更加严重。

要摆脱这种非理性的异化梦魇，深思熟虑而非望文生义地去透彻理解我们的创造物可能是唯一的出路。

本文摘自清华大学电子工程系博士谢耘新书《从凡夫到“上帝”》第四章：理解，知识与人工智能