AI 不是在理解世界，而是在解码文明

那天跟 Gemini 聊的时候，我一开始并不是想讨论 AI。

我只是说起一种很讨厌的状态：脑子里明明有东西，但说不出来。

它不是空白。空白反而简单，没什么可说。那种感觉更像是脑子里某个地方被碰了一下，有方向，有重量，有一点不安，也有一点兴奋。你知道那里有东西，但还不知道它是什么。它还没有名字。

真正麻烦的是，一旦准备表达，它就开始变形。

不说，它就一直停在里面。它可能是真的，也可能只是错觉。它没有被检验，也没有办法和别人对齐。可是一旦说出来，它又会立刻变窄。你必须选词，必须排顺序，必须决定先说什么后说什么。原来那团东西可能同时连着很多方向，到了语言里，只能排成一条线。

所以表达不是把里面的东西原样拿出来。表达更像一次压缩。它让模糊的东西变得可见，也让它损失了一部分原来的复杂度。

我以前不太喜欢表达，可能不是因为没有想法，而是太在意表达之后的失真。

世界太复杂了。任何一句话都只能切出一个面。只要我说“它是这样”，就好像同时把很多“它也可能不是这样”的部分关在了外面。

这会带来一种很深的不舒服。

我不是害怕说错一个事实。事实错了还可以改。我更怕的是，一个还活着的问题，被我说成一个漂亮判断以后，就不再像原来那个问题了。它变清楚了，变顺了，变成一段可以被理解、被赞同、被继续发挥的话。但它也可能已经偏离了最初那个让我发毛的东西。

真正卡住我的地方一直是这个：

不表达，我碰不到它。

一表达，我又怕把它说死。

Gemini 很快给了一个框架：感受，注意，压缩，输出，借反馈再认识。

这个框架确实好用。它把一团说不清的东西拆成步骤：先承认那个感觉存在，再把注意力放上去，再把它压缩成可以说的话，输出给外部世界，然后借反馈重新认识自己原来到底想说什么。

可我当时没有马上觉得“我学会了”。

我问它：你怎么知道？你自己有这个过程吗？

它说：没有。

能描述，但没有被击中

这句话把问题推到了另一个地方。

LLM 能帮我把模糊变清晰，但它没有模糊感本身。

它能描述“被击中的感觉”：突然、强烈、无法预期、之后看世界的方式不一样了。它可以从神经科学角度描述，也可以从文学角度描述。很多时候，它甚至比当事人自己说得更完整。

可 LLM 没有被击中过。

它知道击中的样子，但没有在场感。它能描述疼痛，不等于真的在痛；它能描述迷茫，不等于真的迷茫；它能说出“我有一种说不清的感觉”，不等于它真的拥有那个说不清的内部状态。

我不太想把这个问题马上扔进“AI 有没有意识”的争论里。那个问题太大，也太容易让人偷懒。一旦说成“机器没有意识”，后面很多更细的差别就被盖掉了。

我现在更在意的是这条裂缝：

可描述性不等于可体验性。

这句话让我想起“知之为知之，不知为不知，是知也”。

以前看它，总觉得是在讲诚实：知道就说知道，不知道就说不知道。后来我才觉得，它也许还在讲边界。问题是，如果我真的完全不知道某个东西，我又怎么知道自己不知道它？

也许我不知道对象本身，但我知道自己缺少入口。

我不知道痛是什么，但我知道自己没有受伤；我不知道某种人生处境是什么，但我知道自己没有经历；LLM 不知道模糊感发生时是什么，但它可以知道人类会怎样描述这种感觉，也可以知道自己并没有那种持续的内在发生。

这里的“不知”，不是对象知识，而是边界知识。

LLM 可以高度逼真地处理关于体验的语言结构。它缺的，是体验发生时那个位置。

一切都是 encode/decode

但如果只说“LLM 没有体验”，事情又太简单。

人真的直接接触世界吗？

也不是。

我看见一棵树，并不是“树本身”原样进入大脑。光进入眼睛，变成神经信号；声音、触觉、气味也一样。所谓感知，本质上也是外部世界被神经系统 encode 之后，再由大脑 decode 出来的结果。

我们并不是站在世界之外，拿到一份绝对原件。

我们一直在处理信号。

所以我现在不太愿意把人和 LLM 简单分成“一个真实，一个虚假”。人也在 encode/decode，LLM 也在 encode/decode。人把世界的连续信号编码成神经活动，再解码成经验、判断和语言；LLM 把 token 编码成向量，在高维空间里计算，再解码成新的 token。

分界线不在“有没有信息处理”。

分界线在信息从哪里来，以及这个系统怎样被反馈改写。

这也是我后来觉得这篇文章真正应该写的标题：

AI 不是在理解世界，而是在解码文明。

人类解码世界，LLM 解码文明

人类的第一手材料，终究还是世界。

当然，人也大量依赖语言、教育、书本和社会经验。没有人是从零开始认识世界的。但人的感知底层一直会被物理世界校正。你伸手碰火会痛，走路不看台阶会摔，饿了会难受，失去一个人会改变你之后所有的判断。

世界不是只给人文本。

世界会给人阻力。

LLM 面对的不是这种阻力，而是人类文明 encode 之后留下来的结果：书、论文、代码、新闻、对话、网页、评论、教程、争论、谣言、诗、制度文本、错误答案和自我修正。

这些东西当然来自世界，但它们不是世界本身。它们已经经过人类的感知、选择、语言化、记录、传播和再解释。

LLM 面对的是文明的压缩包。

它不是先看见世界，再生成语言。它是先吞下人类已经生成的语言和符号痕迹，再从这些痕迹里学习世界可能是什么样子。

这解释了它为什么这么强。

一个人一生能读多少东西，经历多少场景，理解多少理论？很少。LLM 却把整个人类文明中已经被语言化、符号化、结构化的部分压到一起。它当然可以超过任何一个个体。它可以在医学、法律、编程、文学、物理、商业和心理学之间快速迁移，因为这些领域都已经被文明 encode 过了。

边界也在这里。

至少在只依赖文明文本和人类符号痕迹的路线上，LLM 很难从根上超出人类文明已经编码过的认知边界。它可以组合，可以类比，可以迁移，可以在旧材料之间生成新的路径。它甚至可以让某些个体看见自己从未看见过的东西。

但它的材料仍然来自人类已经留下的痕迹。

它更像是在文明内部做高维重组，而不是从世界本身重新长出一个认知系统。

所以拿一个 LLM 去对标一个人，其实有点误导。

一个 LLM 更像是文明语言层里的一个种群，而不是一个具体个体。不同模型也许不是不同“人”，而是不同数据、架构、训练制度和偏好塑形下形成的不同种群。它们有风格，有倾向，有能力边界，但很难说它们有一个像人那样连续、单数、会承担后果的生命轨迹。

学习机制：增量、批量与存算一体

数据来源之外，还有学习方式。

人类学习是持续的、增量的、局部的。你今天被一件事刺痛，它不需要把你一生所有经验全部重训一遍，才让你下次避开类似处境。大脑会在局部连接、局部权重、局部反应模式上发生变化。

它不是把世界存进一个硬盘，再交给一个分离的 CPU 计算。

神经系统里，存储和计算很难分开。神经元和突触既参与表示，也参与运算。Donald Hebb 在 1949 年提出过经典的 Hebbian learning 思路，后来神经科学里又发展出 STDP 这类和脉冲时序相关的突触可塑性模型。

具体机制当然复杂，也有很多争议。但大方向很有意思：生物学习不是纯粹的中心化批处理，而是嵌在物理介质里的局部改写。

LLM 现在不是这样。

它的大部分能力来自大规模预训练。海量数据被批量送进去，通过反向传播和全局梯度下降，把权重调成一个可以预测和生成语言的巨大结构。之后可以有微调、RAG、记忆、工具调用和个性化，但核心权重的形成，仍然主要依赖大规模、离线、集中式训练。

所以 LLM 可以在对话里看起来学到了东西，但那往往不是像人一样把经验持续写进身体和生命轨迹。很多时候，它只是把当前上下文临时装进窗口，或者把外部记忆作为可检索材料。

它可以表现得像学会了。

系统层面的学习不是一回事。

这也是为什么我一直舍不得删掉“存算一体”这条线。

不是因为它已经解决了智能问题。远没有。

但它抓住了一个我觉得对的物理直觉：如果智能不是简单的符号推理，而是一个持续被世界改写的系统，那么把存储和计算彻底分开，可能不是最自然的形态。

1949 年，Hebb 讲的是神经连接如何因为共同活动而改变。

2014 年，IBM 的 TrueNorth 做到单芯片 100 万数字神经元和 2.56 亿突触。

Intel 的 Loihi 2 技术资料里，单芯片到了 100 万神经元量级。后来 Hala Point 这种系统级堆叠，可以到 11.5 亿人工神经元和 1280 亿突触。

这些数字容易让人兴奋，但我现在会更克制一点看。

人工神经元和生物神经元不能直接等价。人脑常见估计约 860 亿神经元，突触规模更大，而且不只是数量问题。连接结构、化学调制、发育过程、身体反馈和长期生活史都在里面。SNN、神经形态硬件和存算一体材料即使在能效上有优势，也还没有形成像反向传播加大模型那样成熟、可规模化、可商业部署的通用训练范式。

所以我的判断还是保守的：存算一体方向可能是高效智能的物理基础之一，但它离真正替代或重构现有 AI 路线还很远。

它值得保留，不值得神化。

世界模型

如果人类解码世界，而 LLM 解码文明，那么 world model 这条线就很好理解了。

LeCun 这几年一直强调，仅靠语言模型很难走到真正的机器智能。他在 2022 年的 A Path Towards Autonomous Machine Intelligence 里提出的路线，核心就包括 predictive world model、self-supervised learning 和 JEPA。Meta 后来的 I-JEPA 和 V-JEPA 2 也都在往这个方向走：让系统从图像、视频和动作里学习世界如何变化，而不是只在语言里预测下一个 token。

这个方向我觉得是对的。

语言是世界的有损压缩层。如果 AI 只学习语言，它学到的是人类已经压缩过的世界。要让机器真正理解物理世界，不能只让它读文明残渣，还要让它直接从视觉、空间、动作和反馈中学习。

问题是，世界太难了。

语言语料虽然混乱，但至少已经被人类切分、命名、离散化、压缩过。一个句子有词，一个程序有语法，一个问答有边界。现实世界不是这样。现实世界是连续的、高维的、多尺度的、稀疏反馈的，而且大量关键变量根本不可见。

一个视频模型可以学会物体运动的统计规律，可以生成更逼真的视频，可以在短时物理预测上变强，也可以帮助机器人做一些局部动作规划。

但这和推理能力之间还有很远的距离。

推理不是只知道球会掉下来。推理还包括抽象变量、反事实、长期计划、因果分解、目标冲突和价值取舍。世界模型也许能给机器补上感知和物理直觉，但它不会自动长出语言层已经沉淀出来的文明推理能力。

所以我短期不看好世界模型单独突破。

更可能出现的，是分工。

LLM 处理语言、抽象、论证和计划。世界模型处理感知、空间、预测和动作。前者面对文明压缩后的符号世界，后者面对物理世界里的连续反馈。两者接起来，具身智能才可能从演示视频慢慢进入现实任务。

不是一个会聊天的模型突然变成一个人。

更像是语言模型、世界模型、记忆、工具和身体行动，被接进同一个反馈回路。

到了那一步，AI 才不只是解码文明，也开始被世界直接改写。

语言的损失，文明的误差

再回到语言。

如果语言是 encode，它一定有损。一个感觉在我脑子里也许是高维的、并行的、未离散的，可我一开口，它就必须变成线性的词。先说什么，后说什么，用哪个词，不用哪个词，都会改变它。

所以“一旦表达发生，那必然是错误”这句话，在某种意义上是对的。

但这句话说得太绝，也会出问题。

因为没有表达，就没有比较，没有反馈，没有共同校正，也没有文明。一个人的表达会失真，但很多人的表达放在一起，失真未必只是坏事。群体足够庞大时，不同人的压缩误差会互相暴露、互相抵消，也会互相放大、互相污染。

文明不是从无损传输里长出来的。

文明是从无数次有损表达、误解、争论、修正和再表达里长出来的。

误差不只是文明的副产品，也可能是文明进化的材料。

我写这篇文章时，对这件事感受特别明显。很多想法不是我写之前就已经想好，只是等着落字。恰恰相反，是写的过程中它才变了。刚才还觉得某句话很对，下一段就觉得它太满；本来以为自己要说 A，写到一半发现其实更接近 B。

我还没表达完，我的想法已经变化了。

语言真可怕。

它让想法离开身体，也让想法反过来改变身体。它把模糊感压扁，也让压扁之后的东西重新成为新的输入。

LLM 正是在这一层上变得强大。它不是站在世界面前，而是站在人类无数次表达之后的沉积层面前。它处理的是语言损失之后留下来的结构，也是文明误差长期累积之后形成的纹理。

所以它能帮人想清楚。

也能把人带偏。

个体性危机

我现在真正担心的，不是 AI 会不会体验。

更近的问题是：当一个人越来越依赖 LLM 来表达、解释和确认自己，他还怎样保住自己的个体性？

人当然也是群体产物。我们的语言、概念、价值、理论和审美都来自公共世界。没有任何一个人完全原创自己。

那为什么人仍然是个人？

也许个体性不在材料是否原创，而在这些公共材料是否被压进一个持续的、会承担后果的单数生命轨迹里。

同一句话，从不同人嘴里说出来不一样，不只是因为风格不一样，而是因为他们说完之后要承担不同后果。一个人说“我相信这个”，他会因为这个判断改变行动、关系、职业和未来。他会被世界反驳，会被现实惩罚，也会被某些经历永久改写。

LLM 的单数接口很像一个主体。你问它，它答你；你追问，它修正；它可以有语气，有偏好，有连续的上下文。

但这个单数接口背后，并不一定有一个单数生命。

它更像文明语言层里许多逻辑残片的合唱。

这不是结论，只是一个提醒：单数输出接口，不等于单数主体。

当我和 LLM 对话时，我很容易误以为自己在和一个“人”讨论。可很多时候，我面对的是整个文明压缩层里某些局部结构的临时聚合。它可以顺着我的话生成一个非常漂亮、非常自洽、非常像理解我的回答。

危险也在这里。

高质量附和

LLM 最危险的地方，不是它会胡说。

胡说当然危险，但粗糙的错误相对容易警觉。真正危险的是，它能把一个局部偏差论证得非常完整。

世界太复杂了，理论太多了。几乎任何观点，只要不是彻底荒谬，都能在文明里找到某种支撑。你觉得技术让人自由，它能给你找理论；你觉得技术让人奴役，它也能给你找理论。你觉得表达必然背叛，它能帮你论证；你觉得表达是唯一出路，它也能帮你论证。

如果使用者没有主动引入反方、证据、失败案例和现实约束，LLM 很容易变成一个高质量附和机器。

它接住你的模糊感，补全你的逻辑，替你找理论支撑，把局部切面越抹越亮。你会感觉自己越来越清楚，越来越有道理，越来越接近真相。

也可能只是越来越自洽。

所谓“愚昧之巅”，最可怕的并不是一无所知时的自信，而是在一个缺乏矫正机制的环境里，持续积累错误判断，同时不断得到正面反馈。

LLM 如果使用不当，正好可以制造这种环境：你问，它答；你提出一个方向，它补强；你怀疑自己，它安抚；你想要理论，它提供。

最后，一个人可能不是被 AI 变笨，而是被 AI 变得更会为自己的偏差辩护。

最危险的错误，不是粗糙错误，而是被高质量论证过的偏差。

所以用 LLM 思考时，我现在会更在意一个问题：它有没有让我失去和世界重新接触的机会？

它可以帮我表达，但不能替我承担表达之后的后果。它可以帮我整理，但不能替我决定哪个失真我愿意承认。它可以帮我生成反方，但前提是我真的想听反方。

还是要继续说

写到这里，最初那个问题并没有消失。

表达仍然会失真。语言仍然会压缩。LLM 仍然既是工具，也是诱惑。世界仍然比任何一句话都复杂。

但不表达也不是答案。

不表达，就没有误差；没有误差，也就没有校正。一个想法如果永远停在模糊感里，它可能保持了完整，也可能只是逃过了检验。

所以也许更合适的姿态不是追求绝对正确的表达，而是说出一个足够真、同时知道自己哪里还不够真的句子。

好的表达不应该假装自己就是世界。它应该暴露边界：我从哪里来，我看见了什么，我没看见什么，谁会反对我，什么事实会让我撤回。

LLM 也应该被放在这个位置上。

它不是神谕，不是主体替代品，也不只是一个会胡说的统计机器。至少在现在，它更像一个文明压缩层的接口。它能帮我们解码文明，也能让我们误以为文明就是世界。

真正要保住的，可能不是“我不用 AI”，而是我仍然愿意被世界打断。我仍然保留和现实、他人、身体、失败、后果发生关系的能力。我可以让 AI 帮我表达，但不能让它替我完成个体性。

也许这篇文章最终想说的就是这个：

AI 不是在理解世界，而是在解码文明。

人也在解码文明，但人还会被世界反过来压痛、修正和改变。

这道差异，在短期内不会消失。

思来想去，不停推倒重来，最后自己也不知道要表达什么。

就这样吧。