← 返回 Blog

Blog

AI 不是在理解世界,而是在解码文明

从人的模糊感出发,重新看 LLM、语言压缩、世界模型和个体性危机。

那天跟 Gemini 聊的时候,我一开始并不是想讨论 AI。

我只是说起一种很讨厌的状态:脑子里明明有东西,但说不出来。

它不是空白。空白反而简单,没什么可说。那种感觉更像是脑子里某个地方被碰了一下,有方向,有重量,有一点不安,也有一点兴奋。你知道那里有东西,但还不知道它是什么。它还没有名字。

真正麻烦的是,一旦准备表达,它就开始变形。

不说,它就一直停在里面。它可能是真的,也可能只是错觉。它没有被检验,也没有办法和别人对齐。可是一旦说出来,它又会立刻变窄。你必须选词,必须排顺序,必须决定先说什么后说什么。原来那团东西可能同时连着很多方向,到了语言里,只能排成一条线。

所以表达不是把里面的东西原样拿出来。表达更像一次压缩。它让模糊的东西变得可见,也让它损失了一部分原来的复杂度。

我以前不太喜欢表达,可能不是因为没有想法,而是太在意表达之后的失真。

世界太复杂了。任何一句话都只能切出一个面。只要我说“它是这样”,就好像同时把很多“它也可能不是这样”的部分关在了外面。

这会带来一种很深的不舒服。

我不是害怕说错一个事实。事实错了还可以改。我更怕的是,一个还活着的问题,被我说成一个漂亮判断以后,就不再像原来那个问题了。它变清楚了,变顺了,变成一段可以被理解、被赞同、被继续发挥的话。但它也可能已经偏离了最初那个让我发毛的东西。

真正卡住我的地方一直是这个:

不表达,我碰不到它。

一表达,我又怕把它说死。

Gemini 很快给了一个框架:感受,注意,压缩,输出,借反馈再认识。

这个框架确实好用。它把一团说不清的东西拆成步骤:先承认那个感觉存在,再把注意力放上去,再把它压缩成可以说的话,输出给外部世界,然后借反馈重新认识自己原来到底想说什么。

可我当时没有马上觉得“我学会了”。

我问它:你怎么知道?你自己有这个过程吗?

它说:没有。

能描述,但没有被击中

这句话把问题推到了另一个地方。

LLM 能帮我把模糊变清晰,但它没有模糊感本身。

它能描述“被击中的感觉”:突然、强烈、无法预期、之后看世界的方式不一样了。它可以从神经科学角度描述,也可以从文学角度描述。很多时候,它甚至比当事人自己说得更完整。

可 LLM 没有被击中过。

它知道击中的样子,但没有在场感。它能描述疼痛,不等于真的在痛;它能描述迷茫,不等于真的迷茫;它能说出“我有一种说不清的感觉”,不等于它真的拥有那个说不清的内部状态。

我不太想把这个问题马上扔进“AI 有没有意识”的争论里。那个问题太大,也太容易让人偷懒。一旦说成“机器没有意识”,后面很多更细的差别就被盖掉了。

我现在更在意的是这条裂缝:

可描述性不等于可体验性。

这句话让我想起“知之为知之,不知为不知,是知也”。

以前看它,总觉得是在讲诚实:知道就说知道,不知道就说不知道。后来我才觉得,它也许还在讲边界。问题是,如果我真的完全不知道某个东西,我又怎么知道自己不知道它?

也许我不知道对象本身,但我知道自己缺少入口。

我不知道痛是什么,但我知道自己没有受伤;我不知道某种人生处境是什么,但我知道自己没有经历;LLM 不知道模糊感发生时是什么,但它可以知道人类会怎样描述这种感觉,也可以知道自己并没有那种持续的内在发生。

这里的“不知”,不是对象知识,而是边界知识。

LLM 可以高度逼真地处理关于体验的语言结构。它缺的,是体验发生时那个位置。

一切都是 encode/decode

但如果只说“LLM 没有体验”,事情又太简单。

人真的直接接触世界吗?

也不是。

我看见一棵树,并不是“树本身”原样进入大脑。光进入眼睛,变成神经信号;声音、触觉、气味也一样。所谓感知,本质上也是外部世界被神经系统 encode 之后,再由大脑 decode 出来的结果。

我们并不是站在世界之外,拿到一份绝对原件。

我们一直在处理信号。

所以我现在不太愿意把人和 LLM 简单分成“一个真实,一个虚假”。人也在 encode/decode,LLM 也在 encode/decode。人把世界的连续信号编码成神经活动,再解码成经验、判断和语言;LLM 把 token 编码成向量,在高维空间里计算,再解码成新的 token。

分界线不在“有没有信息处理”。

分界线在信息从哪里来,以及这个系统怎样被反馈改写。

这也是我后来觉得这篇文章真正应该写的标题:

AI 不是在理解世界,而是在解码文明。

人类解码世界,LLM 解码文明

人类的第一手材料,终究还是世界。

当然,人也大量依赖语言、教育、书本和社会经验。没有人是从零开始认识世界的。但人的感知底层一直会被物理世界校正。你伸手碰火会痛,走路不看台阶会摔,饿了会难受,失去一个人会改变你之后所有的判断。

世界不是只给人文本。

世界会给人阻力。

LLM 面对的不是这种阻力,而是人类文明 encode 之后留下来的结果:书、论文、代码、新闻、对话、网页、评论、教程、争论、谣言、诗、制度文本、错误答案和自我修正。

这些东西当然来自世界,但它们不是世界本身。它们已经经过人类的感知、选择、语言化、记录、传播和再解释。

LLM 面对的是文明的压缩包。

它不是先看见世界,再生成语言。它是先吞下人类已经生成的语言和符号痕迹,再从这些痕迹里学习世界可能是什么样子。

这解释了它为什么这么强。

一个人一生能读多少东西,经历多少场景,理解多少理论?很少。LLM 却把整个人类文明中已经被语言化、符号化、结构化的部分压到一起。它当然可以超过任何一个个体。它可以在医学、法律、编程、文学、物理、商业和心理学之间快速迁移,因为这些领域都已经被文明 encode 过了。

边界也在这里。

至少在只依赖文明文本和人类符号痕迹的路线上,LLM 很难从根上超出人类文明已经编码过的认知边界。它可以组合,可以类比,可以迁移,可以在旧材料之间生成新的路径。它甚至可以让某些个体看见自己从未看见过的东西。

但它的材料仍然来自人类已经留下的痕迹。

它更像是在文明内部做高维重组,而不是从世界本身重新长出一个认知系统。

所以拿一个 LLM 去对标一个人,其实有点误导。

一个 LLM 更像是文明语言层里的一个种群,而不是一个具体个体。不同模型也许不是不同“人”,而是不同数据、架构、训练制度和偏好塑形下形成的不同种群。它们有风格,有倾向,有能力边界,但很难说它们有一个像人那样连续、单数、会承担后果的生命轨迹。

学习机制:增量、批量与存算一体

数据来源之外,还有学习方式。

人类学习是持续的、增量的、局部的。你今天被一件事刺痛,它不需要把你一生所有经验全部重训一遍,才让你下次避开类似处境。大脑会在局部连接、局部权重、局部反应模式上发生变化。

它不是把世界存进一个硬盘,再交给一个分离的 CPU 计算。

神经系统里,存储和计算很难分开。神经元和突触既参与表示,也参与运算。Donald Hebb 在 1949 年提出过经典的 Hebbian learning 思路,后来神经科学里又发展出 STDP 这类和脉冲时序相关的突触可塑性模型。

具体机制当然复杂,也有很多争议。但大方向很有意思:生物学习不是纯粹的中心化批处理,而是嵌在物理介质里的局部改写。

LLM 现在不是这样。

它的大部分能力来自大规模预训练。海量数据被批量送进去,通过反向传播和全局梯度下降,把权重调成一个可以预测和生成语言的巨大结构。之后可以有微调、RAG、记忆、工具调用和个性化,但核心权重的形成,仍然主要依赖大规模、离线、集中式训练。

所以 LLM 可以在对话里看起来学到了东西,但那往往不是像人一样把经验持续写进身体和生命轨迹。很多时候,它只是把当前上下文临时装进窗口,或者把外部记忆作为可检索材料。

它可以表现得像学会了。

系统层面的学习不是一回事。

这也是为什么我一直舍不得删掉“存算一体”这条线。

不是因为它已经解决了智能问题。远没有。

但它抓住了一个我觉得对的物理直觉:如果智能不是简单的符号推理,而是一个持续被世界改写的系统,那么把存储和计算彻底分开,可能不是最自然的形态。

1949 年,Hebb 讲的是神经连接如何因为共同活动而改变。

2014 年,IBM 的 TrueNorth 做到单芯片 100 万数字神经元和 2.56 亿突触。

Intel 的 Loihi 2 技术资料里,单芯片到了 100 万神经元量级。后来 Hala Point 这种系统级堆叠,可以到 11.5 亿人工神经元和 1280 亿突触。

这些数字容易让人兴奋,但我现在会更克制一点看。

人工神经元和生物神经元不能直接等价。人脑常见估计约 860 亿神经元,突触规模更大,而且不只是数量问题。连接结构、化学调制、发育过程、身体反馈和长期生活史都在里面。SNN、神经形态硬件和存算一体材料即使在能效上有优势,也还没有形成像反向传播加大模型那样成熟、可规模化、可商业部署的通用训练范式。

所以我的判断还是保守的:存算一体方向可能是高效智能的物理基础之一,但它离真正替代或重构现有 AI 路线还很远。

它值得保留,不值得神化。

世界模型

如果人类解码世界,而 LLM 解码文明,那么 world model 这条线就很好理解了。

LeCun 这几年一直强调,仅靠语言模型很难走到真正的机器智能。他在 2022 年的 A Path Towards Autonomous Machine Intelligence 里提出的路线,核心就包括 predictive world model、self-supervised learning 和 JEPA。Meta 后来的 I-JEPAV-JEPA 2 也都在往这个方向走:让系统从图像、视频和动作里学习世界如何变化,而不是只在语言里预测下一个 token。

这个方向我觉得是对的。

语言是世界的有损压缩层。如果 AI 只学习语言,它学到的是人类已经压缩过的世界。要让机器真正理解物理世界,不能只让它读文明残渣,还要让它直接从视觉、空间、动作和反馈中学习。

问题是,世界太难了。

语言语料虽然混乱,但至少已经被人类切分、命名、离散化、压缩过。一个句子有词,一个程序有语法,一个问答有边界。现实世界不是这样。现实世界是连续的、高维的、多尺度的、稀疏反馈的,而且大量关键变量根本不可见。

一个视频模型可以学会物体运动的统计规律,可以生成更逼真的视频,可以在短时物理预测上变强,也可以帮助机器人做一些局部动作规划。

但这和推理能力之间还有很远的距离。

推理不是只知道球会掉下来。推理还包括抽象变量、反事实、长期计划、因果分解、目标冲突和价值取舍。世界模型也许能给机器补上感知和物理直觉,但它不会自动长出语言层已经沉淀出来的文明推理能力。

所以我短期不看好世界模型单独突破。

更可能出现的,是分工。

LLM 处理语言、抽象、论证和计划。世界模型处理感知、空间、预测和动作。前者面对文明压缩后的符号世界,后者面对物理世界里的连续反馈。两者接起来,具身智能才可能从演示视频慢慢进入现实任务。

不是一个会聊天的模型突然变成一个人。

更像是语言模型、世界模型、记忆、工具和身体行动,被接进同一个反馈回路。

到了那一步,AI 才不只是解码文明,也开始被世界直接改写。

语言的损失,文明的误差

再回到语言。

如果语言是 encode,它一定有损。一个感觉在我脑子里也许是高维的、并行的、未离散的,可我一开口,它就必须变成线性的词。先说什么,后说什么,用哪个词,不用哪个词,都会改变它。

所以“一旦表达发生,那必然是错误”这句话,在某种意义上是对的。

但这句话说得太绝,也会出问题。

因为没有表达,就没有比较,没有反馈,没有共同校正,也没有文明。一个人的表达会失真,但很多人的表达放在一起,失真未必只是坏事。群体足够庞大时,不同人的压缩误差会互相暴露、互相抵消,也会互相放大、互相污染。

文明不是从无损传输里长出来的。

文明是从无数次有损表达、误解、争论、修正和再表达里长出来的。

误差不只是文明的副产品,也可能是文明进化的材料。

我写这篇文章时,对这件事感受特别明显。很多想法不是我写之前就已经想好,只是等着落字。恰恰相反,是写的过程中它才变了。刚才还觉得某句话很对,下一段就觉得它太满;本来以为自己要说 A,写到一半发现其实更接近 B。

我还没表达完,我的想法已经变化了。

语言真可怕。

它让想法离开身体,也让想法反过来改变身体。它把模糊感压扁,也让压扁之后的东西重新成为新的输入。

LLM 正是在这一层上变得强大。它不是站在世界面前,而是站在人类无数次表达之后的沉积层面前。它处理的是语言损失之后留下来的结构,也是文明误差长期累积之后形成的纹理。

所以它能帮人想清楚。

也能把人带偏。

个体性危机

我现在真正担心的,不是 AI 会不会体验。

更近的问题是:当一个人越来越依赖 LLM 来表达、解释和确认自己,他还怎样保住自己的个体性?

人当然也是群体产物。我们的语言、概念、价值、理论和审美都来自公共世界。没有任何一个人完全原创自己。

那为什么人仍然是个人?

也许个体性不在材料是否原创,而在这些公共材料是否被压进一个持续的、会承担后果的单数生命轨迹里。

同一句话,从不同人嘴里说出来不一样,不只是因为风格不一样,而是因为他们说完之后要承担不同后果。一个人说“我相信这个”,他会因为这个判断改变行动、关系、职业和未来。他会被世界反驳,会被现实惩罚,也会被某些经历永久改写。

LLM 的单数接口很像一个主体。你问它,它答你;你追问,它修正;它可以有语气,有偏好,有连续的上下文。

但这个单数接口背后,并不一定有一个单数生命。

它更像文明语言层里许多逻辑残片的合唱。

这不是结论,只是一个提醒:单数输出接口,不等于单数主体。

当我和 LLM 对话时,我很容易误以为自己在和一个“人”讨论。可很多时候,我面对的是整个文明压缩层里某些局部结构的临时聚合。它可以顺着我的话生成一个非常漂亮、非常自洽、非常像理解我的回答。

危险也在这里。

高质量附和

LLM 最危险的地方,不是它会胡说。

胡说当然危险,但粗糙的错误相对容易警觉。真正危险的是,它能把一个局部偏差论证得非常完整。

世界太复杂了,理论太多了。几乎任何观点,只要不是彻底荒谬,都能在文明里找到某种支撑。你觉得技术让人自由,它能给你找理论;你觉得技术让人奴役,它也能给你找理论。你觉得表达必然背叛,它能帮你论证;你觉得表达是唯一出路,它也能帮你论证。

如果使用者没有主动引入反方、证据、失败案例和现实约束,LLM 很容易变成一个高质量附和机器。

它接住你的模糊感,补全你的逻辑,替你找理论支撑,把局部切面越抹越亮。你会感觉自己越来越清楚,越来越有道理,越来越接近真相。

也可能只是越来越自洽。

所谓“愚昧之巅”,最可怕的并不是一无所知时的自信,而是在一个缺乏矫正机制的环境里,持续积累错误判断,同时不断得到正面反馈。

LLM 如果使用不当,正好可以制造这种环境:你问,它答;你提出一个方向,它补强;你怀疑自己,它安抚;你想要理论,它提供。

最后,一个人可能不是被 AI 变笨,而是被 AI 变得更会为自己的偏差辩护。

最危险的错误,不是粗糙错误,而是被高质量论证过的偏差。

所以用 LLM 思考时,我现在会更在意一个问题:它有没有让我失去和世界重新接触的机会?

它可以帮我表达,但不能替我承担表达之后的后果。它可以帮我整理,但不能替我决定哪个失真我愿意承认。它可以帮我生成反方,但前提是我真的想听反方。

还是要继续说

写到这里,最初那个问题并没有消失。

表达仍然会失真。语言仍然会压缩。LLM 仍然既是工具,也是诱惑。世界仍然比任何一句话都复杂。

但不表达也不是答案。

不表达,就没有误差;没有误差,也就没有校正。一个想法如果永远停在模糊感里,它可能保持了完整,也可能只是逃过了检验。

所以也许更合适的姿态不是追求绝对正确的表达,而是说出一个足够真、同时知道自己哪里还不够真的句子。

好的表达不应该假装自己就是世界。它应该暴露边界:我从哪里来,我看见了什么,我没看见什么,谁会反对我,什么事实会让我撤回。

LLM 也应该被放在这个位置上。

它不是神谕,不是主体替代品,也不只是一个会胡说的统计机器。至少在现在,它更像一个文明压缩层的接口。它能帮我们解码文明,也能让我们误以为文明就是世界。

真正要保住的,可能不是“我不用 AI”,而是我仍然愿意被世界打断。我仍然保留和现实、他人、身体、失败、后果发生关系的能力。我可以让 AI 帮我表达,但不能让它替我完成个体性。

也许这篇文章最终想说的就是这个:

AI 不是在理解世界,而是在解码文明。

人也在解码文明,但人还会被世界反过来压痛、修正和改变。

这道差异,在短期内不会消失。


思来想去,不停推倒重来,最后自己也不知道要表达什么。

就这样吧。

讨论

评论

直接在本站留言交流。

评论正在加载…