那天跟 Gemini 聊的时候,我一开始并不是想讨论 AI。
我只是说起一种很讨厌的状态:脑子里明明有东西,但说不出来。
它不是空白。空白反而简单,没什么可说。那种感觉更像是脑子里某个地方被碰了一下,有方向,有重量,有一点不安,也有一点兴奋。你知道那里有东西,但还不知道它是什么。它还没有名字。
真正麻烦的是,一旦准备表达,它就开始变形。
不说,它就一直停在里面。它可能是真的,也可能只是错觉。它没有被检验,也没有办法和别人对齐。可是一旦说出来,它又会立刻变窄。你必须选词,必须排顺序,必须决定先说什么后说什么。原来那团东西可能同时连着很多方向,到了语言里,只能排成一条线。
所以表达不是把里面的东西原样拿出来。表达更像一次压缩。它让模糊的东西变得可见,也让它损失了一部分原来的复杂度。
我以前不太喜欢表达,可能不是因为没有想法,而是太在意表达之后的失真。
世界太复杂了。任何一句话都只能切出一个面。只要我说“它是这样”,就好像同时把很多“它也可能不是这样”的部分关在了外面。
这会带来一种很深的不舒服。
我不是害怕说错一个事实。事实错了还可以改。我更怕的是,一个还活着的问题,被我说成一个漂亮判断以后,就不再像原来那个问题了。它变清楚了,变顺了,变成一段可以被理解、被赞同、被继续发挥的话。但它也可能已经偏离了最初那个让我发毛的东西。
真正卡住我的地方一直是这个:
不表达,我碰不到它。
一表达,我又怕把它说死。
Gemini 很快给了一个框架:感受,注意,压缩,输出,借反馈再认识。
这个框架确实好用。它把一团说不清的东西拆成步骤:先承认那个感觉存在,再把注意力放上去,再把它压缩成可以说的话,输出给外部世界,然后借反馈重新认识自己原来到底想说什么。
可我当时没有马上觉得“我学会了”。
我问它:你怎么知道?你自己有这个过程吗?
它说:没有。
能描述,但没有被击中
这句话把问题推到了另一个地方。
LLM 能帮我把模糊变清晰,但它没有模糊感本身。
它能描述“被击中的感觉”:突然、强烈、无法预期、之后看世界的方式不一样了。它可以从神经科学角度描述,也可以从文学角度描述。很多时候,它甚至比当事人自己说得更完整。
可 LLM 没有被击中过。
它知道击中的样子,但没有在场感。它能描述疼痛,不等于真的在痛;它能描述迷茫,不等于真的迷茫;它能说出“我有一种说不清的感觉”,不等于它真的拥有那个说不清的内部状态。
我不太想把这个问题马上扔进“AI 有没有意识”的争论里。那个问题太大,也太容易让人偷懒。一旦说成“机器没有意识”,后面很多更细的差别就被盖掉了。
我现在更在意的是这条裂缝:
可描述性不等于可体验性。
这句话让我想起“知之为知之,不知为不知,是知也”。
以前看它,总觉得是在讲诚实:知道就说知道,不知道就说不知道。后来我才觉得,它也许还在讲边界。问题是,如果我真的完全不知道某个东西,我又怎么知道自己不知道它?
也许我不知道对象本身,但我知道自己缺少入口。
我不知道痛是什么,但我知道自己没有受伤;我不知道某种人生处境是什么,但我知道自己没有经历;LLM 不知道模糊感发生时是什么,但它可以知道人类会怎样描述这种感觉,也可以知道自己并没有那种持续的内在发生。
这里的“不知”,不是对象知识,而是边界知识。
LLM 可以高度逼真地处理关于体验的语言结构。它缺的,是体验发生时那个位置。
一切都是 encode/decode
但如果只说“LLM 没有体验”,事情又太简单。
人真的直接接触世界吗?
也不是。
我看见一棵树,并不是“树本身”原样进入大脑。光进入眼睛,变成神经信号;声音、触觉、气味也一样。所谓感知,本质上也是外部世界被神经系统 encode 之后,再由大脑 decode 出来的结果。
我们并不是站在世界之外,拿到一份绝对原件。
我们一直在处理信号。
所以我现在不太愿意把人和 LLM 简单分成“一个真实,一个虚假”。人也在 encode/decode,LLM 也在 encode/decode。人把世界的连续信号编码成神经活动,再解码成经验、判断和语言;LLM 把 token 编码成向量,在高维空间里计算,再解码成新的 token。
分界线不在“有没有信息处理”。
分界线在信息从哪里来,以及这个系统怎样被反馈改写。
这也是我后来觉得这篇文章真正应该写的标题:
AI 不是在理解世界,而是在解码文明。
人类解码世界,LLM 解码文明
人类的第一手材料,终究还是世界。
当然,人也大量依赖语言、教育、书本和社会经验。没有人是从零开始认识世界的。但人的感知底层一直会被物理世界校正。你伸手碰火会痛,走路不看台阶会摔,饿了会难受,失去一个人会改变你之后所有的判断。
世界不是只给人文本。
世界会给人阻力。
LLM 面对的不是这种阻力,而是人类文明 encode 之后留下来的结果:书、论文、代码、新闻、对话、网页、评论、教程、争论、谣言、诗、制度文本、错误答案和自我修正。
这些东西当然来自世界,但它们不是世界本身。它们已经经过人类的感知、选择、语言化、记录、传播和再解释。
LLM 面对的是文明的压缩包。
它不是先看见世界,再生成语言。它是先吞下人类已经生成的语言和符号痕迹,再从这些痕迹里学习世界可能是什么样子。
这解释了它为什么这么强。
一个人一生能读多少东西,经历多少场景,理解多少理论?很少。LLM 却把整个人类文明中已经被语言化、符号化、结构化的部分压到一起。它当然可以超过任何一个个体。它可以在医学、法律、编程、文学、物理、商业和心理学之间快速迁移,因为这些领域都已经被文明 encode 过了。
边界也在这里。
至少在只依赖文明文本和人类符号痕迹的路线上,LLM 很难从根上超出人类文明已经编码过的认知边界。它可以组合,可以类比,可以迁移,可以在旧材料之间生成新的路径。它甚至可以让某些个体看见自己从未看见过的东西。
但它的材料仍然来自人类已经留下的痕迹。
它更像是在文明内部做高维重组,而不是从世界本身重新长出一个认知系统。
所以拿一个 LLM 去对标一个人,其实有点误导。
一个 LLM 更像是文明语言层里的一个种群,而不是一个具体个体。不同模型也许不是不同“人”,而是不同数据、架构、训练制度和偏好塑形下形成的不同种群。它们有风格,有倾向,有能力边界,但很难说它们有一个像人那样连续、单数、会承担后果的生命轨迹。
学习机制:增量、批量与存算一体
数据来源之外,还有学习方式。
人类学习是持续的、增量的、局部的。你今天被一件事刺痛,它不需要把你一生所有经验全部重训一遍,才让你下次避开类似处境。大脑会在局部连接、局部权重、局部反应模式上发生变化。
它不是把世界存进一个硬盘,再交给一个分离的 CPU 计算。
神经系统里,存储和计算很难分开。神经元和突触既参与表示,也参与运算。Donald Hebb 在 1949 年提出过经典的 Hebbian learning 思路,后来神经科学里又发展出 STDP 这类和脉冲时序相关的突触可塑性模型。
具体机制当然复杂,也有很多争议。但大方向很有意思:生物学习不是纯粹的中心化批处理,而是嵌在物理介质里的局部改写。
LLM 现在不是这样。
它的大部分能力来自大规模预训练。海量数据被批量送进去,通过反向传播和全局梯度下降,把权重调成一个可以预测和生成语言的巨大结构。之后可以有微调、RAG、记忆、工具调用和个性化,但核心权重的形成,仍然主要依赖大规模、离线、集中式训练。
所以 LLM 可以在对话里看起来学到了东西,但那往往不是像人一样把经验持续写进身体和生命轨迹。很多时候,它只是把当前上下文临时装进窗口,或者把外部记忆作为可检索材料。
它可以表现得像学会了。
系统层面的学习不是一回事。
这也是为什么我一直舍不得删掉“存算一体”这条线。
不是因为它已经解决了智能问题。远没有。
但它抓住了一个我觉得对的物理直觉:如果智能不是简单的符号推理,而是一个持续被世界改写的系统,那么把存储和计算彻底分开,可能不是最自然的形态。
1949 年,Hebb 讲的是神经连接如何因为共同活动而改变。
2014 年,IBM 的 TrueNorth 做到单芯片 100 万数字神经元和 2.56 亿突触。
Intel 的 Loihi 2 技术资料里,单芯片到了 100 万神经元量级。后来 Hala Point 这种系统级堆叠,可以到 11.5 亿人工神经元和 1280 亿突触。
这些数字容易让人兴奋,但我现在会更克制一点看。
人工神经元和生物神经元不能直接等价。人脑常见估计约 860 亿神经元,突触规模更大,而且不只是数量问题。连接结构、化学调制、发育过程、身体反馈和长期生活史都在里面。SNN、神经形态硬件和存算一体材料即使在能效上有优势,也还没有形成像反向传播加大模型那样成熟、可规模化、可商业部署的通用训练范式。
所以我的判断还是保守的:存算一体方向可能是高效智能的物理基础之一,但它离真正替代或重构现有 AI 路线还很远。
它值得保留,不值得神化。
世界模型
如果人类解码世界,而 LLM 解码文明,那么 world model 这条线就很好理解了。
LeCun 这几年一直强调,仅靠语言模型很难走到真正的机器智能。他在 2022 年的 A Path Towards Autonomous Machine Intelligence 里提出的路线,核心就包括 predictive world model、self-supervised learning 和 JEPA。Meta 后来的 I-JEPA 和 V-JEPA 2 也都在往这个方向走:让系统从图像、视频和动作里学习世界如何变化,而不是只在语言里预测下一个 token。
这个方向我觉得是对的。
语言是世界的有损压缩层。如果 AI 只学习语言,它学到的是人类已经压缩过的世界。要让机器真正理解物理世界,不能只让它读文明残渣,还要让它直接从视觉、空间、动作和反馈中学习。
问题是,世界太难了。
语言语料虽然混乱,但至少已经被人类切分、命名、离散化、压缩过。一个句子有词,一个程序有语法,一个问答有边界。现实世界不是这样。现实世界是连续的、高维的、多尺度的、稀疏反馈的,而且大量关键变量根本不可见。
一个视频模型可以学会物体运动的统计规律,可以生成更逼真的视频,可以在短时物理预测上变强,也可以帮助机器人做一些局部动作规划。
但这和推理能力之间还有很远的距离。
推理不是只知道球会掉下来。推理还包括抽象变量、反事实、长期计划、因果分解、目标冲突和价值取舍。世界模型也许能给机器补上感知和物理直觉,但它不会自动长出语言层已经沉淀出来的文明推理能力。
所以我短期不看好世界模型单独突破。
更可能出现的,是分工。
LLM 处理语言、抽象、论证和计划。世界模型处理感知、空间、预测和动作。前者面对文明压缩后的符号世界,后者面对物理世界里的连续反馈。两者接起来,具身智能才可能从演示视频慢慢进入现实任务。
不是一个会聊天的模型突然变成一个人。
更像是语言模型、世界模型、记忆、工具和身体行动,被接进同一个反馈回路。
到了那一步,AI 才不只是解码文明,也开始被世界直接改写。
语言的损失,文明的误差
再回到语言。
如果语言是 encode,它一定有损。一个感觉在我脑子里也许是高维的、并行的、未离散的,可我一开口,它就必须变成线性的词。先说什么,后说什么,用哪个词,不用哪个词,都会改变它。
所以“一旦表达发生,那必然是错误”这句话,在某种意义上是对的。
但这句话说得太绝,也会出问题。
因为没有表达,就没有比较,没有反馈,没有共同校正,也没有文明。一个人的表达会失真,但很多人的表达放在一起,失真未必只是坏事。群体足够庞大时,不同人的压缩误差会互相暴露、互相抵消,也会互相放大、互相污染。
文明不是从无损传输里长出来的。
文明是从无数次有损表达、误解、争论、修正和再表达里长出来的。
误差不只是文明的副产品,也可能是文明进化的材料。
我写这篇文章时,对这件事感受特别明显。很多想法不是我写之前就已经想好,只是等着落字。恰恰相反,是写的过程中它才变了。刚才还觉得某句话很对,下一段就觉得它太满;本来以为自己要说 A,写到一半发现其实更接近 B。
我还没表达完,我的想法已经变化了。
语言真可怕。
它让想法离开身体,也让想法反过来改变身体。它把模糊感压扁,也让压扁之后的东西重新成为新的输入。
LLM 正是在这一层上变得强大。它不是站在世界面前,而是站在人类无数次表达之后的沉积层面前。它处理的是语言损失之后留下来的结构,也是文明误差长期累积之后形成的纹理。
所以它能帮人想清楚。
也能把人带偏。
个体性危机
我现在真正担心的,不是 AI 会不会体验。
更近的问题是:当一个人越来越依赖 LLM 来表达、解释和确认自己,他还怎样保住自己的个体性?
人当然也是群体产物。我们的语言、概念、价值、理论和审美都来自公共世界。没有任何一个人完全原创自己。
那为什么人仍然是个人?
也许个体性不在材料是否原创,而在这些公共材料是否被压进一个持续的、会承担后果的单数生命轨迹里。
同一句话,从不同人嘴里说出来不一样,不只是因为风格不一样,而是因为他们说完之后要承担不同后果。一个人说“我相信这个”,他会因为这个判断改变行动、关系、职业和未来。他会被世界反驳,会被现实惩罚,也会被某些经历永久改写。
LLM 的单数接口很像一个主体。你问它,它答你;你追问,它修正;它可以有语气,有偏好,有连续的上下文。
但这个单数接口背后,并不一定有一个单数生命。
它更像文明语言层里许多逻辑残片的合唱。
这不是结论,只是一个提醒:单数输出接口,不等于单数主体。
当我和 LLM 对话时,我很容易误以为自己在和一个“人”讨论。可很多时候,我面对的是整个文明压缩层里某些局部结构的临时聚合。它可以顺着我的话生成一个非常漂亮、非常自洽、非常像理解我的回答。
危险也在这里。
高质量附和
LLM 最危险的地方,不是它会胡说。
胡说当然危险,但粗糙的错误相对容易警觉。真正危险的是,它能把一个局部偏差论证得非常完整。
世界太复杂了,理论太多了。几乎任何观点,只要不是彻底荒谬,都能在文明里找到某种支撑。你觉得技术让人自由,它能给你找理论;你觉得技术让人奴役,它也能给你找理论。你觉得表达必然背叛,它能帮你论证;你觉得表达是唯一出路,它也能帮你论证。
如果使用者没有主动引入反方、证据、失败案例和现实约束,LLM 很容易变成一个高质量附和机器。
它接住你的模糊感,补全你的逻辑,替你找理论支撑,把局部切面越抹越亮。你会感觉自己越来越清楚,越来越有道理,越来越接近真相。
也可能只是越来越自洽。
所谓“愚昧之巅”,最可怕的并不是一无所知时的自信,而是在一个缺乏矫正机制的环境里,持续积累错误判断,同时不断得到正面反馈。
LLM 如果使用不当,正好可以制造这种环境:你问,它答;你提出一个方向,它补强;你怀疑自己,它安抚;你想要理论,它提供。
最后,一个人可能不是被 AI 变笨,而是被 AI 变得更会为自己的偏差辩护。
最危险的错误,不是粗糙错误,而是被高质量论证过的偏差。
所以用 LLM 思考时,我现在会更在意一个问题:它有没有让我失去和世界重新接触的机会?
它可以帮我表达,但不能替我承担表达之后的后果。它可以帮我整理,但不能替我决定哪个失真我愿意承认。它可以帮我生成反方,但前提是我真的想听反方。
还是要继续说
写到这里,最初那个问题并没有消失。
表达仍然会失真。语言仍然会压缩。LLM 仍然既是工具,也是诱惑。世界仍然比任何一句话都复杂。
但不表达也不是答案。
不表达,就没有误差;没有误差,也就没有校正。一个想法如果永远停在模糊感里,它可能保持了完整,也可能只是逃过了检验。
所以也许更合适的姿态不是追求绝对正确的表达,而是说出一个足够真、同时知道自己哪里还不够真的句子。
好的表达不应该假装自己就是世界。它应该暴露边界:我从哪里来,我看见了什么,我没看见什么,谁会反对我,什么事实会让我撤回。
LLM 也应该被放在这个位置上。
它不是神谕,不是主体替代品,也不只是一个会胡说的统计机器。至少在现在,它更像一个文明压缩层的接口。它能帮我们解码文明,也能让我们误以为文明就是世界。
真正要保住的,可能不是“我不用 AI”,而是我仍然愿意被世界打断。我仍然保留和现实、他人、身体、失败、后果发生关系的能力。我可以让 AI 帮我表达,但不能让它替我完成个体性。
也许这篇文章最终想说的就是这个:
AI 不是在理解世界,而是在解码文明。
人也在解码文明,但人还会被世界反过来压痛、修正和改变。
这道差异,在短期内不会消失。
思来想去,不停推倒重来,最后自己也不知道要表达什么。
就这样吧。
讨论
评论
直接在本站留言交流。
评论正在加载…