加速蒸馏 · Archē & The Weave

如果把 LLM 说得朴素一点，它本来就是一次巨大的蒸馏。

过去的人写下书、论文、代码、问答、评论和各种乱七八糟的网页。模型厂把这些东西收集起来，压缩进一个可以生成下一个词的系统里。这里面当然有工程细节、模型结构和训练技巧，但从更大的尺度看，它做的事并不神秘：把历史上人类留下的知识、判断、表达方式和错误习惯，尽可能压进一个可调用的统计结构里。

第一阶段的故事，大概是“谁能拿到更多历史材料”。这一阶段已经很残酷，但至少还能想象成某种大规模资料整理。只要数据还在外面，谁更能抓，谁更会清洗，谁更能付训练成本，谁就有机会往前挤。

但现在事情正在变成另一种形态。

能收集到的公开材料，几家模型厂基本都已经收集得差不多了。后半场不再只是静态语料的竞赛，而是动态反馈的竞赛。谁的模型被更多人使用，谁就能更快看到真实问题、真实工作流、真实偏好、真实失败案例，以及人们在什么地方愿意信任模型、在什么地方会立刻把它关掉。

这会形成一个很强的正反馈：模型越强，使用者越多；使用者越多，反馈越密；反馈越密，下一轮模型越强。到了这个阶段，强者恒强就不是一句商业观察，而更像训练系统自己的结构性倾向。

更进一步，当当代模型开始进入模型训练本身，这个循环会继续加速。AI 帮人写提示词、写代码、写文档、整理资料、生成测试、评估答案，也会被用来筛数据、造数据、清洗数据、做偏好标注。于是人类不只是把过去的知识交给模型，也在把现在的行动方式交给模型；模型不只是学习人类已经写下的东西，也在学习人类如何使用模型。

这就有一点微妙了。

我们现在看起来是在使用 AI。写邮件、写代码、查资料、改文案、做方案，表面上是工具在服务人。但从训练系统的角度看，每一次提问、每一次追问、每一次复制、每一次放弃、每一次重写，都是一条关于人类偏好和任务结构的信号。

更微妙的是，这件事常常还是付费发生的。用户付费购买能力，同时也在生产下一轮能力所需的反馈。它不完全等同于传统意义上的“免费劳动”，因为用户确实得到了服务；但它也不只是普通消费，因为消费过程本身会反过来强化供应方的系统优势。

所以这不是简单的“AI 抢不抢工作”的问题。更底层的问题是：当人类把越来越多的思考、表达、判断和协作过程搬进 AI 界面，我们就在以极高频率暴露自己的工作流。历史材料被蒸馏过一次，当代行为正在被蒸馏第二次。

这场蒸馏还有一个残酷之处：它很难退出。

对个人来说，不用 AI 可能意味着效率落后；用 AI 则意味着把自己的任务、偏好和中间过程继续送进系统。对公司来说，不接入 AI 可能意味着成本和速度被对手拉开；接入 AI 则意味着组织内部的知识流、协作习惯和业务边界会被更深地结构化、记录和外部依赖。

于是它不像一个可以从容投票的技术选择，更像一场全人类的效率内卷。每个人都知道更快的工具会改变比赛规则，但只要比赛还在继续，就很难单方面停下来。

当然，这不意味着结论只能是悲观的。蒸馏本身不是罪。人类文明一直在蒸馏：教育是蒸馏，书籍是蒸馏，制度也是蒸馏。真正的新问题在于，这一次蒸馏的速度、规模和反馈闭环都不一样，而且蒸馏结果集中在极少数可部署、可收费、可继续训练的系统里。

所以我更愿意把它先当成一个结构性事实，而不是道德控诉。

我们正在把历史交给模型，也正在把现在交给模型。我们以为自己只是坐在工具前提高效率，但工具背后也在看见我们如何思考、如何犯错、如何修正、如何协作。人类过去留下的东西已经被压缩了一轮，人类正在发生的东西，则正在被加速蒸馏。

那怎么办？

也许没有漂亮答案。要么尽早跳进海里，学会在这套水里呼吸；要么跑到珠穆朗玛之巅，尽量远离这套系统的反馈回路。大多数人最后大概率既不会完全下海，也不会真的上山，而是在两者之间找一个勉强能活的位置。

至少在今天，我觉得真正值得警惕的不是“AI 会不会学会我们知道什么”，而是“AI 正在学会我们如何变得更快”。