模型之后：关于价值剩余的几个区分

#一、一个被错置的问题

我有过一段时间反复在问自己一个问题：要不要继续待在 AI 行业。

但问到第三次的时候我意识到，这不是一个真问题。或者说，它是一个被错置的问题——它把一个内部判断（我应该把自己放在价值链的哪一层）伪装成了一个外部判断（这个行业值不值得待）。这两个问题表面上很像，处理方式完全不同。前者要求你拆解你自己工作的具体形态，后者只要求你对一个行业标签做一次态度表态。后者廉价，所以诱人。

把问题错置成廉价的版本，是逃避真正困难的判断的最常见方式。

所以下面这篇文章不解决"要不要待在 AI 行业"。它处理的是被这个伪问题挡住的真问题：当模型能力持续增强、工程和界面持续被商品化之后，产品层还剩下什么不可被抹平的价值。 如果这个问题答不出来，"留下"或"离开"都没有意义——前者是惯性，后者是赌气，两者都不是判断。

下面我会逐层给出几个区分。每一个区分都试图把一个被日常语言模糊化的概念拆开，然后指出新条件下哪一部分正在解耦。

#二、第一个区分：行业判断 vs 价值判断

考虑这样一个命题：

(P1) "AI 行业不值得待。"

(P1) 在多数对话里被当作一个整体命题处理。但它实际上至少包含两个独立的子命题：

(P1a) AI 作为一类技术能力，长期价值有限。 (P1b) 把 AI 能力组织成产品并出售这种工作方式，长期价值有限。

(P1a) 是一个关于技术轨迹的预测判断。(P1b) 是一个关于商业组织形式的结构判断。两者可以独立为真或为假。

我对 (P1a) 没有怀疑。模型能力本身在持续推进，没有任何迹象表明它会停下。我真正怀疑的是 (P1b)——更准确地说，是 (P1b) 的一个特殊形态：把上游模型能力重新封装成功能型软件，然后默认这种封装本身就足以构成护城河。

这个区分的意义在于：它把一个看起来悲观的态度（"AI 不行"）转换成了一个具体可操作的判断（"哪一类位置不值得占"）。前者无法回应，后者可以被进一步拆解。

我之所以对 (P1b) 怀疑，不是因为我对包装这件事本身有意识形态上的反感。是因为我自己作为从业者，已经发现绝大多数 AI 产品在我这里产生的价值，比我直接调用通用模型加 Claude Code 来得小。这个观察意味着什么？意味着我已经天然不再适合用"能不能做出某种 AI 功能"来判断一个方向值不值得做了。这个判据在两年前是有效的——彼时一般用户还不会直接用模型，所以一个稍微会包装的产品就有套利空间。今天这个空间正在收窄。

所以这一节的结论是：

(C1) 真正需要被审视的不是"AI 是否值得待"，而是"哪一类把模型能力组织成产品的方式正在失去其价值基础"。

#三、第二个区分：三层结构与第一方下场

把 AI 创业的可介入空间拆成三层是一个常见的做法：infra、模型、产品。但这个三层结构的真正意义不在于分类，而在于它能让你看清每一层的护城河到底建立在什么之上。

infra 层的护城河建立在资本密度和时间窗口上。这一层的筹码已经被上一代超大厂集中持有，普通初创几乎没有切入空间。这个判断在 2026 年没有变化。

模型层的护城河建立在智力密度、数据获取权和资本密度的乘积上。头部闭源模型厂已经建立了明显代差，这个代差不仅没有被时间稀释，反而在加深。开源模型在追赶能力，但在前沿可用性上始终落后一到两个 generation。

产品层——这是问题真正发生的地方。产品层的传统护城河逻辑是：分发、品牌、用户习惯、数据沉淀。但这套逻辑现在遇到了一个新条件：模型厂正在亲自下场做应用。

这个新条件值得专门分析。两年前讨论"产品层 vs 模型厂"的时候，普遍假设是模型厂会专注做底座，应用层留给生态。这个假设在 2025 年被打破了——Claude Code、Codex、Seedance 自己的 agent 入口、Gemini 的应用矩阵——这些都不是底座，是终端产品。模型厂下场之后，第三方"壳子"的处境发生了结构性变化：

(P2) 当模型厂亲自做了某个应用类目的第一方产品之后，第三方在这个类目里的位置不是"做得更好"的问题，而是"凭什么模型厂会让你做得更好"的问题。

这是一个不对称竞争。第三方壳子的 COGS 全部来自模型厂的 markup，它没有任何结构性筹码可以打赢模型厂的纵向集成。Cursor 在 2024 年还有空间，因为彼时模型厂还没有做 IDE。今天 Claude Code 和 Codex 已经在那个位置上，这个空间被压缩到了几乎为零。

但这不意味着所有产品层位置都被消灭了。被消灭的是"产品 = 模型 + 一个 UI"这个特定形态。仍然有空间的位置至少有三类：

(i) 分发与合规被锁住的场景。某些 B2B 客户因为合规要求、采购流程、数据驻留，不能直接对接模型厂，必须有中间层。这一层的护城河不是产品本身，是关系、流程、合规资质。

(ii) 多模型编排的真实需求场景。某些领域不存在单一最优模型——视频生成需要在 Veo、Sora、Seedance、Kling 之间动态选型——而模型厂自己不会做跨家集成，因为这违反它们押注自己模型的核心商业利益。

(iii) "模型只是其中一道工序"的垂直场景。医疗影像加报告生成加 EHR 集成、法律研究加判例库加合规审查——这些场景里模型只是流程中的一环，模型厂没有动力下沉到这个粒度。

这三类位置的共同特征是：它们都不是"AI 产品"那种闪亮叙事的形态，更像是过去 SaaS 时代的 boring 工作。它们的护城河不来自模型，来自模型之外的某种结构性约束。

所以这一节的结论是：

(C2) 模型厂第一方下场之后，产品层并未消失，但"把模型重新包装成产品"这个特定形态的空间被结构性地压缩。剩下的位置都建立在模型之外的某种不可抹平的约束上。

#四、第三个区分：复制成本 vs 生产成本

下一个需要被拆开的是经济模型。

上一代互联网软件的暴富叙事建立在一个几乎被神化的特征上：operating leverage。固定成本投入之后，复制和分发接近零边际成本。一份代码、一次部署、上亿次调用——单位成本无限趋近于零。这个特征是过去二十年所有 SaaS 估值倍数的根本依据。

AI 产品违反这个特征。

(P3) 多数 AI 产品的每一次响应、每一次生成、每一次推理都对应真实的算力消耗，单位成本不会随着用户规模的扩大而趋近于零。

这个判断我两年前会做一个保留：未必如此，因为推理成本可能会随时间快速下降——所谓"AI 时代的 Wright's Law"。如果这条曲线持续，那么 AI 产品的 operating leverage 会被时间救回来。

但这个保留在 2025–2026 之间被现实证伪。一些观察：

Seedance 2.0 release 时定价显著高于预期，且 API 权限收紧两个月后才全球放开。
Claude 4.7 发布之后 token 计算规则的重新设计，使得相同长度的 prompt 消耗多出 20–30%。
各国内模型厂在 2026 年第一季度纷纷收紧订阅制配额，停止补贴。

这些信号合在一起说明的不是"成本曲线在波动"，而是"模型厂不再补贴用户"。免费送 token 的时代结束了。同时模型能力的提升又拉高了高端 inference 的价格区间。所以 (P3) 不是一个阶段性观察，而是一个结构性事实。

这个事实的 implication 非常具体：

(C3) 在 token 价格不显著下降的前提下，低 ARPU、token 消耗大的 AI 产品（generic chatbot、消费者向视频生成、个人助手）的处境会持续紧张；而高 ARPU、token 消耗相对内容价值很小的产品（法律研究、临床决策、金融风控、专业工程工具）才有持续盈利的空间。

注意 (C3) 不是在说前者一定死后者一定活——是在说单位经济模型的结构性偏向已经发生转移。这个转移决定了未来三到五年 AI 产品形态的演化方向。

旧时代那种"轻资产、高杠杆、近乎零边际成本"的软件财富叙事，对 AI 产品不成立。

#五、转向：从功能到剩余

到这里前三个区分给出了一组联立约束：壳子位置在收缩 (C2)，单位经济模型在变紧 (C3)，行业判断必须降维成具体位置判断 (C1)。但这三个约束都是负面的——它们告诉我哪些位置不行，没告诉我哪些位置仍然成立。

所以问题需要被重新提一次：

在模型能力被普及之后，什么东西不会被轻易抹平？

这个问题是真正的转向所在。它把注意力从"做什么炫酷的功能"转向了"什么东西在被抹平之后仍然剩下"。剩余结构的问题，比新颖结构的问题，更接近价值的真实位置。

因为新颖会被复制，剩余不会。

#六、第四个区分：处理数据 vs 提供数据 vs 生产数据

剩余结构在哪里？我之前在《数据才是产品》里给过一个拆解：所有软件和数据的关系，可以分成三条管线。这里再用一次，因为它是后面几个区分的基础。

(M1) 处理数据：产品提供处理能力，用户带着自己的数据来，使用产品的算法把原始数据优化，然后带着更好的数据走人。Office 套件、Adobe 套件、AutoCAD、MATLAB——这类产品的共同特征是它们内部没有内容，内容来自用户。

(M2) 提供数据：产品本身持有数据资产，或者托管用户的数据，用户来是为了消费这些数据或在这些数据之上协作。这一类内部还可以再分成两个子类：

平台持有第三方数据资产——网易云的版权库、YouTube 的视频池、Google 的搜索索引、Netflix 的内容库。壁垒是内容积累和版权关系。
平台托管用户的第一方数据——Notion 的笔记、Slack 的消息、GitHub 的代码、Google Drive 的文件。壁垒是迁移成本和组织结构。

两个子类的所有权模型不同，但在做同一件事：给数据一个有结构的住所。

(M3) 生产数据：产品根据用户需求从无到有地生成此前不存在的内容。AI 写作助手、AI 设计工具、AI 视频生成器、AI 编程助手——它们卖的不是处理能力，也不是数据资产，是凭空创造的能力。这是软件历史上第一次出现的产品形态。处理需要原料，提供需要积累，生产两者都不需要。

这三条管线在 AI 时代经历的命运完全不同。

(M1) 处理数据正在被通用模型吃掉。处理能力本质上是算力可以替代的。当通用模型可以直接理解意图并执行处理时，那些精心设计的专用算法就成了不必要的中间层。你不再需要一个专门的图像编辑软件来调色——你告诉模型"调成暖色调"就行。你不再需要一个专门的数据清洗工具——把表格丢给模型让它处理就行。过去写一个 Photoshop 竞品需要几百人干几年，现在一个通用模型就能覆盖大部分普通用户的修图需求。工程不是不再需要，而是不再构成壁垒。

(M3) 生产数据也在被抹平，而且速度可能更快。这违反直觉——生产数据看起来是 AI 时代的原生赛道——但正因如此，这条线上的产品面对的竞争对手不是彼此，是底层模型本身。绝大多数 AI 创业的本质模式是"用户说想法 → 产品调用模型 → 输出结果"，它们卖的不是自己的生成能力，是对底层模型生成能力的封装。当底层模型自己就足够简单时，这层封装从"价值"变成了"成本"。模型能力每一次跃升，都在压缩上面这层封装的存在理由。这个压缩是不可逆的——模型能力只会越来越强。

(M2) 提供数据的能力不会被轻易抹平。因为数据的积累不是算力问题，是时间和网络效应问题。AI 可以一秒钟写出一首歌，但它不能一秒钟积累出一个版权库。AI 可以一秒钟生成一份用户画像，但它不能一秒钟建立起一个有十亿用户的社交网络。AI 可以在一天之内复刻 Notion 的编辑器，但它不能复刻一个团队两年来在这个 workspace 里沉淀的数据和组织结构。算力可以加倍，时间不会减半。

这给出第四个区分：

(C4) 处理能力在被算力替代，生成能力在被基础模型内化，唯一不会被抹平的是需要时间和关系积累的数据。工程在贬值，数据在升值。

但这里需要立刻补一个限定："提供数据已被垄断"这个判断对旧数据类型是对的，对新数据类型未必。上一代互联网巨头垄断了音乐版权、社交关系、搜索索引、视频内容、职业身份——这些类目的竞争窗口确实已经关闭。但 AI 时代正在催生新的数据需求，而对应的资产还在形成中：用户跨平台的结构化偏好、行业特定的结构化知识、跨源组合视图。这些数据类型目前还没有现成的垄断者，因为它们的价值在 AI agent 普及之前不够大，没有人有动力去做。现在动力正在出现。

所以 (C4) 不是一个"已经晚了"的悲观结论，是一个"应当往哪里看"的方向指示。

但只走到这里还不够。因为如果只停在 (C4)，结论会被理解为"找一个有数据资产的公司就行"——这是一个被廉价化的版本。真正的问题在下一个区分。

#七、第五个区分：数据资产 vs 数据结构

数据不是一团无差别的资源。

(P5) 决定一份数据的价值的，不只是它的体量、独占性或者新鲜度，更是它被组织成什么样的结构。

这个命题听起来抽象，举两个例子立刻具体：

例一：Notion 之所以是 Notion，不是因为它存了多少文档（Google Docs 存得更多），而是因为它发明了一套 page / database / relation 的数据结构，让用户得以把笔记、知识、任务、协作组织成一个可以互相引用的对象网络。这个结构不仅决定了产品的功能，也决定了用户在使用过程中逐渐学会用这种方式思考。

例二：Slack 之所以是 Slack，不是因为它能发消息（什么软件都能发消息），而是因为它把对话组织成 thread / message / channel 的结构。这个结构定义了什么算一个对象、什么对象之间允许什么关系、用户该如何在这些对象之间协作。

数据结构不是一个冷冰冰的后端 schema。它是一个能反向驯化用户、塑造心智、规定认知模型的存在。它定义了某个领域里"什么是一个东西"。

发明一个新的、有效的数据结构是极其困难的——但复制一个已经存在的数据结构是廉价的。这两件事不矛盾。Notion 的数据库设计至今没有产品完全复刻出来，能从 API 中猜个大概，但内核的认知深度无法逆向。这说明 invention 和 copy 之间存在着一个不对称：前者需要长期与用户共撞墙的认知积累，后者只需要看到结果之后做技术实现。

但这里需要一个自我反驳。

如果发明数据结构是这么有价值的事，为什么 Notion 这样的产品不多？答案不是因为大家没意识到——是因为 invention 不是一个时刻，是一个长达多年的、和用户共同 hit-the-wall 的过程。Ivan Zhao 的 page/database/relation 不是某天坐在房间里想出来的，是无数 prosumer 用户在 page 嵌 page、property 链 property 的过程中暴露需求、再迭代抽象出来的。也就是说，"发明新数据结构"不是一个可以决定去做的事——它是事后才能识别的产物。

这个限定条件至关重要。它意味着任何"我要去发明新数据结构"的承诺，本质上都是一个长期 commitment 的承诺——你需要在一个特定问题域里 deep commit 五到十年，才有可能积累出别人逆向不出来的结构理解。

所以 (C4) 需要被精化为：

(C5) 真正不可被抹平的不是"数据资产"这个抽象概念，而是长期 commitment 沉淀出的结构理解。这种结构理解既不能被算力复制，也不能被时间救济——它只能被换。

#八、当前 AI 产品的本体论错位

现在用 (C5) 来看当前的 AI 产品。

绝大多数 AI 产品的数据结构有一个共同特征：它们不是从人的任务世界里抽象出来的，而是从模型 API 入口倒推出来的。

session、message、tool——这三件套几乎成了所有 AI 产品的标配。但这套结构的本质是什么？是 LLM-compatible，不是 AI-native，更不是 human-shaping。

具体来说：

没有 user / assistant 区分，就很难调用模型——所以产品里有"角色"。
没有 turn-based conversation，就很难承接推理上下文——所以产品里有"对话"。
没有 tool call schema，就很难做函数调用——所以产品里有"工具"。

整个 AI 产品世界因此被模型接口塑造成了问答式、对话式的结构。但这种结构虽然适合调用模型，却没有真正发明新的认知对象。它只是让用户在聊天框里和模型互动，没有像 Notion 或 Slack 那样定义一套新的世界对象。

(P6) 当前主流 AI 产品的数据结构服务的是模型，不是用户。这套结构对模型友好，但对用户的认知世界没有提供任何新的对象。

这是一个本体论错位。

如果接受 (C5)——也就是说，真正的价值剩余来自长期 commitment 沉淀的结构理解——那么"为模型方便而设计的结构"显然不是这种结构。它解决的是工程问题，不是用户问题。它会随着模型 API 的演化而被迫调整，而不会反过来塑造模型。这是一种被动的、过渡性的本体（transitional ontology）。

下一代真正有价值的 AI 产品，应当从这套过渡性本体里走出来，去发明一种新的对象系统——不是 session/message/tool，而是某种从用户的真实任务世界出发的新结构。

但这种结构具体长什么样？我不知道。我只能列举一些可能的方向：

记忆不再是上下文摘要，而是带类型、来源、有效范围、冲突关系的对象。
任务不再是自然语言请求，而是带 owner、constraint、state、evidence 的节点。
知识不再是文档 chunk，而是可以被引用、修正、连接、审计的结构化单元。

但请注意：这些只是结构的形状提示，不是答案。真正的答案只能在某个具体领域里、和具体用户长期共同撞墙之后，才能被识别出来。

#九、一条历史线索：从共生到工具，再回到共生

到这里，商业线和产品线的分析已经基本到位。但这条线索还可以再往下推一层——推到 HCI 的历史源头。这一推不是为了显示视野宽广，是为了让前面的判断接到一个更深的问题上。

Licklider 的"man-computer symbiosis"（1960） 设想的是人和计算机之间的双向适应——计算机不只是响应人的指令，也在持续学习人的偏好和思维方式，最终形成一种共生的关系。这是 HCI 的真正起点。

Engelbart 的"augmenting human intellect"（1962） 在此基础上提出了 bootstrapping——工具改变人的思维，人再用新的思维方式改造工具，循环往复。这是一种递归的共同演化。

但 Engelbart 之后的工业界没有真正实现这个递归。Xerox PARC 和后来的 Apple 把 GUI 做出来之后，做了一个不起眼但后果深远的选择：递归被拆成了两个角色。开发者改变工具，用户使用工具。Engelbart 设想的"使用工具的人可以改变工具本身的行为"的循环，被一道技术门槛挡在了外面。用户能改的只有设置、偏好、主题配色——这些是 configuration，不是 structure。

直到 LLM 时代，普通人第一次能通过自然语言直接参与工具的生成与修改。bootstrapping 在 session 层面局部恢复了：人说出一个模糊想法，模型把它实现，人因为看到结果而修正自己的想法，再继续修改工具。这是 Engelbart 那条循环的回归。

但问题立刻又来了：这一切只发生在 session 内，缺乏持久化机制。手一松，对话结束，递归中断，共同演化就消散了。

这条 HCI 线索和前面的商业线索在这里碰到一起。碰撞点正是数据结构。

(P7) 如果人和模型之间的共同创造、共同修正、共同演化不能被对象化、结构化、可继承化，那么它就只是一次次 ephemeral 的聊天体验。它不会沉淀成资产，不会形成产品，不会构成护城河。

反过来——如果这种共同演化能被沉淀成新的对象系统——那么 AI 产品才真正开始脱离 LLM-compatible 的过渡性本体，进入一种新的形态。

所以 (C5) 可以被进一步表述为：

(C6) AI 时代真正有价值的，不是数据资产本身，而是能够承载人机共同演化的新数据结构。这种结构必须既是 human-shaping 的（它定义用户世界里的对象），又是 recursive-friendly 的（它让共同演化的痕迹能跨 session 沉淀）。

#十、一个关于"值得做"的判据

把前面所有的区分合在一起，可以提取出一个具体的判据，用来筛选工作内容。

旧的判据：

它是不是 AI？是不是 agent？是不是前沿？能不能做 demo？

这套判据在 2024 年还能用，今天已经失效了。失效的原因不是因为它错了，是因为符合这套判据的事情太多了，无法用它做有效区分。

新的判据：

(D1) 这个方向是在包装模型，还是在发明新的数据结构和数据资产？ (D2) 它是在制造一次性体验，还是在沉淀长期可复用的递归痕迹？ (D3) 它是在做聊天框上的小优化，还是在重写人和工具之间的关系？ (D4) 它的护城河是否独立于上游模型——也就是说，如果模型厂明天免费开放更强的模型，它还能不能活？ (D5) 它的单位经济模型是否能在 token 价格不下降的前提下成立？

这五条判据合在一起，会让大多数当前的 AI 产品方向被筛掉。这是预期之中的。它们的目的不是产生一份"值得做的事情"清单，而是提供一组拒绝的理由——让你能够不带情绪地说"这个不做"。

#十一、未尽之处

最后我必须承认这套分析的几个局限。

(L1) 整篇文章的论证结构是干净的：从问题错置出发，逐层拆出五个区分，最后落到"能承载人机共同演化的新数据结构"。但任何过于干净的论证都应该被怀疑。真实的判断很少以这种线性递进的方式发生，更多时候是在死胡同、回头、自我矛盾的过程中慢慢形成的。这篇文章呈现的是结果，不是过程。如果有人因此以为我已经"想清楚了"，那是误读。

(L2) "发明新数据结构"这个建议在表述层面是清晰的，在执行层面是空的。因为它要求的是长期 commitment——五到十年的 deep commit。任何一个真诚说出这句话的人，都应该立刻问自己一个不舒服的问题：你愿不愿意在某个具体领域里待五年以上、和一群具体用户反复撞墙、放弃元层选手的清晰感？如果答案是不愿意，那这套判据对你就是装饰性的。

(L3) 这篇文章默认的视角是"建造者"的视角——产品该往哪里走、价值该在哪里捕获、单位经济模型该如何成立。但建造者的视角不是唯一视角。从使用者的视角看，从社会的视角看，从制度的视角看，AI 时代的"剩余价值"问题可能呈现出完全不同的形状。我没有处理这些视角。

(L4) 整套判据预设了一个前提：模型本身的边际能力提升会持续，但不会发生质变（比如 AGI 的真正到来）。如果这个前提被打破——比如模型在某个时点开始具备真正的 cross-session 持久学习能力——那么"数据结构作为剩余"的整套论证都需要重写。我的判断站在"模型能力强但仍然是被使用的工具"这个区间内，不能外推。

#十二、结尾

我最初以为我在思考"还要不要继续做 AI"。一路走下来才发现，我真正想找的从来不是"AI 行业"这个标签。

我想找的是：在模型时代，什么东西仍然值得做。

这个问题最后把我带到了数据结构。但数据结构不是终点，是一个新的入口——它把"值得做"这件事从一个外部判断（哪个行业前沿）转换成了一个内部判断（你愿不愿意为某个具体领域花十年）。

新的入口不一定通向更舒服的地方。

但它至少通向真问题。