数据才是产品

当调度、脚手架、工程和界面都能被 AI 很好地实现时，一个产品真正在卖的是什么？

#一、一个播放器教会我的事

事情是这样开始的：网易云音乐的桌面端不支持我想要的悬浮歌词。它能在状态栏显示当前歌词，也能开桌面歌词，但样式丑得没法看。于是我用 NowPlaying CLI 做了个外挂的悬浮歌词窗口。但网易云对 NowPlaying 的播放状态上报支持很差，各种同步问题，修到最后我觉得不如自己做一个播放器算了。

找到一个逆向网易云的 API，歌曲数据、歌词、时间戳全部从网易云拿。我只做一件事：消费这些数据，加一些自定义字段，满足自己的展示需求。

整个项目从想法到能用，大概一天。中间写的所有代码——UI 框架、悬浮窗逻辑、播放控制、歌词滚动、自定义字段——在 2026 年用 Claude Code 两个小时就能全部生成。这些代码不构成任何壁垒，任何一个会写 prompt 的人都能复刻。

但如果没有那个 API——如果我得自己处理歌曲文件的获取、每首歌的歌词爬取、逐字时间戳对齐——这根本不是一个人能做的事。不是工程量的问题，是数据量的问题。网易云花了十几年积累的版权库、用户贡献的逐字歌词、专业团队做的时间轴标注，这些东西构成了我的播放器能运行的全部前提。没有这些数据，我的代码什么都不是。

这件事让我开始想一个问题：当工程变得几乎免费的时候，一个产品的价值到底落在哪里？

这不是一个理论问题。我自己在工作中也遇到了完全同构的情况。我给公司做了一个内部数据分析 agent——对话式界面，自然语言提问，后台连着生产数据库、Google Ads、GA4，用户问一句话就能拿到图表和洞察。单 agent 架构，Python 沙箱执行查询和可视化，三层知识系统让它越用越懂团队的业务语言。做出来之后确实能用，团队也开始依赖它。

然后我用 Claude Code 试了一下同样的事情。给它一堆 API 凭证，让它自己去请求不同的数据源，自己理解数据结构，自己回答我的问题。

效果更好。

我精心设计的知识系统、沙箱安全模型、工作区 replay 机制、看板合成流程——所有这些花了大量时间构建的垂类基础设施，在一个足够强的通用模型面前，不但没有降低门槛，反而增加了约束。我加的每一层抽象——agent loop 的迭代控制、schema catalog 的预加载、RBAC 的表级权限——都是通用模型不需要的摩擦。Claude Code 不用我预定义任何东西，它直接理解意图，直接请求数据源，直接给结果。

但这个 agent 的数据来源——公司的生产数据库、Google Ads 的投放数据、GA4 的用户行为数据——这些不会因为 Claude Code 更强就凭空出现。通用模型赢在处理能力，但它没有数据。我的 agent 如果有价值，价值不在我写的代码里，在它连接的数据里。

和播放器是同一个结构：代码可替代，数据不可替代。

这个观察让我开始重新审视所有软件产品和数据之间的关系。我发现它们可以被分成三种，而且这三种恰好对应了软件产业三个不同阶段的核心逻辑。

#二、三条管线

一个产品和数据的关系，可以分成三种。一个产品可以同时做其中几种，但底层逻辑是不同的：

处理数据——产品提供某种处理能力，用户带着自己的数据来，使用产品的算法把原始数据优化，然后带着更好的数据走人。

提供数据——产品本身持有数据资产，用户来是为了消费产品内部的数据。

生产数据——产品根据用户需求从无到有地生成此前不存在的内容。

这三种关系不是并列的分类学，它们有一个历史顺序。软件产业的重心沿着"处理→提供→生产"的方向一路迁移过来，每一次迁移都对应着一次底层技术范式的变化。理解这个顺序，才能理解当下正在发生的事。

#三、处理数据：最古老的软件逻辑

软件最早被发明出来就是为了处理数据。

电子表格让人能算账，文字处理器让人能编辑文档，Photoshop 让人能修图，Premiere 让人能剪视频。这些工具的共同特征是：它们内部没有内容，内容来自用户。 用户带着自己的数字来，带着自己的文字来，带着自己的图片来，软件帮他们把这些东西变得更好、更有结构、更易呈现，然后用户带着处理后的结果离开。

早期的非联网应用几乎全部落在这条线上。Office 套件、Adobe 套件、AutoCAD、MATLAB——它们卖的不是数据，是算法和工程。"我能帮你更快地做你已经在做的事"，这是处理数据类产品的核心承诺。用户的数据是输入，软件的处理能力是服务，优化后的数据是输出。

这条线统治了从个人电脑时代到互联网早期的整个周期。它的商业模式清晰：一次性买断或订阅，卖的是工具使用权。它的壁垒在于工程复杂度——写一个能稳定运行的图像编辑器、一个不崩的电子表格引擎、一个毫秒级响应的视频编辑器，需要大量工程积累。这种积累构成了护城河。

但这种护城河有一个前提：工程复杂度不能被快速复制。

这个前提在过去三十年大体成立。写一个 Photoshop 竞品需要几百人干几年。但它正在被动摇——不是被另一家公司动摇，而是被 AI 动摇。这个我后面再说。

#四、提供数据：互联网真正的战争

互联网改变了一切，但它真正改变的不是人们以为的"连接"。连接只是基础设施。互联网真正做的事是让"提供数据"成为一种独立的、可垄断的商业模式。

在互联网之前，提供数据的产品当然存在——百科全书、电话簿、图书馆、报纸。但它们的分发受物理限制，数据更新慢，垄断能力有限。互联网把这些限制全部移除了。一个平台如果能积累足够多的数据，它就可以零边际成本地把这些数据提供给全世界。

于是过去二十年的互联网竞争，本质上就是各家巨头在不同领域建立数据垄断的过程。

Google 垄断了搜索索引——你在互联网上能找到什么，取决于 Google 决定展示什么。Facebook 垄断了社交图谱——你的人际关系以数字化形式存在于它的服务器上。YouTube 和 B 站垄断了视频内容——创作者在那里发布，观众在那里观看，平台坐收两端。网易云和 Spotify 垄断了音乐版权——你能听什么歌取决于它们签了什么版权协议。LinkedIn 垄断了职业身份——你的简历、人脉、工作经验以结构化形式存储在它的数据库里。小红书垄断了生活方式类的 UGC 内容——你想找一家好吃的餐厅，去那里看别人的推荐。

这些平台的核心壁垒不在技术。Google 的搜索算法很强，但 Bing 的也不差——差距在于 Google 抓取和索引了更多的网页。YouTube 的推荐系统很好，但抖音的可能更好——差距在于 YouTube 上有更多的创作者和更深的内容库。技术是门槛，但不是终极壁垒。数据才是。

提供数据类产品的护城河不是工程复杂度，是网络效应和时间积累。 更多用户产生更多数据，更多数据吸引更多用户。这个飞轮一旦转起来，后来者几乎无法追赶。你今天想做一个新的音乐平台，从技术上完全可行——播放器几天就能写完——但你拿不到版权，没有歌词库，没有用户贡献的播放列表。我的播放器就是最好的证明：我的代码一天就写完了，但我寄生在网易云十几年积累的数据之上。没有那些数据，我的代码什么都不是。

但"提供数据"这条线上还有一类产品容易被忽略，因为它们提供的不是平台自有的数据，而是用户自己的数据。

Notion、Slack、Discord、Google Drive、GitHub——这些产品不拥有内容，不转化内容，也不生成内容。它们做的事是：托管用户的数据，并提供组织基础设施。 你往 Notion 里写的笔记，写进去什么样拿出来还是什么样。Notion 没有让你的笔记"变好"（那是处理），也没有给你看别人的笔记（那是提供第三方数据），也没有替你写笔记（那是生产）。它做的是给你的数据一个有结构的住所——数据库、关联、视图、权限、协作。Slack 同理：你的消息按频道、线程、时间线组织好，让团队能实时消费。数据的所有权始终在你手里，产品只管分发和留存。

这类产品和 Netflix、网易云这样的平台看起来很不一样，但在一个关键维度上它们站在同一边：壁垒都不在工程，在数据。 Netflix 的壁垒是版权库——你离开就看不到那些剧了。Notion 的壁垒不是数据本身——你可以导出所有笔记——而是围绕数据形成的组织结构、使用习惯、团队协作网络、以及迁移成本。一个团队用了两年的 Notion workspace，里面几千个页面、几十个 database、无数的 relation 和 formula，你给他一个功能完全一样的替代品，他也不会迁移。不是因为他搬不走数据，是因为他搬不走结构。

所以"提供数据"实际上有两种子类型。一种是平台持有第三方数据资产——版权库、UGC 内容池、搜索索引——壁垒是内容积累和版权。另一种是平台托管用户的第一方数据——笔记、消息、代码、文件——壁垒是迁移成本和网络效应。两者的所有权模型不同，但在"AI 时代什么不会被抹平"这个问题上，结论是一样的：AI 可以在一天之内复刻 Notion 的编辑器和 Slack 的界面，但它不能复刻一个团队两年来在这些产品里沉淀的数据和组织结构。工程可替代，数据不可替代——无论这个数据属于平台还是属于用户。

如果说处理数据时代的战争是"谁的工程更好"，那提供数据时代的战争就是"谁的数据更多"——或者更准确地说，"谁让更多的数据沉淀在自己这里"。后者的赢家通吃程度远高于前者——你可以同时用三个文字处理器，但你不太可能同时用三个社交网络，也不太可能让同一个团队同时用 Slack 和 Discord。

#五、生产数据：AI 打开的第三条路

然后 AI 来了，打开了第三条路：不处理已有的数据，不提供已有的数据，而是从无到有地生产此前不存在的数据。

生成式 AI 的"生成"两个字就是在说这件事。用户来的时候手里可以什么都没有——没有草稿，没有素材，没有半成品——只有一个想法，甚至只是一个模糊的意图。模型把这个意图变成一段文字、一张图片、一段视频、一份代码。产出物是全新的，不是对已有数据的处理，也不是从某个数据库里检索出来的。

这在软件历史上是没有先例的。

处理数据的工具需要用户提供原料——你得先有照片才能修图。提供数据的平台需要先积累内容——你得先有一个版权库才能做音乐平台。但生产数据的产品两者都不需要。它凭空创造。一个 AI 视频工具，用户描述一个想法，产品调用模型，输出一段此前不存在的视频。用户拿着这段视频去社交媒体分发。产品本身不需要积累任何内容资产，每一次交互都是一次独立的生产。

这就是为什么 AI 创业在 2023 年之后爆发。生产数据这条线的准入门槛极低——你不需要像处理数据那样有几十年的工程积累，也不需要像提供数据那样先花几年建立数据垄断。你只需要接入一个大模型的 API，在上面包一层 UI 和工作流，就能开始卖东西。

但准入门槛低意味着壁垒也低。这就引出了当下最尖锐的问题。

#六、被抹平的和抹不平的

三条管线同时存在于当下的产品生态中，但它们正在经历完全不同的命运。

处理数据正在被通用模型吃掉。

这是最先倒下的一条线。处理数据类产品的核心价值是"我的算法比你手动做得更好"——更快的排版、更精准的抠图、更智能的数据清洗。但当一个通用模型可以直接理解用户的意图并执行处理时，那些精心设计的专用算法就变成了不必要的中间层。

你不需要一个专门的图像编辑软件来帮你调色，你告诉模型"把这张照片调成暖色调"就行了。你不需要一个专门的数据清洗工具来帮你格式化表格，你把表格丢给模型让它处理就行了。你不需要一个专门的 PPT 设计工具来帮你排版，你描述你要什么内容模型直接生成就行了。

我的数据分析 agent 就是一个亲身经历的案例。我花了大量时间构建的处理层——Python 沙箱、schema 预加载、上下文压缩、工作区状态管理——所有这些的目的是"帮助用户更好地处理数据"。但 Claude Code 拿着同样的数据源凭证，跳过了我构建的所有中间层，直接得到了更好的结果。我加的每一层抽象都是通用模型不需要的摩擦。

处理数据的护城河——工程复杂度——正在被 AI 系统性地拆除。过去写一个 Photoshop 竞品需要几百人干几年，现在一个通用模型就能覆盖大部分普通用户的修图需求。工程不是不再需要了，而是不再构成壁垒了。

生产数据也在被抹平，而且速度可能更快。

这是违反直觉的部分。生产数据看起来是 AI 时代的原生赛道——毕竟是 AI 让"从无到有生成内容"成为可能的。但正因如此，这条线上的创业公司面对的竞争对手不是彼此，是底层模型本身。

从 2023 年 AI 创业潮开始，一直到今天的 2026 年，大量创业公司做的事情本质上是同一件：在大模型上面包一层 UI 和工作流，把复杂的 AI 能力包装成简单的体验。AI 写作助手、AI 设计工具、AI 视频生成器、AI 编程助手——它们的共同模式是"用户说想法→产品调用模型→输出结果"。它们卖的不是自己的生成能力，是对大模型生成能力的封装。

但当大模型自己就足够简单的时候，这层封装从"价值"变成了"成本"。Claude Code 不需要你预定义的工作流，它直接理解意图。ChatGPT 不需要你设计的 prompt 模板，用户直接说话就行。底层模型每一次能力跃升，都在压缩上面那层封装的存在理由。

而且这个压缩是不可逆的。模型能力只会越来越强。今天还需要垂类 UI 来降低使用门槛的场景，明天可能就不需要了。

提供数据是唯一没有被抹平的线。

这是这篇文章真正想说的东西。

处理数据被抹平，因为处理能力本质上是算力可以替代的。生产数据被抹平，因为生成能力本质上是大模型的核心功能。但提供数据不会被抹平，因为数据的积累不是算力问题，是时间和网络效应问题。

AI 可以一秒钟写出一首歌，但它不能一秒钟积累出一个版权库。AI 可以一秒钟生成一份用户画像，但它不能一秒钟建立起一个有十亿用户的社交网络。AI 可以一秒钟回答你关于某个行业的通识问题，但它不能一秒钟获取一家公司内部的生产数据库。

数据需要时间生长。需要用户一条一条发帖子。需要创作者一首一首上传歌曲。需要企业一天一天记录经营数据。这些不是算力能压缩的。

我的播放器之所以能跑，不是因为我的代码好，是因为网易云花了十几年积累了一个别人没有的东西。我的数据分析 agent 之所以有用，不是因为我的 agent 架构好——Claude Code 已经证明它的架构更好——而是因为它连接的数据源别人接触不到。

这里面有一个容易被忽视的推论：在 AI 时代，数据的相对价值正在急剧上升。 不是因为数据本身变了，而是因为围绕数据的所有其他东西——工程、UI、工作流、算法——都在贬值。当其他变量都在趋近于零或者趋近于平等时，唯一还在制造差异的变量就变成了最重要的变量。

#七、所以产品到底在卖什么

回到最开始的问题：当调度、脚手架、工程和界面都能被 AI 很好地实现时，一个产品真正在卖的是什么？

我的播放器给了一个很直接的答案：卖的是数据本身。

把这个观察推广开来：在 AI 时代，产品的价值重心正在从"怎么做"向"有什么"迁移。工程能力、UI 设计、工作流编排、用户体验优化——这些过去需要大量人力堆起来的模块，正在被 AI 快速商品化。还没有被商品化的、也很难被商品化的，是数据本身。

这里的"数据"不只是数字。它是任何一种需要时间积累、不能被模型凭空生成的资产。可以是内容版权，可以是用户生成的内容，可以是行业特有的结构化知识，可以是用户自身的历史和偏好。它们的共同特征是：获取它们需要时间、关系或特权，而不只是算力。

但说到这里需要立刻补一个限制条件："提供数据已被垄断"这个判断，对旧数据类型是对的，对新数据类型未必。

上一代互联网巨头垄断了音乐版权、社交关系、搜索索引、视频内容、职业身份。这些数据类型的竞争窗口确实已经关闭。但 AI 时代正在催生新的数据需求，而这些需求对应的数据资产还在形成中。

比如用户的跨平台结构化偏好。每个平台都有用户数据，但都被锁在自己的围墙里，以自己的 schema 存储，为自己的推荐算法服务。没有任何一个平台在做"用户自己拥有的、可以授权任何 AI agent 读取的、跨平台的结构化身份"。这种数据类型目前不存在——不是因为没人需要，而是因为它的价值在 AI agent 普及之前不够大，没有人有动力去做。现在动力正在出现。

再比如行业特定的结构化知识。金融监管的合规逻辑、医疗诊断的决策树、法律案例的关联图谱——这些知识散落在各种文档、数据库和人脑里，从来没有被系统性地结构化到 AI 可以直接消费的程度。通用模型知道这些领域的"常识"，但不掌握执行层面的具体数据。谁先在某个垂直领域完成这种结构化，谁就是那个领域的新数据垄断者。

还有一种更隐蔽的数据资产：跨源组合视图。不生产数据、不拥有数据、不处理单一数据源，而是在多个已有数据源之间建立连接，创造出任何单一数据源自己都不能提供的东西。我的数据分析 agent 虽然在工程层面输给了 Claude Code，但它做的事情——把广告投放数据、用户行为数据和产品数据库放在一起让人用自然语言查询——这个"放在一起"本身是有价值的。任何一个单独的数据源都不能回答"上周获客成本异常是不是因为某个渠道的流量质量出了问题"这个问题，因为这个问题横跨三个数据源。通用 agent 能不能做这件事？能——但前提是使用者自己知道该问什么、知道数据源在哪里、知道怎么解读结果。通用 agent 的天花板是使用者的领域知识。这里有一个窗口，虽然它在随着模型能力提升而持续缩小。

所以结论不是"只有拥有数据的公司才能活"——那太简单了。结论是一个更微妙的观察：在 AI 时代做产品，最重要的问题不是"我能用 AI 做什么"，而是**"我有什么是 AI 自己做不出来的"**。答案几乎一定指向某种形式的数据——某种需要真实时间、真实关系、真实行业浸泡才能积累起来的东西。

处理数据的能力正在被通用模型抹平。生产数据的能力正在被通用模型内化。提供数据的能力不会被抹平，因为数据不是算力问题。

工程在贬值。数据在升值。

这大概是这个时代最简单、也最容易被忽视的一句话。而我是从一个悬浮歌词播放器开始理解这件事的。