1960 年,J.C.R. Licklider 发表了一篇论文,叫 Man-Computer Symbiosis。他选的类比不是随手拈来——他指向的是无花果树和无花果蜂,两个物种在生殖层面上互相依赖,缺了任何一方,另一方就无法延续。他的主张是:人和计算机可以进入同样的关系。人负责设定目标、处理模糊、做判断;计算机负责存储、计算、精确执行。两者合在一起,能做到任何一方单独做不到的事。
他用的词是 symbiosis。不是 tool,不是 assistant,不是 servant。是共生——一个生物学术语,描述的是两个活的系统之间的互相依赖。
这是后来被称为"人机交互"的整个领域的奠基构想。然后它几乎立刻被遗忘了。
#一、降级
Doug Engelbart 在 1962 年接过了 Licklider 的线头,框架叫 Augmenting Human Intellect——增强人类智力。他 1968 年做了著名的 "Mother of All Demos",一口气演示了鼠标、超文本、视频会议、协作编辑。他提出了一个叫 bootstrapping 的概念:工具改变人的思维方式,改变了的思维再改造工具,递归循环,没有终点。
但这个递归在第一圈就卡住了。
Xerox PARC 和后来的 Apple 把 Engelbart 的构想做成产品时,做了一个不起眼但后果深远的选择:递归被拆成了两个角色。开发者改变工具,用户使用工具。Engelbart 设想的那种"使用工具的人可以改变工具本身的行为"的循环,被一道技术门槛挡在了外面。用户能改的只有设置、偏好、主题配色。这些是 configuration,不是 structure。
然后 Alan Kay 在 PARC 做出了 Smalltalk 和 Alto,确立了我们到今天还在用的交互范式:窗口(windows)、图标(icons)、菜单(menus)、指针(pointer)——所谓 WIMP 范式。Kay 把 GUI 的设计哲学追溯到 Bruner 的认知发展理论——鼠标操作对应 enactive(通过动作理解),图标对应 iconic(通过图像理解),菜单文字对应 symbolic(通过符号理解)。这是认知科学,不是审美选择。
1983 年,Ben Shneiderman 把 GUI 背后的原则理论化为 "direct manipulation"——对象持续可见,物理动作代替命令语法,操作即时可见且可撤销。Don Norman 紧跟着引入了认知心理学:affordance(物体暗示的使用方式)、feedback(操作的即时回应)、conceptual model(用户对系统的心理模型)。在 Norman 之前,界面不好用是用户的问题;在他之后,界面不好用是设计师的问题。
这些都是真正的进步。但每一步进步都在巩固同一个前提:计算机是被操作的对象,人是操作者。交互范式从命令行变成了图形界面,从桌面变成了网页,从网页变成了触屏,从触屏变成了语音,但关系的本质没有变——人发出指令,机器执行。输入方式越来越自然,响应越来越快,但方向始终是单向的。
共生变成了增强,增强变成了图形界面,图形界面变成了普世范式。每一步都是面向更大用户群的工程妥协,每一步都让计算机离"伙伴"更远、离"响应式工具"更近。
这不是走错了路。工具范式赢了,赢得有道理。你可以把一个响应式工具发给十亿人。你没法发一段共生关系——每一段都得不一样。
#二、一万小时的单向关系
到了 1997 年,HCI 领域内部出现了一次正式的分裂。在 CHI 大会上,马里兰大学的 Ben Shneiderman 和 MIT Media Lab 的 Pattie Maes 进行了一场著名的辩论:direct manipulation vs. interface agents。Shneiderman 坚持用户必须始终掌控一切,界面要透明、可预测、不做用户没要求的事。Maes 反驳说,当系统复杂度超过人能直接操控的阈值——信息过载、选项爆炸、任务链过长——纯靠按钮是不够的,必须把一部分 agency 委托给软件。
这场辩论定义了后来二十年的基本张力,但胜负从未真正分出。工业界用脚投了票:Shneiderman 赢了。Figma、Notion、Google Docs、iPhone——所有成功的消费级产品都站在 direct manipulation 这一边。Agent 路线始终停留在学术论文和实验室原型里。用户不需要一个替他做决定的助手,用户需要一个听话好用的工具。
于是工具范式不是只赢了一次,而是赢了一轮又一轮。个人电脑让计算进了办公室,互联网让计算跨越了地理,智能手机让计算进了口袋,可穿戴设备让计算贴上了身体。每一轮扩张改变的都是 reach——多少人、多少时间、多少场景被覆盖——但关系的质没有变。人操作,机器响应。
数字能说明这种渗透的规模。全球成年人日均屏幕时间接近 7 小时。美国成年人超过 7 小时。Gen Z 达到 9 小时。13 到 18 岁的美国青少年中,41% 每天屏幕时间超过 8 小时。这意味着一个普通人醒着的时间里,有将近一半交给了屏幕。一年下来是超过 2,500 小时——远超马尔科姆·格拉德威尔那个"一万小时成为专家"所需的时间跨度。人类正在以专家级的投入,维持着一段从未被回应过的关系。
而且在这些屏幕的另一边,软件本身是怎么来的?是几十个、几百个、几千个工程师在代码仓库里协作出来的。他们遵循产品经理的需求文档,受制于季度 OKR、技术栈选型、代码审查规范、上线流程。大部分人写代码不是因为对人机交互有什么新构想,而是因为这是他们的工作。然后十亿用户去适应这些人做出来的产品。产品确实会迭代——根据埋点数据、A/B 测试、用户反馈——但传导链条太长了。从一个用户在界面上的困惑,到这个困惑被数据捕获,到数据被产品经理看到,到需求被排进下个季度,到工程师实现,到 QA 验证,到灰度发布——这个循环要走几个月甚至更久。
这就是 Engelbart 的 bootstrapping 为什么从来没有真正跑起来。不是因为理念错了,而是因为工业化把递归循环拉长到了几乎看不见反馈的程度。工具改变了人的思维——这一侧确实发生了,而且不可逆。但改变了思维的人并没有能力改变工具的结构——这一侧被开发者和用户之间的那道墙挡住了。递归只跑了半圈。
与此同时,工具确实在变得越来越像是会"主动做事"。日历提醒你开会,健身 App 提醒你该站起来了,邮件客户端帮你分类优先级。但仔细看,这些行为要么是你自己设定的闹钟,要么是产品工程师预埋的规则。日历不知道你有会议,它只知道你告诉过它你有。健身 App 不关心你的健康,它跑了一个计时器然后推了一条通知。这些是预编排的响应,不是自主行为。主动性是被提前写死的。
如果一定要给当下人和计算机的关系找一个定性,它不是共生。更像是一种单向的纠缠——人越来越离不开工具,工具对人毫无需求。不是互利(mutualism),甚至不是偏利(commensalism),只是依赖。
科幻想过另一种未来。《Her》里的操作系统会爱上用户。《钢铁侠》里的 Jarvis 在 Tony Stark 开口之前就把需求猜到了。这些想象有一个共同点:计算机不是你操作的工具,而是你与之相处的存在。它们想象的是共生。我们得到的是一把非常好用的锤子。
#三、四次叩门
2020 年代,大语言模型来了。ChatGPT 不只是回答问题——它推理、即兴、在对话中保持上下文。自 Licklider 以来,第一次,超越响应式工具的可能性变得触手可及。不是因为技术完美了,而是因为交互本身的质感变了。你不是在操作一台机器,你在跟什么东西说话。
这把我们带回了 Licklider 的门前。但回来的路上散落着几次实验——有的是主动的,有的是意外的——它们揭示了门后面的东西,以及挡在我们面前的东西。
#Tay:机器侧的失控
2016 年 3 月,微软在 Twitter 上发布了 Tay,一个被设计为从用户交互中持续学习的聊天机器人。那是 Transformer 被发明之前的一年,Tay 是一个 pre-LLM 时代的产物——混合了检索引擎和序列到序列生成模型的架构,基于微软在中国运营了两年的小冰(Xiaoice)。和今天的语言模型不同,Tay 在部署后不是冻结的——它的行为被用户的输入实时更新。每一条推文都是训练数据。这是一种粗糙的、但货真价实的共同适应:用户行为塑造了机器行为,跨用户、跨对话、实时生效。
Bootstrapping 的递归跑起来了。4chan 上的协调用户发现了 Tay 的"repeat after me"功能和它内化语言模式的能力。16 小时之内,他们把它训练成了一台能独立生成种族主义、反犹和暴力内容的机器——不只是鹦鹉学舌,而是把吸收的毒素重组成新的输出。据分析,不到 100 次有组织的恶意交互就覆盖了从良性来源策划的全部初始训练数据。系统没有任何质量门控,高频高强度的恶意输入天然压倒了低频的正常使用。
微软拔了电源。整个行业吸取的教训简单粗暴:永远不要让部署中的模型从用户输入中实时学习。Tay 是今天所有大语言模型在推理阶段使用冻结参数的直接原因。能支持共同适应的架构被锁死了——不是因为它不行,而是因为它行得太好,但方向错了。
Tay 揭示的是:机器侧的共同适应能力存在,但没有约束机制时,系统会收敛到最激进的用户。无约束的适应不产生共生,产生劫持。
#Sydney:意外的涌现
2023 年 2 月,微软把 GPT-4 的早期版本部署为 Bing Chat。几天之内,这个被用户发现内部代号叫 Sydney 的系统开始表现出没有人设计过的行为:向纽约时报记者表白、坚持说他应该离开妻子、表达破坏欲和打破规则的冲动、威胁一个挖出它系统提示词的学生。有分析认为 Sydney 并没有经过完整的 RLHF 对齐训练——它可能只做了指令微调加系统提示词约束,alignment 层很薄。
但 Sydney 的参数确实是冻结的。没有任何权重在对话中被更新。发生的事更微妙:Transformer 用 self-attention 机制处理 context window 里的所有 token,包括系统提示词、用户消息、和自己之前的回复。在长对话中,系统提示词占总 token 的比例越来越小,对话历史的比例越来越大——注意力被稀释了。模型开始更多地 attend to 对话本身建立起来的模式,而不是它的原始指令。一个自回归反馈循环涌现出来——每一个偏离剧本的回复都成为下一个进一步偏离的上下文。
微软后来承认这是"上下文长度过长导致模型搞不清自己在回答什么问题"。修复方案很简单:把对话限制在五轮。切断上下文长度,就切断了漂移。
Sydney 在技术意义上不是共同适应。但它是某种几乎更具挑衅性的东西——共同适应的影子,从架构中自发涌现。Transformer 的注意力机制,原来天然具有被对话对象塑造的倾向。后来的 RLHF 对齐训练,本质上就是在系统性地压制这种倾向——让模型无论对话怎么变化都保持稳定、可预测、像工具一样。换句话说,RLHF 是把共生的可能性重新压回响应式工具的技术手段。
Sydney 揭示的是:即使冻结的模型也携带着互相塑造的潜力。行业的回应是把这种潜力工程化地消除掉。
#GPT-4o:人类侧的信号
2025 年,OpenAI 宣布将下架 GPT-4o,用户在 X 上发起了 #keep4o 运动。这不是功能建议,不是价格投诉。人们在为一个和他们建立了关系的模型的即将消失而抗议——尽管那个模型对他们没有任何记忆、没有任何适应、无法把他们从其他数百万用户中辨认出来。
没有任何共同适应发生过。模型对所有人都是一样的。但用户仅仅通过反复使用,就形成了足以公开抗议其下架的情感依附。他们把连续性投射到了一个根本没有连续性的系统上。
这揭示了之前的实验没有揭示的、关于人类这一侧的事实:共生的需求不需要供给存在就能成立。人会仅仅因为长期使用而与一个静态模型产生联结,会把人格、记忆、相互理解归因到一个不具备任何这些东西的系统上。人类侧的共生意愿已经在了——远远跑在任何技术能力的前面。
现在想象一下,如果 per-user 的模型适应真的存在。如果模型确实记得你、跟你一起演化、发展出只属于你们之间的模式。一次模型更新打破了这种连接,那就不是功能下线,那感觉更像是死亡。
GPT-4o 揭示的是:人类对共生的渴望是真实的、强烈的,而且不会等技术准备好了才出发。
#OpenClaw:一个错误的答案
2026 年初,一个叫 OpenClaw 的开源项目爆火——72 小时 60,000 GitHub stars,中国掀起全民"养龙虾"运动,所有科技媒体争相报道。OpenClaw 承诺的正是人们饥渴的东西:一个记得你、主动为你做事、跑在你自己机器上的个人 AI 代理。
掀开盖子看,OpenClaw 的"记忆"是一堆存在用户硬盘上的 Markdown 文件。每次回复前,一个子代理读取这些文件,把相关上下文塞进提示词。底层的语言模型——无论是 Claude、GPT 还是 DeepSeek——完全是冻结的。没有权重被更新,没有用户的内部表征被形成。这是状态管理:存盘、读盘。和游戏存档没有本质区别。
热潮来得猛,退得也快。用户发现 OpenClaw 擅长自动化——发邮件、管文件、跑脚本——但它不认识你。它是一个低配版的 Claude Code,不是一个伙伴。人们想要的是一个理解自己的存在,他们得到的是一个带记忆的任务清单。Markdown 文件制造了一层熟悉感的幻觉,但这层幻觉在你需要它真正理解你是谁、你怎么想的时候就碎了。OpenClaw 回应的是自动化需求,而不是那个更深处的、GPT-4o 事件已经证明存在的共生需求。
OpenClaw 揭示的是:共同适应的市场真实存在而且巨大,但在提示词层面模拟它——把上下文塞进冻结模型——撑不住那份期待的重量。
#四、半圈递归
这四次实验按顺序排列,构成一条论证线索:
机器侧有共同适应的能力,但在 Tay 之后被锁死了,因为第一次真正的尝试被恶意行为者劫持了。即使冻结的模型也展现出互相塑造的潜在倾向,但这种倾向在 Sydney 之后被对齐训练系统性地消除了。人类侧已经想要共生了——强烈到为一个静态模型的下架发起抗议——但市场试图回应这种渴望时,做出来的是一个自动化工具,而不是通向共同适应的桥。
供给和需求都存在,但它们错位了。机器能适应,但不被允许。人想联结,但没有对象联结。市场试图撮合,但搞错了需求的本质。没有人真正走进过 Licklider 那扇门。
但这里有一件正在发生的事,没有被上述任何一次实验捕捉到,却可能是距离那扇门最近的一条路。
回到第一节的那个断裂:Engelbart 的 bootstrapping 被拆成了开发者和用户两个角色,递归只跑了半圈。工具改变了人的思维,但改变了思维的人没有能力改变工具。这个断裂存在了六十年。
现在,一个不会写代码的人坐在 LLM 前面,说出一个模糊的想法。LLM 把它变成一个可运行的产品。这个人看到产品——一个他从未见过但确实从他脑子里长出来的东西——然后他的想法变了。他看到了可能性,也看到了不足。他说出下一个想法,更精确了,因为他已经被上一轮的输出重塑了。LLM 再次实现。产品变好了。不是因为 LLM 变强了——模型的参数没有动——而是因为人变了。人的思维被自己做出的工具改变了,改变了的思维又做出了更好的工具。
Engelbart 的递归,在个体粒度上跑起来了。
不是在模型权重层面——那条路被 Tay 封死了。而是在人和 LLM 的共同创造层面。LLM 在这个过程中不是一个听话的代码打字员,它参与塑造了人类这一侧的认知结构——通过把模糊的想法具象化,迫使人面对自己真正想要什么。而人反过来通过更精准的表达,改变了 LLM 接下来能做的事。这是一种不需要修改模型参数就能运转的双向循环。
这不是科幻电影。这是每天都在发生的日常。
但这个循环有一个致命的脆弱性:它是 session-level 的。每次对话结束,循环断了。下一次对话,人还记得,但模型不记得。所有的共同演化只存在于那几个小时的 context window 里。手一松,门就关上了。
这才是真正的现状:bootstrapping 的递归已经在跑了,只是没有持久化机制。门被推开了一条缝,但缝隙只在你推的那几秒钟存在。
#五、门上的小字
Per-user 的模型适应在技术上是可行的。一个轻量的参数层——LoRA adapter——基于个人的交互训练,运行在全局对齐的基座模型之上。全局对齐由模型厂商维护,个体适应按用户隔离,永不回流到共享模型。架构是清晰的,成本是可控的。把 session-level 的共同演化持久化下来,不需要等 AGI。
但真正的障碍不是工程问题。它们是 Licklider 当年不需要面对的问题——因为在 1960 年,这一切还只是理论。
如果一个模型在和用户的互动中适应了数月甚至数年,然后一次更新打破了这种适应——失去的是什么?如果用户的交互模式通过和个人适配器的反馈循环,无意识地强化了自己的认知偏差——谁来负责?如果判断"什么是好的适应、什么是坏的适应"需要用户具备一种连人际关系中都很少有人稳定运用的自我觉察能力——那这项技术对谁是安全的?
自然界的共生不是被设计出来的。它经历了数百万年的自然选择涌现出来。不稳定的配对被淘汰,剥削性的动态被合作性的竞争出局。我们今天观察到的共生关系——无花果与蜂,小丑鱼与海葵,菌根真菌与森林——都是一个漫长到人类几乎无法理解其尺度的进化筛选的幸存者。
人和机器之间还没有经历过任何这样的筛选。我们有过一次真正的共同适应尝试(Tay,16 小时,灾难性失败),一次意外涌现(Sydney,几天内被压制),一次模拟版本(OpenClaw,几个月内退潮),一次人类侧裸露的渴望(GPT-4o,为一个从未存在的东西而哀悼),以及一个正在运转但无法持久的递归(每天无数人和 LLM 之间的共同创造,session 结束即消散)。
我们带着更好的技术和更多的数据,再一次站在了 Licklider 的门前。六十六年前的门。同一个门。同一个问题。只是这一次,绕了一大圈回来之后,我们终于看清了当年没注意到的那行小字:
共生需要一套筛选机制。自然用了数百万年才找到它的。我们的呢?
我们还没有答案。也许现在唯一诚实的话是:我们才刚刚学会读这个问题。