阿里、字节疯狂“养龙虾”，到底图什么？

数据猿

Jun 11, 2026

“Token经济的泡沫，越吹越大了。

2026年，中国科技巨头的动作出奇地一致。

3月17日，阿里巴巴发布企业级AI原生工作平台“悟空”。钉钉CEO陈航站在台上，说了一句意味深长的话：“过去是人用钉钉来工作，未来是AI用钉钉来工作。”

同期，腾讯的WorkBuddy、字节跳动的豆包Agent方案等，也陆续推出。百度、华为、京东，几乎所有叫得上名字的科技巨头，都在紧锣密鼓地布局同一个赛道——AI Agent。

而引爆这一切的，是一个名叫OpenClaw的开源项目。开发者们给它取了个中文绰号：“龙虾”。短短几个月，这个项目在GitHub上狂揽30万星标，超越React和Linux，登顶全球开源软件榜首。一时间，“养龙虾”成了科技圈最热的关键词。

当“龙虾”的热度开始降温，Hermes（也称“爱马仕”，“养马”）的热度又开始迅速攀升。他们本质上，都是Agent。

与此同时，另一组数据也在悄然攀升。

云厂商开始集体涨价。阿里云、腾讯云、火山引擎的AI算力产品价格，都经历了不同程度的上调。市场嗅到了微妙的变化——算力正在被重新定价。

阿里甚至专门成立了Alibaba Token Hub，将Token消耗作为核心战略指标。各大模型厂商开始紧盯Token消耗排名，就像互联网时代盯着DAU一样紧张。

Agent产品密集发布、云厂商集体涨价、Token消耗数据飙升——三个现象指向同一个问题：科技巨头为何如此疯狂地押注Agent？

Agent，是大厂等待已久的

“算力出口”

先算一笔账。过去两年，国内大模型厂商累计投入了多少钱？公开数据显示，仅几家头部厂商的资本开支合计就超过千亿元。如果算上算力基础设施建设、芯片采购、研发团队扩张，这个数字更庞大。

这是一场豪赌。赌的是AI能够像互联网一样，重塑一切商业形态。但赌局进行到中途，一个尴尬的问题浮出水面：靠对话式AI，什么时候能回本？

对话式AI有两个致命问题。

第一个问题：Token消耗太小。用户和AI聊天，一天能聊多少？重度用户可能来回几十句，消耗不过几千Token。普通用户可能一周才用几次。即便是有付费意愿的用户，一个月消耗的Token量也极其有限。

第二个问题：付费意愿太低。对话式AI的商业模式，要么是按月订阅，要么是按Token计费。按月订阅，几十块月费已是天花板，用户很难为“聊聊天”付更多钱。按Token计费，用户一天用不了多少，客单价上不去。

几百亿的投入，靠几十块的月费、几千Token的消耗来回本，账算不过来。这不是某一家厂商的困境，是整个行业的集体焦虑。大模型厂商们砸下重金，却发现自己站在一个“叫好不叫座”的尴尬位置——技术惊艳了世界，但商业闭环迟迟打不通。

Agent的出现，彻底改变了算力模型。

首先是Token消耗量级的跃升。Token消耗不是线性增长，是指数级跃升。一个复杂Agent任务，顶得上几百次普通对话。比如，一个对话式AI任务，消耗的Token可能几百到几千。一个Agent任务，比如“帮我整理这份合同，找出风险条款，然后发邮件给法务审核”。Agent需要拆解任务、调用工具读取合同、调用模型分析风险、生成审核意见、调用邮件系统发送——整个过程可能需要几十次模型调用、多轮迭代、多个工具执行。

其次是付费逻辑的根本转变。用户愿意为什么付费？为“聊天”付费，用户觉得不值。但为“完成任务”付费，逻辑完全不同。如果Agent能帮我整理合同、分析数据、生成报告、自动审批，它就不再是一个“聊天机器人”，而是一个“数字员工”。企业愿意为员工付费，个人也愿意为节省时间的工具付费。

kimi一个月199元，Agent只能用不到50次

笔者在kimi上部署的Agent

这就是从“按对话收费”到“按任务收费”的转变。前者是消费品逻辑，后者是生产力工具逻辑。

Token的本质，在这一刻被重新定义。Token不是“字数”，不是“计算次数”，而是模型的“思考量”和“行动量”。每一次模型调用，每一次工具执行，每一次迭代反思，都消耗Token。Token是AI时代的“燃料”——没有它，模型无法思考；消耗越多，思考越深，行动越强。

当Agent成为主流应用形态，Token的消耗量将不再是线性增长，而是伴随任务复杂度的提升呈现指数级跃升。这正是科技巨头们等待已久的“算力出口”。

Token经济正在成型。

Token经济不是未来概念，它正在发生。

从个人层面看，据报道，OpenClaw的重度用户日均消耗Token达到3000万到1亿。一个用户一天消耗的Token，抵得上过去一个社区的总和。有人因为Agent陷入循环卡顿，6小时耗光9000万Token，单日账单超千元。这不是极端案例，是Agent时代的常态。

从国家层面看，2026年3月，中国日均Token调用量突破140万亿。两年增长上千倍。这个数字还在以每周两位数的速度增长。140万亿是什么概念？相当于14亿中国人，每人每天用掉10万个Token。

从市场层面看，Token消耗量已经成为大家关注的核心指标。

三个层面的信号叠加在一起，指向同一个结论：Agent是科技巨头唯一的“算力出口”，也是商业模式重构的关键。对于上千亿的资本开支，对话式AI的出口太窄，撑不起这个盘子。Agent打开了出口的宽度——成百上千倍的Token消耗，完全不同的付费逻辑，正在形成的Token经济。

这就是科技巨头疯狂押注Agent的根本原因——给自己找活路。

OpenClaw

就是AI操作系统的雏形？

就在各大科技巨头密集布局Agent的同时，英伟达创始人黄仁勋在GTC 2026大会上点明了一个关键趋势。

他指出，OpenClaw是AI时代操作系统的雏形。大模型相当于CPU，而OpenClaw就是操作系统。这个判断的分量非同小可：如果Agent真的是下一代操作系统，那么谁掌握Agent生态，谁就掌握了AI时代的地基。

事实上，这并不是黄仁勋第一次强调Agent的战略地位。早在2025年的CES展上，他就提出“Agentic AI”将成为AI发展的下一阶段。如今，这一判断正在被中国科技巨头的实际行动所验证。

每一次技术革命，都会重塑权力格局。

计算机诞生之初，IBM定义了大型机时代，成为科技霸主。PC时代，微软定义了操作系统，统治了桌面。互联网时代，谷歌定义了搜索，掌控了信息入口。移动时代，苹果定义了智能手机，重构了人机交互。

AI时代，谁将定义Agent？答案正在浮现。

回顾科技史，最终胜出的平台，都是在三个层面同时构筑了壁垒。PC时代的微软：硬件生态（Wintel联盟）+操作系统（Windows）+应用生态（Office）。移动时代的苹果：自研芯片（A系列）+操作系统（iOS）+应用商店（App Store）。互联网时代的谷歌：算力基础设施（数据中心）+搜索算法（PageRank）+广告生态（AdWords）。

算力、产品、生态——三者缺一不可。这是技术史的冷酷逻辑，也是Agent时代不会改变的规律。

从这个角度来看，Agent的价值，怎么强调都不过分。

也正因为如此，为了一只小“龙虾”，各家科技企业才会如此“上头”。

八仙过海，各显神通

在Agent这个“战场”上，不管是阿里、字节、腾讯这些巨头，还是月之暗面、智谱等AI新星，都几乎押上了重注。那么，他们到底做的咋样，优劣势如何呢？

应该说，这场竞赛才刚刚开始，很难看得清楚。但是，我们可以从从基础模型能力、产品体系、技术路线、安全策略、生态建设五个竞争维度，来试图捋出来一个脉络。

基础模型能力——底座决定上限

可能不少人会认为，接下来是Agent的时代，大模型是过时的产物，不再那么重要了。但这其实是一个误解，大模型依然至关重要，只是它可能更多的隐在幕后了。

事实上，Agent的“大脑”是大模型，模型能力决定了Agent能理解多复杂的指令、能推理多深的问题、能调用多准的工具。

从当前格局看，字节豆包2.0在调用量和产品成熟度上领先，阿里Qwen系列在开源AI领域表现亮眼，腾讯混元相对处于追赶位置。

字节豆包2.0于2026年2月14日发布，根据最新数据，其日均使用量突破120万亿Tokens，暂时领先。

阿里的通义系列模型通过千问和悟空两个出口服务C端和B端，优势在于与钉钉、淘宝等业务的深度耦合。

腾讯混元起步较晚，与头部存在差距。这也是腾讯为何一边自研，一边投资智谱、MiniMax等创业公司。

此外，第二梯队不容忽视：月之暗面Kimi-K2在SWE-bench达65.8%，智谱GLM-5在C-Eval达92.5%，MiniMax M2.5输出价格仅1.1美元/百万Token（约为Claude的1/20）。在OpenClaw调用的344个大模型中，国产模型Kimi K2.5、阶跃星辰Step 3.5 Flash以及MiniMax M2.5排名靠前，“国产龙虾三剑客”格局初现。第二梯队特定能力甚至超越大厂，但缺乏生态护城河。

产品体系与业务融合——谁在真正“做事”

Agent与自身业务体系的融合深度，决定了它能“做”多少事。

阿里：千问（C端）+悟空（B端）

千问定位“AI办事”，2026年1月上线Agent任务助理，打通淘宝、支付宝、飞猪、高德等阿里生态，用户可通过自然语言指令完成跨应用操作。

悟空是企业级AI原生工作平台，2026年3月17日发布。它不是钉钉的功能模块，而是“为AI重写的钉钉”——将8亿用户的底层架构全面重构，首批OPT行业解决方案覆盖电商、制造、法律、财税等十大行业。

字节：豆包+扣子+飞书

豆包提供模型能力，扣子（Coze）提供Agent开发平台，飞书提供企业服务场景。扣子的核心优势是极低上手门槛和丰富插件生态，用户可一键发布至抖音、飞书等渠道。

笔者在字节扣子上部署的openclaw

腾讯：WorkBuddy+微信

WorkBuddy于2026年3月9日上线，核心功能是打通微信直连——用户发语音/文字即可远程指挥电脑工作。发布首日因用户涌入超预期，团队于第二日紧急将算力扩容十倍。腾讯的打法是“入口式覆盖”：借微信14亿月活实现大规模分发。

笔者用微信接入的openclaw

与OpenClaw的关系——兼容、自研还是套壳？

各厂商对OpenClaw的态度，反映了其技术自主程度。

需要指出的是，阿里悟空并非OpenClaw的套壳，更像是自研程度较高的Agent操作系统。钉钉将产品体系全面重构为CLI（命令行界面），AI通过标准化指令直接调用功能。采用自研Agent Runtime架构，包含任务推理引擎、记忆系统、AI工作空间和执行工具集。

钉钉CEO陈航表示，“和市面上所有的龙虾Agent不一样，‘悟空’天然就长在企业组织中。”

WorkBuddy完全兼容OpenClaw技能体系，支持技能一键导入。微信推出ClawBot插件，支持接入OpenClaw。但腾讯同时发布了完整的Agent产品全景图，不以OpenClaw为唯一底座。

飞书是OpenClaw官方默认的IM应用，但字节同时拥有豆包和扣子，追求技术栈的自主可控。

国家数据局局长刘烈宏表示，中国企业正从“套壳”走向“开源框架+中国模型+全栈安全”的独特路径。

安全策略——敢用比好用更难

安全正在成为Agent落地的第一道门槛。IDC调研显示，“安全风险”是用户推进AI智能体落地的最大阻碍之一。

OpenClaw被曝出SMB凭证泄露、环境变量注入、Unicode伪装攻击等漏洞，国家互联网应急中心已发布风险提示。这些漏洞的本质是OpenClaw从诞生之初带着“个人工具”的基因，采用“先跑通、再修补”的逻辑，缺乏企业级安全设计。

阿里悟空从架构设计之初就把安全内建到底层，构建涵盖统一身份认证、容器级沙箱、Skill安全扫描等六项安全防护。

腾讯WorkBuddy强调所有操作在本地运行，保障数据隐私安全。字节豆包强调严格遵循用户授权与合规原则，数据全程加密。

需要指出的是，安全和灵活是Agent的一对核心矛盾：权限放太宽容易出事（如Meta安全总监的Agent误删200封邮件），放太窄Agent又废掉了。谁能设计出“既安全又高效”的人机协作机制，谁就能让Agent真正走进企业核心业务。

生态之争——谁在定义“AI时代的安卓”

Agent的竞争，最终是生态的竞争。阿里、字节、腾讯走出了三条不同的生态路径：

阿里是系统级重构——将钉钉底层全面CLI化，悟空平台打通电商、金融到企业协同的全链路，目标五年内“云+AI”外部收入超1000亿美元/年。

字节是积木式渗透——将AI能力拆解为可复用模块，通过扣子平台绑定开发者，飞书是OpenClaw官方默认IM应用，形成“产品矩阵+AI中台”的布局。

腾讯是入口式覆盖——借微信14亿月活实现大规模分发，QClaw主打“零门槛”，WorkBuddy主打桌面任务，企业微信主打B端客户经营。

三家的共同策略是“兼容但不依附”——既利用OpenClaw开源生态的丰富性，又保持一定的技术自主。OpenClaw正在成为Agent操作系统的事实标准，类似于安卓在移动时代的角色。谁能成为“AI时代的安卓”，取决于谁能在自研技术栈、生态兼容性、开发者吸引力三个维度上同时构筑壁垒。

需要指出的是，竞争的终局，可能不是只有一个生态主，而是多个生态并存，且多个生态之间实现一定程度的打通。

有趣的是，基于openclaw的Agent系统，目前已经具备打通各个平台的潜力。例如，笔者在字节扣子上部署了openclaw，并且连通了微信和飞书这两个端口。我在微信上跟它沟通的内容，在飞书上它居然也还记得。

通过微信接入openclaw

在微信上沟通的记忆，也可以同步到飞书上

综上，从五个维度来看，三家巨头的路径分野清晰：阿里强在业务融合，字节强在模型能力与产品成熟度，腾讯强在入口与工程化能力。月之暗面、智谱等第二梯队则在特定技术能力上领先，但缺乏生态护城河。当然，这是它们的最大困境，也是最大机会（保持中立，可被多方集成）。

各家公司Agent布局对比表

在这场激烈的竞争中，谁能在基础模型、产品生态、技术自主、安全信任、生态建设五个维度同时构筑壁垒，谁就能在Agent时代的竞争中占据有利位置。

我们正站在一个新时代的门口

1956年夏天，达特茅斯学院的一个研讨会上，一群科学家第一次提出了“人工智能”这个概念。那一年，没有人知道这条路要走多远。

此后的七十年，AI经历了两次漫长的寒冬。每一次寒冬，都是因为技术的承诺远远超出了能力边界——人们以为AI要来了，结果发现它连简单的推理都做不好。每一次寒冬，都是因为商业闭环打不通——投入巨大，产出寥寥，资本失去耐心。

但演进从未停止。回看AI的发展历程，可以清晰地看到一条脉络：

第一幕，AI是“识别器”。它能认出图片里的猫，能听懂你说的话，能转录会议记录。但这个阶段的AI，只能“看”和“听”，不能“做”。

第二幕，AI是“对话者”。2017年Transformer架构诞生，2022年ChatGPT引爆全球。AI能和你聊天，能写诗，能编程，能回答问题。但这个阶段的AI，只能“说”，不能“做”。

第三幕，AI是“行动者”——Agent。它能拆解任务，能调用工具，能多轮迭代，能在数字世界里真正“做事”。

这不是渐进式的改进，是范式级别的跃迁。

Agent现在能做什么？

说实话，还不多。阿里的千问、字节的豆包，目前能帮你点外卖、打车、订机票——在封闭场景里跑通闭环。悟空则像“封闭园区的无人驾驶”，基于钉钉的组织架构，在安全边界内做事。至于大量套壳OpenClaw的Agent，连安全责任都还没厘清。

但能力的演进速度超乎想象。从“识别”到“对话”，用了七十年。从“对话”到“行动”，只用了三年。

Agent未来能做什么？

未来18个月，是关键窗口期。

在能力层面，谁能突破任务复杂度、工具调用准确率、多轮迭代稳定性的瓶颈，谁就能定义Agent的标准。在安全层面，谁能建立企业级信任，谁就能赢得客户。在生态层面，谁能成为“AI时代的安卓”，谁就能掌握下一个十年的底层规则。

历史一再证明，一项技术从“玩具”走向“工具”，需要一个关键的转折点。在这个点之前，技术是酷的，但可有可无；在这个点之后，技术是必须的，再也回不去。

AI的转折点，正在发生。催化剂是Agent。

1956年达特茅斯会议，是一扇窄门。2012年ImageNet突破，是一扇窄门。2022年ChatGPT发布，是一扇窄门。2026年的Agent浪潮，也是一扇窄门。

窄门开启时，有人看见机会，有人看见风险，有人看见热闹。但只有少数人看得见——这扇门通向的，是下一个时代的底层规则。

达特茅斯会议七十年后，AI终于从“识别”走到“对话”，再走到“行动”。

窄门已经打开。谁能穿过？

数据猿

Discussion about this post

Ready for more?