阿里、字节疯狂“养龙虾”,到底图什么?
“Token经济的泡沫,越吹越大了。
2026年,中国科技巨头的动作出奇地一致。
3月17日,阿里巴巴发布企业级AI原生工作平台“悟空”。钉钉CEO陈航站在台上,说了一句意味深长的话:“过去是人用钉钉来工作,未来是AI用钉钉来工作。”
同期,腾讯的WorkBuddy、字节跳动的豆包Agent方案等,也陆续推出。百度、华为、京东,几乎所有叫得上名字的科技巨头,都在紧锣密鼓地布局同一个赛道——AI Agent。
而引爆这一切的,是一个名叫OpenClaw的开源项目。开发者们给它取了个中文绰号:“龙虾”。短短几个月,这个项目在GitHub上狂揽30万星标,超越React和Linux,登顶全球开源软件榜首。一时间,“养龙虾”成了科技圈最热的关键词。
当“龙虾”的热度开始降温,Hermes(也称“爱马仕”,“养马”)的热度又开始迅速攀升。他们本质上,都是Agent。
与此同时,另一组数据也在悄然攀升。
云厂商开始集体涨价。阿里云、腾讯云、火山引擎的AI算力产品价格,都经历了不同程度的上调。市场嗅到了微妙的变化——算力正在被重新定价。
阿里甚至专门成立了Alibaba Token Hub,将Token消耗作为核心战略指标。各大模型厂商开始紧盯Token消耗排名,就像互联网时代盯着DAU一样紧张。
Agent产品密集发布、云厂商集体涨价、Token消耗数据飙升——三个现象指向同一个问题:科技巨头为何如此疯狂地押注Agent?
Agent,是大厂等待已久的
“算力出口”
先算一笔账。过去两年,国内大模型厂商累计投入了多少钱?公开数据显示,仅几家头部厂商的资本开支合计就超过千亿元。如果算上算力基础设施建设、芯片采购、研发团队扩张,这个数字更庞大。
这是一场豪赌。赌的是AI能够像互联网一样,重塑一切商业形态。但赌局进行到中途,一个尴尬的问题浮出水面:靠对话式AI,什么时候能回本?
对话式AI有两个致命问题。
第一个问题:Token消耗太小。用户和AI聊天,一天能聊多少?重度用户可能来回几十句,消耗不过几千Token。普通用户可能一周才用几次。即便是有付费意愿的用户,一个月消耗的Token量也极其有限。
第二个问题:付费意愿太低。对话式AI的商业模式,要么是按月订阅,要么是按Token计费。按月订阅,几十块月费已是天花板,用户很难为“聊聊天”付更多钱。按Token计费,用户一天用不了多少,客单价上不去。
几百亿的投入,靠几十块的月费、几千Token的消耗来回本,账算不过来。这不是某一家厂商的困境,是整个行业的集体焦虑。大模型厂商们砸下重金,却发现自己站在一个“叫好不叫座”的尴尬位置——技术惊艳了世界,但商业闭环迟迟打不通。
Agent的出现,彻底改变了算力模型。
首先是Token消耗量级的跃升。Token消耗不是线性增长,是指数级跃升。一个复杂Agent任务,顶得上几百次普通对话。比如,一个对话式AI任务,消耗的Token可能几百到几千。一个Agent任务,比如“帮我整理这份合同,找出风险条款,然后发邮件给法务审核”。Agent需要拆解任务、调用工具读取合同、调用模型分析风险、生成审核意见、调用邮件系统发送——整个过程可能需要几十次模型调用、多轮迭代、多个工具执行。
其次是付费逻辑的根本转变。用户愿意为什么付费?为“聊天”付费,用户觉得不值。但为“完成任务”付费,逻辑完全不同。如果Agent能帮我整理合同、分析数据、生成报告、自动审批,它就不再是一个“聊天机器人”,而是一个“数字员工”。企业愿意为员工付费,个人也愿意为节省时间的工具付费。
kimi一个月199元,Agent只能用不到50次
笔者在kimi上部署的Agent
这就是从“按对话收费”到“按任务收费”的转变。前者是消费品逻辑,后者是生产力工具逻辑。
Token的本质,在这一刻被重新定义。Token不是“字数”,不是“计算次数”,而是模型的“思考量”和“行动量”。每一次模型调用,每一次工具执行,每一次迭代反思,都消耗Token。Token是AI时代的“燃料”——没有它,模型无法思考;消耗越多,思考越深,行动越强。
当Agent成为主流应用形态,Token的消耗量将不再是线性增长,而是伴随任务复杂度的提升呈现指数级跃升。这正是科技巨头们等待已久的“算力出口”。
Token经济正在成型。
Token经济不是未来概念,它正在发生。
从个人层面看,据报道,OpenClaw的重度用户日均消耗Token达到3000万到1亿。一个用户一天消耗的Token,抵得上过去一个社区的总和。有人因为Agent陷入循环卡顿,6小时耗光9000万Token,单日账单超千元。这不是极端案例,是Agent时代的常态。
从国家层面看,2026年3月,中国日均Token调用量突破140万亿。两年增长上千倍。这个数字还在以每周两位数的速度增长。140万亿是什么概念?相当于14亿中国人,每人每天用掉10万个Token。
从市场层面看,Token消耗量已经成为大家关注的核心指标。
三个层面的信号叠加在一起,指向同一个结论:Agent是科技巨头唯一的“算力出口”,也是商业模式重构的关键。对于上千亿的资本开支,对话式AI的出口太窄,撑不起这个盘子。Agent打开了出口的宽度——成百上千倍的Token消耗,完全不同的付费逻辑,正在形成的Token经济。
这就是科技巨头疯狂押注Agent的根本原因——给自己找活路。
OpenClaw
就是AI操作系统的雏形?
就在各大科技巨头密集布局Agent的同时,英伟达创始人黄仁勋在GTC 2026大会上点明了一个关键趋势。
他指出,OpenClaw是AI时代操作系统的雏形。大模型相当于CPU,而OpenClaw就是操作系统。这个判断的分量非同小可:如果Agent真的是下一代操作系统,那么谁掌握Agent生态,谁就掌握了AI时代的地基。
事实上,这并不是黄仁勋第一次强调Agent的战略地位。早在2025年的CES展上,他就提出“Agentic AI”将成为AI发展的下一阶段。如今,这一判断正在被中国科技巨头的实际行动所验证。
每一次技术革命,都会重塑权力格局。
计算机诞生之初,IBM定义了大型机时代,成为科技霸主。PC时代,微软定义了操作系统,统治了桌面。互联网时代,谷歌定义了搜索,掌控了信息入口。移动时代,苹果定义了智能手机,重构了人机交互。
AI时代,谁将定义Agent?答案正在浮现。
回顾科技史,最终胜出的平台,都是在三个层面同时构筑了壁垒。PC时代的微软:硬件生态(Wintel联盟)+操作系统(Windows)+应用生态(Office)。移动时代的苹果:自研芯片(A系列)+操作系统(iOS)+应用商店(App Store)。互联网时代的谷歌:算力基础设施(数据中心)+搜索算法(PageRank)+广告生态(AdWords)。
算力、产品、生态——三者缺一不可。这是技术史的冷酷逻辑,也是Agent时代不会改变的规律。
从这个角度来看,Agent的价值,怎么强调都不过分。
也正因为如此,为了一只小“龙虾”,各家科技企业才会如此“上头”。
八仙过海,各显神通
在Agent这个“战场”上,不管是阿里、字节、腾讯这些巨头,还是月之暗面、智谱等AI新星,都几乎押上了重注。那么,他们到底做的咋样,优劣势如何呢?
应该说,这场竞赛才刚刚开始,很难看得清楚。但是,我们可以从从基础模型能力、产品体系、技术路线、安全策略、生态建设五个竞争维度,来试图捋出来一个脉络。
基础模型能力——底座决定上限
可能不少人会认为,接下来是Agent的时代,大模型是过时的产物,不再那么重要了。但这其实是一个误解,大模型依然至关重要,只是它可能更多的隐在幕后了。
事实上,Agent的“大脑”是大模型,模型能力决定了Agent能理解多复杂的指令、能推理多深的问题、能调用多准的工具。
从当前格局看,字节豆包2.0在调用量和产品成熟度上领先,阿里Qwen系列在开源AI领域表现亮眼,腾讯混元相对处于追赶位置。
字节豆包2.0于2026年2月14日发布,根据最新数据,其日均使用量突破120万亿Tokens,暂时领先。
阿里的通义系列模型通过千问和悟空两个出口服务C端和B端,优势在于与钉钉、淘宝等业务的深度耦合。
腾讯混元起步较晚,与头部存在差距。这也是腾讯为何一边自研,一边投资智谱、MiniMax等创业公司。
此外,第二梯队不容忽视:月之暗面Kimi-K2在SWE-bench达65.8%,智谱GLM-5在C-Eval达92.5%,MiniMax M2.5输出价格仅1.1美元/百万Token(约为Claude的1/20)。在OpenClaw调用的344个大模型中,国产模型Kimi K2.5、阶跃星辰Step 3.5 Flash以及MiniMax M2.5排名靠前,“国产龙虾三剑客”格局初现。第二梯队特定能力甚至超越大厂,但缺乏生态护城河。
产品体系与业务融合——谁在真正“做事”
Agent与自身业务体系的融合深度,决定了它能“做”多少事。
阿里:千问(C端)+悟空(B端)
千问定位“AI办事”,2026年1月上线Agent任务助理,打通淘宝、支付宝、飞猪、高德等阿里生态,用户可通过自然语言指令完成跨应用操作。
悟空是企业级AI原生工作平台,2026年3月17日发布。它不是钉钉的功能模块,而是“为AI重写的钉钉”——将8亿用户的底层架构全面重构,首批OPT行业解决方案覆盖电商、制造、法律、财税等十大行业。
字节:豆包+扣子+飞书
豆包提供模型能力,扣子(Coze)提供Agent开发平台,飞书提供企业服务场景。扣子的核心优势是极低上手门槛和丰富插件生态,用户可一键发布至抖音、飞书等渠道。
笔者在字节扣子上部署的openclaw
腾讯:WorkBuddy+微信
WorkBuddy于2026年3月9日上线,核心功能是打通微信直连——用户发语音/文字即可远程指挥电脑工作。发布首日因用户涌入超预期,团队于第二日紧急将算力扩容十倍。腾讯的打法是“入口式覆盖”:借微信14亿月活实现大规模分发。
笔者用微信接入的openclaw
与OpenClaw的关系——兼容、自研还是套壳?
各厂商对OpenClaw的态度,反映了其技术自主程度。
需要指出的是,阿里悟空并非OpenClaw的套壳,更像是自研程度较高的Agent操作系统。钉钉将产品体系全面重构为CLI(命令行界面),AI通过标准化指令直接调用功能。采用自研Agent Runtime架构,包含任务推理引擎、记忆系统、AI工作空间和执行工具集。
钉钉CEO陈航表示,“和市面上所有的龙虾Agent不一样,‘悟空’天然就长在企业组织中。”
WorkBuddy完全兼容OpenClaw技能体系,支持技能一键导入。微信推出ClawBot插件,支持接入OpenClaw。但腾讯同时发布了完整的Agent产品全景图,不以OpenClaw为唯一底座。
飞书是OpenClaw官方默认的IM应用,但字节同时拥有豆包和扣子,追求技术栈的自主可控。
国家数据局局长刘烈宏表示,中国企业正从“套壳”走向“开源框架+中国模型+全栈安全”的独特路径。
安全策略——敢用比好用更难
安全正在成为Agent落地的第一道门槛。IDC调研显示,“安全风险”是用户推进AI智能体落地的最大阻碍之一。
OpenClaw被曝出SMB凭证泄露、环境变量注入、Unicode伪装攻击等漏洞,国家互联网应急中心已发布风险提示。这些漏洞的本质是OpenClaw从诞生之初带着“个人工具”的基因,采用“先跑通、再修补”的逻辑,缺乏企业级安全设计。
阿里悟空从架构设计之初就把安全内建到底层,构建涵盖统一身份认证、容器级沙箱、Skill安全扫描等六项安全防护。
腾讯WorkBuddy强调所有操作在本地运行,保障数据隐私安全。字节豆包强调严格遵循用户授权与合规原则,数据全程加密。
需要指出的是,安全和灵活是Agent的一对核心矛盾:权限放太宽容易出事(如Meta安全总监的Agent误删200封邮件),放太窄Agent又废掉了。谁能设计出“既安全又高效”的人机协作机制,谁就能让Agent真正走进企业核心业务。
生态之争——谁在定义“AI时代的安卓”
Agent的竞争,最终是生态的竞争。阿里、字节、腾讯走出了三条不同的生态路径:
阿里是系统级重构——将钉钉底层全面CLI化,悟空平台打通电商、金融到企业协同的全链路,目标五年内“云+AI”外部收入超1000亿美元/年。
字节是积木式渗透——将AI能力拆解为可复用模块,通过扣子平台绑定开发者,飞书是OpenClaw官方默认IM应用,形成“产品矩阵+AI中台”的布局。
腾讯是入口式覆盖——借微信14亿月活实现大规模分发,QClaw主打“零门槛”,WorkBuddy主打桌面任务,企业微信主打B端客户经营。
三家的共同策略是“兼容但不依附”——既利用OpenClaw开源生态的丰富性,又保持一定的技术自主。OpenClaw正在成为Agent操作系统的事实标准,类似于安卓在移动时代的角色。谁能成为“AI时代的安卓”,取决于谁能在自研技术栈、生态兼容性、开发者吸引力三个维度上同时构筑壁垒。
需要指出的是,竞争的终局,可能不是只有一个生态主,而是多个生态并存,且多个生态之间实现一定程度的打通。
有趣的是,基于openclaw的Agent系统,目前已经具备打通各个平台的潜力。例如,笔者在字节扣子上部署了openclaw,并且连通了微信和飞书这两个端口。我在微信上跟它沟通的内容,在飞书上它居然也还记得。
通过微信接入openclaw
在微信上沟通的记忆,也可以同步到飞书上
综上,从五个维度来看,三家巨头的路径分野清晰:阿里强在业务融合,字节强在模型能力与产品成熟度,腾讯强在入口与工程化能力。月之暗面、智谱等第二梯队则在特定技术能力上领先,但缺乏生态护城河。当然,这是它们的最大困境,也是最大机会(保持中立,可被多方集成)。
各家公司Agent布局对比表
在这场激烈的竞争中,谁能在基础模型、产品生态、技术自主、安全信任、生态建设五个维度同时构筑壁垒,谁就能在Agent时代的竞争中占据有利位置。
我们正站在一个新时代的门口
1956年夏天,达特茅斯学院的一个研讨会上,一群科学家第一次提出了“人工智能”这个概念。那一年,没有人知道这条路要走多远。
此后的七十年,AI经历了两次漫长的寒冬。每一次寒冬,都是因为技术的承诺远远超出了能力边界——人们以为AI要来了,结果发现它连简单的推理都做不好。每一次寒冬,都是因为商业闭环打不通——投入巨大,产出寥寥,资本失去耐心。
但演进从未停止。回看AI的发展历程,可以清晰地看到一条脉络:
第一幕,AI是“识别器”。它能认出图片里的猫,能听懂你说的话,能转录会议记录。但这个阶段的AI,只能“看”和“听”,不能“做”。
第二幕,AI是“对话者”。2017年Transformer架构诞生,2022年ChatGPT引爆全球。AI能和你聊天,能写诗,能编程,能回答问题。但这个阶段的AI,只能“说”,不能“做”。
第三幕,AI是“行动者”——Agent。它能拆解任务,能调用工具,能多轮迭代,能在数字世界里真正“做事”。
这不是渐进式的改进,是范式级别的跃迁。
Agent现在能做什么?
说实话,还不多。阿里的千问、字节的豆包,目前能帮你点外卖、打车、订机票——在封闭场景里跑通闭环。悟空则像“封闭园区的无人驾驶”,基于钉钉的组织架构,在安全边界内做事。至于大量套壳OpenClaw的Agent,连安全责任都还没厘清。
但能力的演进速度超乎想象。从“识别”到“对话”,用了七十年。从“对话”到“行动”,只用了三年。
Agent未来能做什么?
未来18个月,是关键窗口期。
在能力层面,谁能突破任务复杂度、工具调用准确率、多轮迭代稳定性的瓶颈,谁就能定义Agent的标准。在安全层面,谁能建立企业级信任,谁就能赢得客户。在生态层面,谁能成为“AI时代的安卓”,谁就能掌握下一个十年的底层规则。
历史一再证明,一项技术从“玩具”走向“工具”,需要一个关键的转折点。在这个点之前,技术是酷的,但可有可无;在这个点之后,技术是必须的,再也回不去。
AI的转折点,正在发生。催化剂是Agent。
1956年达特茅斯会议,是一扇窄门。2012年ImageNet突破,是一扇窄门。2022年ChatGPT发布,是一扇窄门。2026年的Agent浪潮,也是一扇窄门。
窄门开启时,有人看见机会,有人看见风险,有人看见热闹。但只有少数人看得见——这扇门通向的,是下一个时代的底层规则。
达特茅斯会议七十年后,AI终于从“识别”走到“对话”,再走到“行动”。
窄门已经打开。谁能穿过?








