
从DeepSeek的训练方法论到Kimi的核心网络突破,中国AI正从开源路线的跟随者变为引领者,在GTC舞台上与共议Token经济学——这场由效率和创新驱动的新纪元,中国已稳稳确立航标。
———— / BEGIN / ————
“Token是新的大宗商品。”
这是黄仁勋在GTC 2026年度开发者大会上的判断。
趋势已经形成:无形的海量Token顺着网线,卖到了全球各地,就像有形的大宗商品通过轮船、路网卖到全球各地一样。
其中,中国的Token,最近在海外卖疯了。
全球最大的AI模型API聚合平台OpenRouter数据显示,2月16日-2月22日一周时间里,中国模型的周调用量高达5.16万亿Token,而同期美国模型调用量只有2.7万亿Token。
平台调用量排名前五的大模型,四款是中国的,分别为MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM5以及DeepSeek的V3.2。
外国人正在用真金白银选择中国AI大模型。
跨越性价比,迈入底层创新
早期,海外市场对中国模型的青睐或许始于“物美价廉”的Token。
但今年以来,中国团队已经开始在最基础的架构上,改写AI 研发的底层逻辑。
最近,月之暗面团队发布的论文《Attention Residuals》就是这一趋势的代表,直接动摇了Transformer架构中沿用近十年的基石——残差连接。
自2015年何恺明提出ResNet以来,残差连接以其“将输入直接加到输出上”的朴素逻辑,成为几乎所有深度神经网络的标配。
然而,这种固定权重、均匀累加的机制,像一台没有筛选功能的信息搅拌机。早期层计算出的宝贵特征,在向深层传递时,其相对贡献度随深度衰减,最终被淹没在后续层输出的“噪声”中。
《Attention Residuals》打破了这个十年未动的默认配置。它为每一层配备一个可学习的查询向量(query),让该层根据当前处理的内容,动态决定最需要参考哪些前序层的结果。
就像是给每一层加了一部手机,遇到具体需求时,能随时精准查询上面任何一层自己所需的数据。
这种回归第一性原理的改进,相比传统残差连接,节省了约 20%的计算量,但其意义显然更为深远。
这也是为何向来推崇“打破常规”的马斯克会对其公开点赞,前Open AI 联合创始人Karpathy 也在看完研究后,发出需要“重新理解架构”的感慨。
这说明,大模型的架构优化和技术创新已经从 Attention、MoE 这些上层模块,深入到了最底层的残差连接。
而在大模型最硬核的技术深水区里,中国AI正在稳稳确立自己的新航标。

坚持开源,贡献中国突破
在过去一年,中国大模型已经不是偶发的“单点突破”,而是集群发力。
全球业界已经清晰地意识到,创新的发源地正在东移。

海外科技评论人Tuki发文称,去年1月,Deepseek靠极致的推理成本和R1震撼了硅谷。紧接着,Kimi带着更优的运行成本来了。
这背后其实隐藏着一条更宏大的主线:当下全球 AI 的竞争,本质上已经不仅是地域之间的角力,更是“开源”与“闭源”路线的交锋。
作为全球开源模型的代表,DeepSeek带来了训练方法论的创新,Kimi则从核心网络架构突破。
正是这种扎根底层的开源创新,赋予了中国团队在全球顶级科技舞台上的话语权。比如,Kimi创始人杨植麟成为本届 GTC唯一受邀现场演讲的独立大模型公司创始人。
在GTC的主舞台上,他围绕Token效率、长文本、Agent集群,全面披露了开源模型K2.5的技术路线。
这向全球传递了一个非常明确的信号:中国的AI创新者不仅在跟随,更在引领创新。
在大模型的训练方法、模型架构等方面,中国AI不仅能够取得原创性的创新成果,而且愿意以开源的方式回馈全球开发者。
价值重估,现金飞轮转不停
全球对中国AI创新能力的认可,最直观的映射在资本市场。简单来说,技术愿景最终需要真金白银的投票。反映到资本市场上,就是估值提高。
二级市场上,今年刚上市的智谱、Minimax股价屡创新高。
一级市场上,Kimi在不到3个月,先后完成3轮融资,估值翻4倍,达到180亿美元(约1200亿人民币)。
这一融资节奏和体量,在当下愈发慎重的资本市场环境中,堪称奇迹。
不过,如果仅仅将其归结为资本对某一家公司“技术护城河”的盲目追捧,显然是天真的。
资本真正在押注的,是中国AI产业跑通的一条与硅谷截然不同的道路。
硅谷巨头习惯了“大力出奇迹”,用天价的算力和数据去暴力喂养模型,这本质上是一种粗放的“高耗电”模式。一旦进入深水区,极易被高昂的推理成本拖垮。
而以DeepSeek、Kimi为代表的中国团队,走的是另一条路——在算法优化和模型架构上做到极致的精打细算。
无论是R1的训练方法,还是《Attention Residuals》对十年旧架构的重构,本质上都是发明了一种极低能耗、极高效率的“用电方式”。用更少的Token,榨取出了更高的模型智能。
在这个逻辑下,市场的投票也无比迅速。当全球开发者和企业发现,在这样性价比的基座上运行复杂任务,不仅逻辑更稳,而且调用成本极低时,流量与订单便会激增。
这也解释了,为什么Kimi在今年1月发布K2.5模型后,短短20天内的商业收入,就超过了2025年的全年收入。
这种将技术突破转化为开源基础设施,同时又跑通商业飞轮的能力,才是支撑起中国大模型千亿估值、并持续运转的原因。
黄仁勋在GTC上断言,Token是新时代的大宗商品。
而历史告诉我们,在大宗商品的全球贸易网络中,最终掌握定价权和主导权的,往往不是拥有最多原始粗矿的玩家,而是拥有高效提炼与转化技术的人。
当5.16万亿个中国Token顺着网线流向全球,一个清晰的事实已经浮出水面:
在这个由Token驱动的新纪元里,中国AI正在以令人惊叹的效率和创新,重构全球智能算力的贸易版图。
参考资料
[2603.15031] Attention Residuals https://arxiv.org/abs/2603.15031
Kimi杨植麟:很多普遍使用的技术标准正成为Scaling的瓶颈 https://m.thepaper.cn/newsDetail_forward_32787861
马斯克惊叹!DeepSeek和Kimi先后出手,捅破了Transformer的「潜规则」! https://mp.weixin.qq.com/s/BQNhy8vo1bMn5uNHyamYlQ
将注意力旋转 90 度!今天,Kimi 的「注意力残差」火了 https://mp.weixin.qq.com/s/rrWCapCip7PtYDHxMm73GA?scene=1
Kimi新架构让马斯克叹服!17岁高中生作者一战成名 https://mp.weixin.qq.com/s/grWJ9EH_4RdeLymRetAT4w Attention
转个方向,Transformer动到了骨髓 https://mp.weixin.qq.com/s/gUk77lcu0wKk0Y-f1pH2Jg
估值1200亿,Kimi融资破纪录了 https://mp.weixin.qq.com/s/Yu3pGfrEBrL4yZk41o8cug
哥飞锐评 kimi、MiniMax、Manus、Cursor - 小红书 https://www.xiaohongshu.com/explore/69aaa0b60000000022032e7a?source=webshare&xhsshare=pc_web&xsec_token=ABrgGSSTkpeUbLZJmgcefNg8VQAZ5h1DF905Jb9Y6vFR0=&xsec_source=pc_share
深度丨2年,30倍,100亿美元估值,一场比字节还快的极速增长 https://mp.weixin.qq.com/s/lMpNBzbSpu8bgQ2-_uFAdQ
月之暗面创始人杨植麟:中国技术不仅要好用还要参与制定规则,未来大模型要推出到K100 https://mp.weixin.qq.com/s/0QJhrwCbkL3nGXX8e5qjpA
黄仁勋GTC 2026演讲全文:直指推理性能、“token经济学”、OpenClaw智能体革命…… https://mp.weixin.qq.com/s/Ta4jY8KfItjIVb82cW08aQ
20天收入超2025全年,龙虾爆火的受益者Kimi能否弯道超车? https://mp.weixin.qq.com/s/mKkNhbKE4af6HWc-CMZWww?scene=1&click_id=8
本文来自公众号:非凡油条 作者:豆腐乳儿
想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!
广源优配提示:文章来自网络,不代表本站观点。