国产大模型“集体”更新后能力有多强？记者实测

近期，国产大模型迎来密集更新。

作者：news.cctv.com浏览：1,857发布日期：2026-05-17 00:00喜欢：1,458

近期，国产大模型迎来密集更新。从模型性能、应用场景到落地能力全面提升，同时在海外开发者平台，Token调用量超过美国。

国产大模型集体更新有哪些亮点？为什么能够吸引全球开发者来体验使用？记者近期对几款大模型进行了实测，一起了解。

[!--begin:htmlVideoCode--]b682ce2d7ebb40048ef5e60d970f34a8,0,1,16:9,newPlayer[!--end:htmlVideoCode--]

近期，国产大模型迎来井喷式更新，且Token调用量排名持续在海外开发者平台OpenRouter上名列前茅。数据显示，截至5月4日至5月10日当周，中国主要大模型周调用量达到7.94万亿Token，对比美国模型3.76万亿Token，调用量超美国两倍。

当前，腾讯混元大模型在海外开发者平台排名第一。依托该模型赋能，只要输入一句话的指令，没有任何技术背景的人也可以按需生成一个微信小程序的应用。

另一个大模型 Kimi K2.6 则主打智能体能力。它一次最多可以调动300个子智能体，并行完成4000个协作步骤，持续代码开发时间长达5天，将复杂任务执行时间缩短3倍以上。

记者给Kimi提出任务进行实测：参考一个旅游推荐集锦，制作一个包含34个旅行目的地的网站。只用了一个小时，一个名为“探索中国”的网站就建好了，部分热门景点还可以跳转至购票和预约页面。这个效率对比传统工程师敲代码已经快到难以想象。

月之暗面Kimi研究员杜羽伦：它具有非常强的长程代码能力。它在我们内部、外部的很多任务上可以单独跑十几个小时，并且写4000多行代码，不需要人为干预。

而在这轮模型迭代中，最大的亮点是以国产开源大模型DeepSeek为代表的大模型，进入了百万token上下文时代。百万token上下文可以简单理解为大模型一次能“记住”或者“看完”的信息量，大约相当于75万个汉字，能力比之前的国产开源模型翻了4至8倍。

它9秒钟给出了答案：三次，并告诉了对应的章节和情节。由于这个情节跨越全文，所以答案是它基于全文理解基础之上给出的。

请将所有的妖怪罗列出来，并根据出现的顺序作出妖怪图谱，并以动态html网页形式展示。

DeepSeek开启了思考，仅仅数分钟操作，一个西游记妖怪图谱的搜索引擎就做好了，里面包含不同门类、不同特点的归纳。它还细心地为搜索引擎设计了一个logo。记者尝试搜索，真的找到了相关妖怪的介绍。

DeepSeek的迭代真正令人赞叹的，不仅仅是它能解决的问题，还有它的成本：目前， DeepSeek-V4-Flash百万token的输出价格仅为0.28美元，这个价格是美国顶尖大模型GPT-5.5的约百分之一。正是因为极致的性价比和综合能力，DeepSeek-V4成了国际开发者OpenClaw上智能体“龙虾”的默认大模型。在百万上下文极长推理的背后，DeepSeek的推理计算量却降至上一代模型的27%。也就是说，它并不是靠算力硬扛，而是通过架构创新将成本实打实地打了下来。

[!--begin:htmlVideoCode--]f87d8e0dc7294367a5f3eb04766b096b,0,1,16:9,newPlayer[!--end:htmlVideoCode--]

国产大模型集体能力升级的背后，是我国大模型技术在开源生态上的紧密合作。从模型的技术迭代到芯片的系统适配，我国大模型技术如何实现性能和性价比的双重升级？

无论是DeepSeek最新升级的V4模型，还是Kimi K2.6，它们都是开源模型。开源就是将软件或者技术的源代码公开，允许任何人自由查看、使用、修改和分发。开源主要的目的是希望通过社区协作的方式推动技术的共同改进。

文章来源: https://news.cctv.com/2026/05/17/ARTIUUekaDVugGawlh5fLIjH260517.shtml

来源与声明

本站快讯内容主要用于行业资讯整理与信息聚合，部分内容来源于公开网络与第三方平台，仅供学习、参考与行业交流使用。

如相关内容涉及版权、署名或权益问题，请通过站点联系邮箱与我们联系，我们会在核实后尽快处理。

文章评论

阅读后的真实反馈

支持继续回复展开讨论，审核通过后会展示在页面中。

访

写下你的看法当前身份：访客

0 条评论

全部评论0 条

暂时还没有评论，欢迎来留下第一条看法。

国产大模型“集体”更新后能力有多强？记者实测

继续看同主题内容

阅读后的真实反馈