OpenAI CEO Sam Altman 和总裁 Greg Brockman 在 X 上同步发布招聘信息,正式宣告 OpenAI 全面进军机器人领域。Altman 表示,OpenAI Robotics 正在招募全栈硬件、运维、系统和 ML 工程师,目标是「编程和制造对社会有用的机器人」。他强调 AI 应该能够在物理世界中帮助人类,短期内专注于帮助完成家务的机器人。Brockman 则表示 OpenAI Robotics 在构建能够帮助人类的物理 AI 方面取得了快速进展。这一信号表明,OpenAI 此前的世界模拟(World Simulation)研究已正式升级为完整的机器人业务线——从纯软件的 LLM 走向软硬件协同的具身智能。在 Google DeepMind、NVIDIA 和特斯拉等公司均已布局机器人基础模型的背景下,OpenAI 的入局将显著加剧该赛道的竞争。结合近期 Agentic AI 在软件领域的爆发,物理世界的 AI 代理正成为下一个前沿。
据科技博主 mark_k 爆料,多方消息源显示 GPT-5.6 在 Agentic 编程基准上的表现将可与 Anthropic 代号 Mythos 的模型匹敌。这一消息得到了多位 OpenAI 工程师评论的印证。mark_k 表示发布时间预计在「本周或下周」,并附上了「Soon」的暗示。此前社区已在讨论 GPT-5.5 在 DeepSWE-Bench 上以 70% Pass@1 的成绩领先 Opus 4.8(58%),如果 GPT-5.6 确实在 Agentic 编程能力上进一步提升并与 Mythos 持平,前沿模型之间的竞争将进入白热化阶段。值得注意的是,Mythos 的定价据称为 $25/百万输入 token、$125/百万输出 token,远高于当前主流模型,这意味着 GPT-5.6 如果以更亲民的价格提供相近性能,将在企业级 Agentic 编程市场获得显著优势。
OpenCode 官方账号宣布 DeepSeek V4 Flash 已在其 Zen 平台上线可用。DeepSeek V4 Flash 是 DeepSeek V4 的轻量推理变体,相比完整版 V4 在推理速度和成本上更具优势,适合对延迟敏感的编程辅助场景。与此同时,知名开发者 antirez(Redis 作者)也在 X 上分享了在两台 Mac Studio 上通过 1TB 内存分布式运行 DeepSeek V4 PRO 的经验,表明该模型在本地部署场景中也受到高度关注。DeepSeek V4 Flash 的部署渠道持续扩展,从 vLLM 的专项优化(v0.22.0 引入 NVFP4 融合 MoE 和 CUDA 图优化)到 OpenCode 等编程工具的集成,反映出中国开源模型正在成为全球 AI 编程基础设施的核心组成部分。
据科技博主 minchoi 报道,xAI 的 Grok Imagine Video 1.5 Preview 版本刚刚登顶 Video Arena 排行榜。Video Arena 是社区驱动的视频生成模型盲评平台,类似于文本模型的 Chatbot Arena,其排名结果反映了用户在真实场景下的偏好。Grok Imagine Video 1.5 Preview 的登顶意味着 xAI 在视频生成赛道已具备与 Google Veo、Runway Gen-3 等领先模型竞争的实力。此前 xAI 主要以文本和编程模型(Grok 系列)为人所知,视频生成能力的快速提升表明其多模态布局正在加速。结合 xAI 近期在 API 定价上的激进策略(grok-build-0.1 定价仅 $1/$2),Elon Musk 旗下的 AI 公司正在从多个维度对 OpenAI 和 Anthropic 施加压力。
研究者 jianlanluo 发布了 τ0-WM,一个开源的统一视频-动作世界模型(Video-Action World Model),用于机器人操作任务。该模型拥有 50 亿参数,基于 27,300 小时的真实机器人遥操作数据、UMI 风格示范数据和自我中心视角交互视频训练。τ0-WM 的技术路线代表了机器人基础模型的一个重要方向——通过将视频生成与动作预测统一到单一框架中,模型可以「想象」物理世界的未来状态并据此规划机器人动作。与纯文本驱动的机器人控制(如 RT-2)不同,VLA/世界模型方法能够更好地处理物理世界的连续性和不确定性。27,300 小时的真实机器人训练数据规模也相当可观,这表明具身智能领域的数据飞轮正在加速。对于开源社区而言,50 亿参数的规模意味着该模型可以在消费级硬件上运行和微调。
彭博社 Mark Gurman 在其 Power On 专栏中透露,苹果 iOS 27 的 Siri 应用将通过 iCloud 实现跨设备聊天同步,功能体验类似 ChatGPT、Claude 和 Gemini 应用。这意味着用户在 iPhone 上与 Siri 的对话将自动同步到 iPad 和 Mac 上,实现无缝的多设备交互体验。这一更新看似微小,但反映出苹果正在认真对待 Siri 的 AI 竞争力——此前 Siri 一直是「单设备、无记忆」的体验,与 ChatGPT 等产品形成明显差距。跨设备同步不仅需要云基础设施支持,更意味着 Siri 将具备持久化的对话上下文和用户偏好记忆。在 Google Gemini 和三星 Galaxy AI 均已深度集成到移动端的背景下,苹果需要在 iOS 27 中展示 Siri 的实质性进步,而非仅仅是界面美化。
NVIDIA 推出 SkillSpector,一款专门用于扫描 AI Agent 技能的安全工具。该工具提供 64 项安全检查,覆盖 16 个类别,包括快速静态分析和可选的 LLM 语义评估两种模式。核心功能涵盖提示注入检测(Prompt Injection Detection)和凭证窃取检测(Credential Theft Detection),这两类是当前 AI Agent 系统面临的最严重安全威胁。随着 AI Agent 从实验室走向生产环境,安全问题正成为最关键的瓶颈之一——Agent 需要调用外部工具、访问 API 和处理敏感数据,每一个技能(Skill)都是潜在的攻击面。NVIDIA 作为 AI 基础设施的核心供应商,推出 Agent 安全扫描工具表明行业正在为大规模 Agent 部署构建安全基座。这一工具填补了 Agent 生态中「技能供应链安全」的空白,类似于传统软件开发中的依赖扫描工具。
阿里巴巴在 Qwen Conference 2026 大会上正式发布 Qwen Cloud 平台。「这将改变人们使用 AI 构建软件的方式」。Qwen Cloud 的推出标志着阿里在 AI 领域的战略升级——从此前以开源模型(Qwen 系列)为核心的技术输出,转向提供完整的 AI 开发平台服务。结合近期阿里在模型层面的持续发力(Qwen 3.6、Qwen 3.7-Max 等),Qwen Cloud 将模型推理、微调、部署和应用开发整合到统一平台中。在全球范围内,这一策略与 Google 的 Vertex AI、OpenAI 的 API Platform 以及 Anthropic 的 Claude Platform 形成直接竞争。对于中国开发者而言,Qwen Cloud 提供了一个本土化的全栈 AI 开发平台选择,有望降低企业使用国产模型的技术门槛。这也是中国 AI 巨头从「模型竞赛」转向「生态竞赛」的标志性事件。
AI 研究机构 DAIR.AI 发布本周(5 月 24-31 日)AI 论文精选,入选论文包括:SkillOpt(Agent 技能执行级策略优化)、AutoScientists(自动化科学研究)、The Efficiency Frontier(Agent 上下文管理成本优化)、Language Models Need Sleep(语言模型需要「睡眠」维持性能)、Adapting the Interface Not the Model(适配界面而非模型)、Forecasting Scientific Progress with AI(用 AI 预测科学进展)、Compiling Agentic Workflows into Weights(将 Agentic 工作流编译为权重)。「语言模型需要睡眠」这一发现尤其引人注目,暗示连续运行的 Agent 系统可能存在性能衰减,需要类似人类的「离线处理」机制。
文章来源: https://mintpick.app


阅读后的真实反馈
支持继续回复展开讨论,审核通过后会展示在页面中。