今日概要

今日 AI 精选共 41 条,涵盖技巧与观点 7 条 · 产品发布 22 条 · 论文研究 3 条 · 行业动态 6 条 · 模型发布 3 条。


模型发布

🔥 微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为”中等规模”,能在”关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步,此前其主要依赖OpenAI。近期两家公司已重新协商合作协议,关系有所松绑。
来源:The Verge:AI(RSS) | 原文链接

🔥 Holo3.1:快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。
来源:Hugging Face:Blog(RSS) | 原文链接

🔥 阶跃星辰Step 3.7 Flash发布,专为高效推理设计

阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构,从设计之初就专注于推理效率。其采用多矩阵分解注意力机制,使KV-cache成本仅为DeepSeek模型的约22%;同时通过注意力与FFN解耦技术,实现了硬件优化的高效服务。该模型已通过Fireworks AI提供,采用Apache 2.0许可,并可用于构建智能体应用。
来源:X:阶跃星辰 StepFun (@StepFun_ai) | 原文链接


产品发布

🔥 NVIDIA 推出 NemoClaw 平台,助力工业软件厂商构建自主 AI 工程师

在 COMPUTEX 上,NVIDIA 发布了 NemoClaw 平台,这是一个用于构建专业、长时间运行 AI 智能体的开放蓝图。该平台提供安全运行时、前沿模型支持以及多种编排框架集成选项,可通过 DGX Spark、数据中心或云端部署。其核心开源运行时 OpenShell 实施基于策略的安全管控,规范智能体对文件、网络和工具的访问。Cadence、达索系统、西门子、Synopsys 等十多家工业软件厂商正基于 NemoClaw 构建用于 CAE 和 EDA 工作流的自主 AI 工程师,旨在将原本需数周的仿真与设计任务压缩至数小时。
来源:NVIDIA Blog:Agentic AI(网页) | 原文链接

🔥 Google DeepMind 开源科学智能体工具包

构建用于科学发现的自主智能体?🧬🤖

@GoogleDeepMind Science Skills 现已在 GitHub 上发布。我们已开源这个专用工具包,以科学基础和更高的 token 效率加速您的智能体工作流。

立即下载 ↓ https://github.com/google-deepmind/science-skills
来源:X:Google AI for Developers (@googleaidevs) | 原文链接

🔥 Claude Code 新增动态工作流功能

Claude Code 新增动态工作流功能,允许模型在运行时即兴创建和协调多智能体框架来处理复杂任务。该功能通过执行特定的 JavaScript 文件来生成和协调拥有独立上下文窗口的子代理,可解决单一上下文窗口中长时间执行任务可能出现的智能惰性等问题。工作流适用于研究、安全分析、代码审查等场景,通常消耗更多 token,更适合高价值复杂任务,其最佳实践仍在发展中。
来源:Claude:Blog(网页) | 原文链接

🔥 NVIDIA DGX Station 开始交付开发者和研究人员

NVIDIA DGX Station 系统正开始送达开发者和研究人员的办公桌。📦

企业团队可以本地部署数据中心级性能,搭载 GB300 的系统正从华硕、戴尔、技嘉、惠普、微星和超微等合作伙伴处发货。

👉 阅读博客:https://nvda.ws/4x3VdBr
来源:X:NVIDIA (@nvidia) | 原文链接

🔥 Runway API 推出 Aleph 2.0 视频编辑功能

Aleph 2.0 现已通过 Runway API 提供。将精准视频编辑直接集成到您的应用、产品和平台中。支持在多镜头序列中编辑最长 30 秒、1080p 分辨率的视频,仅修改您想要的部分。

请通过以下链接开始使用。
来源:X:Runway (@runwayml) | 原文链接

🔥 OpenRouter上线微软三款新模型

三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线! 同步推出:MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵
来源:X:OpenRouter (@OpenRouter) | 原文链接

🔥 Replit 与微软合作发布 Fabric 集成

宣布与 @Microsoft 的新合作

组织现在可以在 Replit 中构建内部工具、工作流或数据仪表板,并直接发布到 Microsoft Fabric,内置安全、身份验证和治理功能。
来源:X:Replit (@Replit) | 原文链接

🔥 OpenAI Codex 推出团队专属插件

Codex 中的角色专属插件围绕团队实际工作构建。

数据分析、创意制作和产品设计插件为 Codex 提供了创建报告、创意方向和原型的工具与上下文。

由 OpenAI 团队构建并使用。
来源:X:OpenAI Developers (@OpenAIDevs) | 原文链接

🔥 微软发布开源框架 Adaptive Spec-driven Scoring:支持用文本描述创建 AI 评估测试

微软开源发布 Adaptive Spec-driven Scoring for Evaluation and Regression Testing 框架。开发者可通过文本描述快速生成 AI 行为测试,用于模型评估与回归测试。
来源:TechCrunch:AI(RSS) | 原文链接

🔥 Claude Platform 新增 CLI 工具

我们为 Claude Platform 添加了一个 CLI,使每个 API 端点都可以从你的终端运行。 调用 Messages API,启动 Claude 托管智能体,并将结果直接管道传输到你的 shell。 ant CLI 被使用 claude-api 技能的编码智能体(Claude Code)很好地理解。
来源:X:Claude Devs (@ClaudeDevs) | 原文链接

🔥 NVIDIA发布自进化Hermes智能体

自进化Hermes智能体:随使用而改进的企业AI | Nemotron Labs
来源:X:NVIDIA AI (@NVIDIAAI) | 原文链接

🔥 OpenClaw 与微软合作进入企业生态

“你现在可以在公司内部运行 OpenClaw 了。” 宣布我们与 @Microsoft 的合作,将 OpenClaw 带入微软和 Windows 生态系统。Claws 现在可以在企业环境中安全运行。
来源:X:OpenClaw (@openclaw) | 原文链接

🔥 GitHub Copilot应用:智能体原生的桌面体验

在微软 Build 2026 大会上,GitHub 发布了新的工具和更新,并将 Copilot 应用定位为”智能体原生的桌面体验”。其核心目标是让 AI 智能体能够以用户已经习惯的方式进行工作。
来源:GitHub Blog | 原文链接

🔥 Google DeepMind 发布 Gemini 多智能体科研系统

我们相信 AI 可以成为专属研究伙伴,帮助发现下一个突破。

隆重推出 Co-Scientist:我们最新的基于 Gemini 的多智能体系统,能够为复杂科学问题生成、辩论和演进新颖的假设 🧵
来源:X:Google DeepMind (@GoogleDeepMind) | 原文链接

🔥 OpenAI Codex 发布 Python SDK,可直接嵌入应用

这个有点厉害,Codex 出 Python SDK了。

安装指令:pip install openai-codex

整合到自己的代码中,相当于直接内置了顶级编程和生图Agent?

最关键的是,可以复用 Codex 登录态。
来源:X:Vista (@vista8) | 原文链接

🔥 OpenAI Codex Sites 功能发布

构建应用从未如此简单。 通过 Sites,Codex 可以将你的工作、想法和计划转化为一个交互式网站或应用,你的团队可以通过一个 URL 进行探索、使用和分享。 该功能将首先向 Business 和 Enterprise 计划推出,之后会更广泛地扩展。
来源:X:OpenAI (@OpenAI) | 原文链接

🔥 DigitalOcean AI云服务上线OpenRouter

⚡ 新增服务商:DigitalOcean 的 AI-Native Cloud 现已在 OpenRouter 上线。 提供高性能推理,覆盖热门开源权重模型。在 DeepSeek V3.2 的输出速度和延迟方面排名第一(数据来自 @ArtificialAnlys)。 查看其数据并试用模型:https://openrouter.ai/provider/digitalocean
来源:X:OpenRouter (@OpenRouter) | 原文链接

🔥 Replit Canvas 推出多项新功能

Replit Canvas 有一些新更新!⭐️

了解更多请访问:http://replit.com/canvas

展开讨论 🧵 ↓
来源:X:Replit (@Replit) | 原文链接

🔥 MiniCPM-V 4.6 现已支持 vLLM v0.22.0

MiniCPM-V 4.6 现已完全支持 vLLM v0.22.0! 无需自定义分支,无需额外编译。 只需拉取预构建包即可运行。 非常感谢 @vllm_project 的顺畅集成! 🤝 🤗 http://huggingface.co/openbmb/MiniCPM-V-4.6
来源:X:面壁智能 OpenBMB (@OpenBMB) | 原文链接

🔥 阿里云发布AgentScope Java 1.1及Claw等新功能

🚀 AgentScope Java 1.1:构建可自我进化的智能体 ✨ Claw:具备Shell访问权限的本地”MinQwenPaw” ✨ Builder:多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离 从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/

#AgentScope #AIAgents #Java
来源:X:阿里云 / Alibaba Cloud (@alibaba_cloud) | 原文链接

🔥 为什么金融机构正汇聚在交易基础模型上来构建自身智能

金融机构正从为每个业务线构建独立AI模型,转向采用基于Transformer的交易基础模型,以统一理解消费者行为并克服数据孤岛限制。NVIDIA报告显示,65%的金融机构已使用AI,近90%正在部署或评估。实践案例包括:Revolut与NVIDIA合作构建了PRAGMA模型系列,在240亿事件上训练,单个模型在信用评分等领域超越特定任务模型;Mastercard正开发专有大型表格基础模型;Adyen的模型处理了1万亿美元支付;Stripe利用相关平台构建模型,去年阻止了近1120亿美元欺诈。
来源:NVIDIA AI Blog | 原文链接

🔥 NVIDIA JetPack 7.2支持内存优化的边缘智能体部署

NVIDIA JetPack 7.2发布,支持一键部署开源NVIDIA NemoClaw堆栈,该堆栈为OpenClaw添加了隐私与安全控制。同时引入NVIDIA agent skills for Jetson,为Jetson设备提供智能体技能。该版本优化了内存效率,旨在加速AI代理从数字世界向物理环境的边缘部署。
来源:NVIDIA Technical Blog(开发者技术博客 · RSS) | 原文链接


行业动态

🔥 Anthropic支持美国AI行政令实施

这项行政令是加强美国AI领导地位的重要一步。

我们期待与白宫合作,支持其实施。

https://www.whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/
来源:X:Anthropic (@AnthropicAI) | 原文链接

🔥 Alphabet拟融资800亿美元 Anthropic提交IPO申请

Alphabet宣布拟通过股权融资800亿美元,用于扩展AI基础设施。Anthropic已秘密提交IPO申请,在上市竞赛中领先于竞争对手OpenAI。此外,SpaceX正与华尔街机构协商其IPO的承销费用,HPE则因AI基础设施需求旺盛,年度销售预期超出市场估计。
来源:Bloomberg:Technology(RSS) | 原文链接

🔥 Nathan Lambert离开Ai2,结束2.5年OLMO等项目工作

Ai2(Allen Institute for AI)研究员Nathan Lambert宣布离职。他在Ai2工作超过2.5年,期间主导或参与了OLMO和Tulu等开源模型项目,称其为职业生涯的巅峰。他表示将暂时休息,未来仍会继续深耕开源模型与开放科学领域。
来源:X:Nathan Lambert (@natolambert) | 原文链接

🔥 Anthropic扩展Project Glasswing计划

Anthropic正将其Project Glasswing计划扩展至约150个新组织,此前首批约50个合作伙伴。新伙伴分布于十五个多国家,覆盖电力、水务、医疗、通信和硬件等关键基础设施行业。这些合作伙伴的共同点在于,其代码库若遭成功攻击,后果可能极其严重,影响或超1亿人。项目旨在利用Claude Mythos Preview等前沿模型扫描漏洞并协助修复,以应对AI驱动的网络安全挑战。同时,Anthropic推出了基于Claude Opus 4.8等公开模型的Claude Security产品,用于扫描代码并建议补丁。
来源:Anthropic:Newsroom(网页) | 原文链接

🔥 SK会长崔泰源:SK海力士计划未来五年内晶圆产能翻倍

SK海力士会长崔泰源宣布,计划在未来五年内将整体晶圆产能提高一倍,以应对AI普及带来的持续存储供应短缺。他预测AI数据中心和AI PC的普及将持续拉动存储需求,供需紧张局面可能延续至2030年。SK海力士将投入大规模资金用于设备、建设等扩张,尽管面临前置时间长(新建晶圆厂至少三年)和资源成本上涨等挑战。目前,SK海力士市值已首次突破1万亿美元。
来源:IT之家(RSS) | 原文链接

🔥 OpenAI呼吁通过全球领导力推进青年AI安全与机遇

OpenAI呼吁通过设立专门的AI安全研究所,在全球范围内采取行动,以保障青少年在使用AI时的安全,并创造更多发展机遇。
来源:OpenAI:官网动态(RSS · 排除企业/客户案例) | 原文链接


论文研究

🔥 微软研究:Aurora天气预报速度超传统超算数千倍

天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多:https://msft.it/6018vjGUA
来源:X:Microsoft Research (@MSFTResearch) | 原文链接

🔥 Anthropic可解释性研究:区分因果效应相似的特征

Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。
来源:Anthropic:Transformer Circuits(可解释性研究) | 原文链接

🔥 Codex正在成为每个人的生产力工具

The Next Era of Knowledge Work报告指出,Codex正通过AI增强的研究、数据分析、工作流自动化与内容创作,变革知识工作的生产力。
来源:OpenAI:官网动态(RSS · 排除企业/客户案例) | 原文链接


技巧与观点

🔥 智能体工程实战窍门全录

该内容源自@mvanhorn的分享,介绍了”智能体工程”如何重塑软件开发。其核心是从”人主导编码”转向”人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。
来源:X:邵猛 (@shao__meng) | 原文链接

🔥 Claude Code 自我检查与反馈闭环技巧

如何让 Claude Code 在交回工作前检查自己的成果? 看看如何编码你的手动检查,让 Claude 自己关闭反馈循环:
来源:X:Claude Devs (@ClaudeDevs) | 原文链接

🔥 Claude Code团队实践:智能体编程如何重塑工程组织与流程

在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为”先问Claude”;代码审查中Claude处理风格与测试,人工专注于法律、安全等专业判断。新范式下,工程瓶颈从编写代码转向验证、审查与安全维护。
来源:Claude:Blog(网页) | 原文链接

🔥 Gary Marcus:为什么事情终将崩塌

知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。
来源:Gary Marcus:The Road to AI We Can Trust(RSS) | 原文链接

🔥 商汤开源SenseNova-Skills AI办公技能套件

商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。
来源:X:商汤 SenseTime (@SenseTime_AI) | 原文链接

🔥 Gemini Spark:最令人印象深刻也最可怕的AI体验

Google DeepMind的AI模型Gemini Spark提供了一次极为深刻但同时令人感到不安的用户体验。该模型展现的强大能力令人印象深刻,但其带来的影响和潜力也引发了深刻的恐惧感。
来源:The Verge:订阅版科技(RSS) | 原文链接

🔥 为了不花那120刀,我把电脑清理软件做成了开源skill

作者受一条推文启发,使用Codex对自己的MacBook进行了只读存储分析,发现了B站缓存视频等大量可清理空间(激进方案超140G)。为替代收费软件CleanMyMac,作者制作并开源了一个跨平台(支持Mac/Windows)的AI清理skill。该skill会扫描文件并生成可交互的HTML报告,通过三色分级(绿灯可放心清理、黄灯需人工判断、红灯禁止动)直观展示,并提供安全执行按钮。实测清理后释放了近120G空间,相比CleanMyMac仅扫描出的15.8G,其信息更透明、建议更详细。
来源:X:卡兹克 (@Khazix0918) | 原文链接