VOL. 2026-05-30 · 37 STORIES · AI DAILY

AI 日报

2026年5月30日星期六

今日 AI 精选共 37 条，涵盖产品发布 12 条 · 模型发布 4 条 · 技巧与观点 17 条 · 论文研究 1 条 · 行业动态 3 条。

模型发布

MODEL RELEASES

OpenAI推出实时翻译模型，支持70+语言输入

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

📰 X：Greg Brockman (@gdb)

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

📰 IT之家（RSS）

Qwen-VLA：从理解世界到在其中行动

Qwen Studio提供全面功能，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts。

📰 Qwen：Blog Retrieval（API）

阶跃星辰 Step 3.7 Flash 发布，聚焦智能体效率

阶跃星辰（Step）发布了开源大模型 Step 3.7 Flash，主打智能体（Agent）工作流的效率。该模型在 ClawEval-1.1（67.1分）和 SimpleVQA Search（79.2分）评测中排名第一。其架构为 198B 参数的 MoE，约 11B 为活跃参数，支持 256K 上下文。模型具备多模态理解能力，能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面，它致力于高可靠性，τ2-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链，并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

📰 X：阶跃星辰 StepFun (@StepFun_ai)

产品发布

PRODUCT LAUNCHES

ChatGPT对话目录功能现已上线

对于每个始于"就问一件事"却演变成完整长篇的ChatGPT对话：目录功能现已推出。适用于包含5条以上回复的对话。

📰 X：ChatGPT (@ChatGPTapp)

Luma Agents 自动生成宣传图，输入内容即可

博客文章完成了思考。现在让宣传来发挥作用。输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。投入使用 → http：//lumalabs.ai/app

📰 X：Luma AI (@LumaLabsAI)

Runway API持续扩展模型与端点支持

我们持续为 Runway API 添加新模型和端点，以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API，您可以在一个地方获得所需的所有模型，包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。

📰 X：Runway (@runwayml)

Gemini Omni可将草图变为现实

Gemini Omni甚至能将简单的草图变为新的现实。在Gemini应用中亲自尝试。上传一段有人画圆的视频，然后输入这个提示词：当我画完这个圆时，它变成了___。

📰 X：Gemini (@GeminiApp)

Codex现已支持Windows端计算机使用功能

Windows用户，这条消息是给你的。计算机使用功能现已在Windows上可用，因此Codex可以在你的Windows电脑上执行操作。通过ChatGPT移动应用中Codex的Windows支持，你可以在工作继续在Windows电脑上进行时，随时随地启动、审查和引导任务。这是一项早期体验，但我们正在努力提供更多方式，让你的工作无论身在何处都能持续进行。

📰 X：OpenAI (@OpenAI)

OpenRouter支持模型生成文件补丁

OpenRouter 现已支持 "apply_patch"，这是一个服务器工具，允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。模型生成一个补丁（创建、更新或删除文件）。OpenRouter 在服务器端验证 diff 语法。

📰 X：OpenRouter (@OpenRouter)

Canvas新功能与Clerk自定义登录介绍

Canvas 新功能 + 使用 Clerk 自定义登录 https：//x.com/i/broadcasts/1pJdRRzreMRKW

📰 X：Replit (@Replit)

Gemini 本月更新：全新界面与智能体助手

从全新设计的 Gemini 界面，到 Gemini Spark 提供的全天候智能体辅助，以下是本月 Gemini 更新概览。🧵

📰 X：Gemini (@GeminiApp)

阿里云开源百炼 CLI，Agent 可调用全套模型和应用能力

📰 IT之家（RSS）

用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense，为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问，以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

📰 OpenAI：官网动态（RSS · 排除企业/客户案例）

llm-anthropic 0.25.1

llm-anthropic 发布 0.25.1 版本。主要更新包括：新增 Claude Opus 4.8 （`claude-opus-4.8`）模型；为账户启用了该功能的组织新增了 `-o fast 1` 选项以使用快速模式；调整了各模型的默认 `max_tokens` 值，使其直接使用模型的最大输出长度，而非固定的 8，192。

📰 Simon Willison 博客

别只看基准测试，要看全面表现

不要只依赖基准测试；要看全面情况！试试我们的新比较页面，它还能让你可视化模型性能：https：//openrouter.ai/compare/openai/gpt-5.5/anthropic/claude-opus-4.7/anthropic/claude-opus-4.8

📰 X：OpenRouter (@OpenRouter)

行业动态

INDUSTRY NEWS

波士顿儿童医院利用AI解锁新诊断

波士顿儿童医院通过部署OpenAI技术，用于改善患者护理并减轻运营负担，成功帮助诊断了超过40种罕见病病例。

📰 OpenAI：官网动态（RSS · 排除企业/客户案例）

中央网信办等四部门：提升全民人工智能素养，加快人才培育、深化普及应用

中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》，部署了六项重点任务。其中明确要求"提升全民人工智能素养"，具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。

📰 IT之家（RSS）

三星电子业内率先出样 HBM4E 内存

📰 IT之家（RSS）

论文研究

RESEARCH

GPIC：大规模视觉生成基准数据集发布

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

📰 X：Fei-Fei Li (@drfeifei, World Labs)

技巧与观点

TIPS & INSIGHTS

LlamaIndex 团队基于 Google Agents API 构建 LlamaParse/LiteParse 智能体模板

LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板，使智能体能够访问 LlamaParse 和 LiteParse，从而自动处理非结构化文档。其工作流程为：配置数据与输出的 Git 仓库，将仓库克隆至智能体沙箱，安装 LiteParse CLI 与 LlamaParse SDK 及相关技能，最后通过提示词驱动智能体自主执行任务。该模板最终形成一个可直接使用 LlamaParse 和 LiteParse 处理真实世界文档的智能体。

📰 X：Google AI for Developers (@googleaidevs)

参与我们的 I/O 2026 测验：该测验由 Google AI Studio 氛围编程生成

Google 使用其开发工具 Google AI Studio，通过氛围编程（vibe coding）方式，创建了一个关于 Google I/O 2026 主要公告的在线测验。

📰 Google Blog：AI（RSS）

当公司过于"AI上瘾"时会发生什么？

Box创始人Aaron Levie指出，决定用AI替代员工的人往往最不了解工作的实际内容，他将此称为"AI psychosis"。ClickUp近期为部署AI智能体裁员22%即是一例。2026年的科技行业裁员规模已接近2025年全年。

📰 TechCrunch：AI（RSS）

亲测为实：难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度，在8× AMD MI300X GPUs上达到3，000 tokens/s，在8× NVIDIA H200上达到2，100 tokens/s。相比常规推理速度（约100-300 tokens/s），实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题，通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构，消除了传统流程的阻塞点。

📰 X：Rohan Paul (@rohanpaul_ai)

Cognition的Scott Wu表示：AI编程智能体不应取代人类

Cognition公司开发了Devvin，这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示，该智能体并非旨在取代人类程序员。

📰 TechCrunch：AI（RSS）

Gemini架构师分享AI前沿探索幕后故事

聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程，本期Release Notes节目。 @JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜，分享模型背后团队的幕后故事，以及他们如何见证愿景的实现。

📰 X：Google AI (@GoogleAI)

Kling AI助力电影RAPHAEL创作全流程揭秘

Kling AI戛纳展示--RAPHAEL：AI工作流幕后深入了解RAPHAEL，一部使用Kling AI创作的AI驱动故事片。看看创作者如何在整个电影制作流程中运用Kling AI，从创意构思到最终电影画面，简化制作并释放新的创作可能性。

📰 X：可灵 Kling AI (@Kling_ai)

Braintrust如何用Codex将客户请求转化为代码

Braintrust的工程师正在使用Codex结合GPT-5.5模型，以加速其实验运行与代码编写的流程。

📰 OpenAI：官网动态（RSS · 排除企业/客户案例）

Claude Code--文档中未提及的所有可配置选项

该篇文章标题涉及"Claude Code"的可配置选项，但提供的正文内容仅包含一张图片和一个外部链接，未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则，无法在摘要中提及原文不存在的细节。

📰 Hacker News 热门（buzzing.cc 中文翻译）

谷歌 DeepMind CEO 哈萨比斯：AGI 最快三年内到来，研发速度远超预期

谷歌 DeepMind 首席执行官德米斯·哈萨比斯预测，AGI 研发速度远超预期，最快可能在 2029 年至 2030 年前后出现。作为 AlphaGo、AlphaFold 的主导者，他认为当前 AI 智能体是未来更强智能的预演，随着多模态和自主决策能力成熟，三年内迎来 AGI 关键突破已非科幻。但他同时警示，全球社会对 AGI 到来的准备严重不足，必须提前建立规则与防护机制。

📰 IT之家（RSS）

Adam's Law：用高频词写Prompt效果更好

FaceMind团队用100种语言和四大核心任务实验发现，在语义不变的前提下，使用预训练语料中出现频率更高的词汇（高频表达）来撰写提示词或进行微调，可以显著提升大语言模型的表现。这被总结为Adam's Law（文本频率定律），它为数据工程补上了"频率"这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作，从而优化输出质量。

📰 X：Berry Xia (@berryxia)

15秒动画IP预告片制作全流程分享

我们制作了一个15秒的动画IP预告片--从角色设定到最终视频。认识一下MILO和BUMBLE：地下邮政骑手转发+关注+回复=我们会私信发送工作流程和提示词

📰 X：PixVerse (@PixVerse_)

Cursor 团队发布《开发者习惯报告》

报告显示，AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行，更大规模的PR（千行以上）占比上升。AI智能体在单次会话中的工具调用数增加约30%，正在处理更复杂的任务。同时，被接受的AI代码在60分钟后的留存率从约76%提升至约81%，表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具，演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

📰 X：邵猛 (@shao__meng)

特斯拉 FSD 安全性宣称遭质疑

特斯拉声称其全自动驾驶软件（FSD）安全性最高可达人类的10倍，但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟，其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷，例如与更广泛的联邦事故数据进行不恰当比较。相比之下，竞争对手Waymo采用了更严谨的统计方法。目前，特斯拉FSD仍需驾驶员主动监督，安全部署可能还需数年。

📰 IT之家（RSS）

可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架，内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

📰 OpenAI：官网动态（RSS · 排除企业/客户案例）

技能提炼

"技能提炼"是一种知识转移方法，由前沿大模型（如 Opus 4.7、GPT-5.1、Gemini 3 Pro）负责撰写并优化标准化的 SKILL.md 流程文件。然后，本地运行的小模型（如 Qwen 35B、Gemma 26B）直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG，其核心是提取并转移操作流程，让小模型按步骤执行，从而形成前沿模型作教师、小模型作执行者的循环。

📰 Tomer Tunguz 博客（VC 分析）

PyTorch 中的性能分析（第一部分）：torch.profiler 初学者指南

该指南旨在介绍如何在 PyTorch 中使用 torch.profiler 进行性能分析。文章是系列教程的第一部分，面向初学者，讲解如何通过该工具分析模型训练与推理过程的性能瓶颈。

📰 Hugging Face：Blog（RSS）

模型发布

产品发布

行业动态

论文研究

技巧与观点

评论