daily
Apr 14, 2026

AI 日报 — 2026-04-14

中文 English

Gemini Robotics-ER 1.6 提升机器人在物理世界中的推理能力 · Waymo 在伦敦启动带安全员的自动驾驶测试 · Claude Opus 4.7 与新设计工具预计本周上线


共收录 29 条 AI 新闻

🔥 今日焦点

1. Gemini Robotics-ER 1.6 提升机器人在物理世界中的推理能力

Google DeepMind 发布的 Gemini Robotics-ER 1.6 升级,提升了机器人的视觉与空间理解能力,使其能够在现实世界中更好地规划并完成任务。此次更新加强了具身推理(embodied reasoning),让机器人行为更加实用且可靠。来源-twitter

2. Waymo 在伦敦启动带安全员的自动驾驶测试

Waymo 宣布在伦敦启动自动驾驶测试,由经过训练的专家坐在驾驶位进行安全监控。该服务计划在今年晚些时候提供安静便捷的出行体验,为地铁、公交或最终目的地提供接驳,这也预示着自动驾驶交通工具将在该城市更大规模部署。来源-twitter

3. Claude Opus 4.7 与新设计工具预计本周上线

Anthropic 计划在本周发布 Claude Opus 4.7 和一款基于提示、面向网站与演示文稿的全新设计工具。更高阶的 Claude Mythos 已经在网络安全场景中进行测试,用于应对相关用例。来源-twitter

📰 重点报道

LLM

  • GPT-5.4 Pro 解出 Erdős 第 1196 号问题 — GPT-5.4 Pro 被声称已解出长期悬而未决的数学难题 Erdős Problem #1196。帖子称这一结果“令人印象深刻且意义重大”,形式化工作正在进行中,并提到了 Lichtman 的相关评论。最初的报告来自 X(Twitter)用户 Liam06972452 的帖子。来源-twitter
  • MiniMax M2.7 GGUF NaN 问题排查与基准测试 — 一项调查发现,在 Hugging Face 上 21%-38% 的 MiniMax-M2.7 GGUF 文件在困惑度(perplexity)测试中会产生 NaN。根本原因似乎是 llama.cpp 中的溢出问题,尤其与 block 32、block 311 以及 blk.61.ffn_down_exps 有关;而 IQ4_XS、IQ3_XXS 等低位宽量化类型则可以避免 NaN。报告者修复了自己的 GGUF 文件,并观察到 99.9% KLD 基准测试依然稳定,说明该问题更偏向困惑度评估本身,而非整体指标。来源-reddit
  • 将 100B+ 级 LLM 蒸馏为 4B 模型 — 一篇 Reddit 帖子概述了如何将参数量在 100B 级别的超大语言模型蒸馏为约 4B 参数的小模型。文中讨论了实现这一目标的实用方法和权衡,使高能力 LLM 能够在更小的资源占用下被使用,并反映出 LocalLLaMA 等开源社区在这方面的持续探索。来源-reddit

开源

  • OpenMed 1.0 发布:在 iPhone 上本地运行医疗 AI — OpenMed 1.0.0 让医疗 AI 模型可以在 iPhone 和 Apple Silicon 设备上完全本地运行,无需云端或 API。该开源发行版包含 MLX 后端、适用于 macOS/iOS 的 Swift 包,以及覆盖 8 种语言、200+ 个用于 PII 检测的模型,全部在 Apache 2.0 许可下发布。来源-twitter
  • Genie3 联手腾讯:从单张图片生成 3D 世界 — Genie3 与腾讯合作发布 HYWorld 2.0,这是一款面向引擎的世界模型(World Model),可从单张图片生成并编辑完整 3D 场景。项目强调生成的是真正的 3D 世界而非视频,并表示将在明天以开源形式发布,并支持 HLS 播放。来源-twitter
  • 开源 Voicebox 支持本地语音克隆与 23 种语言 TTS — Voicebox 是一款“本地优先”的开源语音合成工作室,可从几秒钟音频中克隆声音,并使用五种 TTS 引擎在 23 种语言中生成语音。整个流程完全在用户设备上运行以保护隐私,并提供后期处理效果、多角色时间轴项目以及副语言(paralinguistic)标签等功能。它将自己定位为 ElevenLabs 的免费替代品,内置引擎包括 Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo 和 HumeAI TADA。来源-github

多模态

  • Gemma 4 在笔记本上实现本地视觉分割 — Gemma 4 展示了本地 AI 编排能力:它先评估场景,再推理出需要提出哪些问题,最后调用分割模型执行视觉任务。整个工作流完全离线运行在一台笔记本电脑上,展示了边缘 AI 的潜力。在演示中,它先分割出所有车辆(共检测到 64 辆),再筛选出白色车辆(共 23 辆),并通过 HLS 播放输出结果。来源-twitter
  • OmniShow 统一多模态条件用于 HOIVG — OmniShow 提出一个统一框架,用于“人—物交互视频生成”(Human-Object Interaction Video Generation,HOIVG),可在文本、参考图像、音频和姿态等条件下合成高质量视频。该方法解决了以往技术无法同时支持所有关键模态的问题,从而实现更丰富、更可控的人物交互视频生成,目标应用包括电商展示、短视频制作和交互娱乐等场景。来源-huggingface
  • 百度 ERNIE-Image 登陆 Hugging Face — 一篇 Reddit 帖子重点介绍百度多模态模型 ERNIE-Image 已在 Hugging Face 上线,并附上模型页面链接。该帖来自 LocalLLaMA 社区,包含相关讨论以及指向官方页面的跳转。来源-reddit

AI

  • QuanBench+:统一评测 Qiskit、PennyLane、Cirq 上的 LLM 量子代码生成 — QuanBench+ 提出一个统一基准,用于评估基于 LLM 的量子代码生成,覆盖 Qiskit、PennyLane 和 Cirq。基准包括量子算法、门分解、态制备等 42 个对齐任务,并通过可执行测试以及 Pass@1/Pass@5 指标进行评估。来源-huggingface
  • 多智能体 AI 与 NVIDIA 合作让 CUDA 核心提速 38% — 一套能自主构建与维护复杂软件的多智能体系统,与 NVIDIA 合作对 CUDA 核心进行优化。在为期三周的时间内,该系统在 235 个问题上实现了几何平均 38% 的加速效果。来源-twitter
  • LLM 自动调优 llama.cpp 参数,大幅提升 Qwen3.5-27B Tokens/s — 一篇 Reddit 帖子介绍了 —ai-tune 功能,使模型可以迭代地自行调优 llama.cpp 的运行参数,并将最快配置缓存下来。作者在一套混合 GPU 机(GeForce RTX 3090 Ti、4070、3060,搭配 128 GB 内存)上测试,展示出多个模型 tokens/s 的大幅提升,尤其是在 Qwen3.5-27B + Q4_K_M 配置下达到 40.05 tok/s。该调优器通过将 llama-server —help 的输出纳入调优循环,自动适配 llama.cpp/ik_llama.cpp 的更新,并通过 llm-server-gui 提供新的可视化界面。来源-reddit

硬件

  • Hugging Face Hub 推出 Kernels,支持 GPU 优化内核 — Hugging Face 宣布在 Hub 上提供 Kernels 功能,这些内核会针对具体 GPU、PyTorch 版本与操作系统预编译,并允许在同一进程中运行多个内核版本。该功能兼容 torch.compile,据称相比 PyTorch 基线可带来 1.7x–2.5x 的加速,旨在简化在 Hub 上随模型一并发布 GPU 内核的流程。来源-twitter

⚡ 快讯速览

  • Natol Lambert 为其著作推出免费 RLHF 课程 — Natol Lambert 宣布为其书籍配套推出免费 RLHF 课程,首批内容包括一段欢迎视频和四节讲座,涵盖 RLHF 概览、IFT、奖励模型、拒绝采样、RL 数学基础及具体实现。他计划在未来数月发布 10–15 段视频,并增加问答环节,以深入讨论主题与最新进展,同时其书中后训练(post-training)代码部分仍在持续推进。帖子还提供了 YouTube 播放列表与课程落地页链接。来源-twitter
  • Anthropic 推出对话中途切换模型功能 — Anthropic 正在上线一项新功能,允许用户在同一场对话中切换不同模型。这样一来,用户可以在不中断对话的前提下调整能力或安全配置,使交互体验更灵活,也被视作 AI 用户体验上的一次实质改进。来源-twitter
  • Claude 桌面应用在首条提示时出现卡死问题 — 有用户在 X 上反馈 Claude 桌面应用在输入第一条提示时就发生卡死。该案例暗示 Claude 桌面端存在可靠性问题以及最新版可能存在稳定性隐患,目前这只是单一用户体验,尚无官方说明。来源-twitter
  • 用于 LLM 强化学习的记忆增强动态奖励塑形(MEDS) — 一篇研究论文提出 MEDS(Memory-Enhanced Dynamic Reward Shaping)框架,利用历史行为信号来塑形强化学习中的奖励,专门面向大语言模型。不同于标准熵正则方法,MEDS 通过记录过往行为并引导未来策略更新,旨在减少跨多轮 rollout 中反复出现的失败模式。来源-huggingface
  • 关于 Transformer 中 Attention Sink 及缓解策略的综述 — Attention Sink(AS)指的是 Transformer 模型过度关注无信息量 token 的现象,这会削弱可解释性,并影响训练、推理和幻觉问题。该综述系统回顾了 Attention Sink 的定义、使用与解释方式,以及在各种 Transformer 架构中减轻这一问题的具体策略。来源-huggingface
  • Strips as Tokens:实现艺术家级别的网格生成 — 一篇近期论文批判了自回归 Transformer 网格生成中常用的 token 排序方式,认为基于坐标排序与 patch 启发式会阻碍专业级建模质量。论文提出 Strips as Tokens 这一 UV 分块表示方法,以保持边缘流与几何规则性,从而生成更符合艺术家需求的高质量网格。来源-huggingface
  • Anthropic 发布 Claude Cookbooks,提供可复制的 Claude 代码模板 — Anthropic 在 GitHub 上发布 Claude Cookbooks,其中包含展示如何通过 API 与 Claude 进行实战交互的 notebook 与“菜谱”示例。该仓库提供可直接复制的 Python 代码与集成指南,前提包括准备 Claude API key,并推荐配合 Claude API Fundamentals 课程一起使用。来源-github
  • Claude-4.6-Opus 微调常常削弱本地 LLM 能力 — 一篇 Reddit 帖子认为,将 Claude-4.6-Opus 用作教师模型对本地基于 Llama 的模型进行微调,往往反而降低智能与推理能力。作者援引自己在单个提示上的体验,使用 WSL2 中的 llama.cpp 进行测试,声称无论模型大小如何,微调后表现都变差,并询问是否存在任何此类微调能超越基座模型的案例。来源-reddit
  • 两台 Asus GX10 仍难以本地运行 Opus 4.5 — 一位经验丰富的开发者尝试在两台 Asus Ascent GX10 机器上本地运行 Opus 4.5,用于智能体式代码开发,并测试了 Qwen 3.5(多种变体)和 MiniMax(M2.5/M2.7)等模型。其 128GB 内存仍显不足,而 M2.7 的授权条款也增加了复杂度,尽管作者高度评价 M2.7 作为“智能体工作马”的能力。作者希望完全在本地部署 AI 而不依赖云服务商,即便已经投入高昂硬件成本。来源-reddit
  • Local GLM 5.1“跑酷游戏”提示引发讨论 — 一篇 Reddit 帖子围绕 Local GLM 5.1 以及一条“在单个网页中构建城市跑酷游戏”的提示展开讨论,细致描述了 WASD 控制、相机相对移动、抓沿等游戏机制。作者提到模型内部推理过程极长(据称达 32k token),以及在角色手臂位置上的反馈回路现象,展示了重度量化模型与代码生成行为的一些独特 quirks。来源-reddit
  • ZAI 或将停止开放权重发布 — 一篇 Reddit 帖子声称 ZAI 正在从开放权重模式转向更封闭的方向,将利润置于用户之上。文中提到的证据包括:在 Lite 方案中移除 GLM-5、无说明的价格上调、对编码工具使用政策的反复,以及未发布 GLM-4.7-Flash 与 GLM-5 的基座模型权重,并推测其最强模型未来可能不再开放。来源-reddit
  • Fairl 声称可达 1000 tokens/s 的“极致”推理速度 — r/LocalLLaMA 上的一篇帖子提到,有用户声称 Fairl 每秒可生成或处理 1000 个 token,被描述为“快得惊人”。该说法目前缺乏独立验证,完全来自用户投稿,但也反映出社区在加速开源 LLaMA 系列推理性能上的持续尝试。来源-reddit
  • 已有一个多月没有“大模型”发布 — 有帖子感慨,从上一次“大模型”发布算起已经过去一个多月,对此表示惊讶。文中未指明具体是哪一款模型或其来源,仅强调时间间隔之长。来源-twitter

由 AI News Agent 生成 | 2026-04-14