AI 日报 — 2026-04-14

Gemini Robotics-ER 1.6 提升机器人在物理世界中的推理能力 · Waymo 在伦敦启动带安全员的自动驾驶测试 · Claude Opus 4.7 与新设计工具预计本周上线

共收录 29 条 AI 新闻

🔥 今日焦点

1. Gemini Robotics-ER 1.6 提升机器人在物理世界中的推理能力

Google DeepMind 发布的 Gemini Robotics-ER 1.6 升级，提升了机器人的视觉与空间理解能力，使其能够在现实世界中更好地规划并完成任务。此次更新加强了具身推理（embodied reasoning），让机器人行为更加实用且可靠。来源-twitter

2. Waymo 在伦敦启动带安全员的自动驾驶测试

Waymo 宣布在伦敦启动自动驾驶测试，由经过训练的专家坐在驾驶位进行安全监控。该服务计划在今年晚些时候提供安静便捷的出行体验，为地铁、公交或最终目的地提供接驳，这也预示着自动驾驶交通工具将在该城市更大规模部署。来源-twitter

3. Claude Opus 4.7 与新设计工具预计本周上线

Anthropic 计划在本周发布 Claude Opus 4.7 和一款基于提示、面向网站与演示文稿的全新设计工具。更高阶的 Claude Mythos 已经在网络安全场景中进行测试，用于应对相关用例。来源-twitter

📰 重点报道

LLM

GPT-5.4 Pro 解出 Erdős 第 1196 号问题 — GPT-5.4 Pro 被声称已解出长期悬而未决的数学难题 Erdős Problem #1196。帖子称这一结果“令人印象深刻且意义重大”，形式化工作正在进行中，并提到了 Lichtman 的相关评论。最初的报告来自 X（Twitter）用户 Liam06972452 的帖子。来源-twitter
MiniMax M2.7 GGUF NaN 问题排查与基准测试 — 一项调查发现，在 Hugging Face 上 21%-38% 的 MiniMax-M2.7 GGUF 文件在困惑度（perplexity）测试中会产生 NaN。根本原因似乎是 llama.cpp 中的溢出问题，尤其与 block 32、block 311 以及 blk.61.ffn_down_exps 有关；而 IQ4_XS、IQ3_XXS 等低位宽量化类型则可以避免 NaN。报告者修复了自己的 GGUF 文件，并观察到 99.9% KLD 基准测试依然稳定，说明该问题更偏向困惑度评估本身，而非整体指标。来源-reddit
将 100B+ 级 LLM 蒸馏为 4B 模型 — 一篇 Reddit 帖子概述了如何将参数量在 100B 级别的超大语言模型蒸馏为约 4B 参数的小模型。文中讨论了实现这一目标的实用方法和权衡，使高能力 LLM 能够在更小的资源占用下被使用，并反映出 LocalLLaMA 等开源社区在这方面的持续探索。来源-reddit

开源

OpenMed 1.0 发布：在 iPhone 上本地运行医疗 AI — OpenMed 1.0.0 让医疗 AI 模型可以在 iPhone 和 Apple Silicon 设备上完全本地运行，无需云端或 API。该开源发行版包含 MLX 后端、适用于 macOS/iOS 的 Swift 包，以及覆盖 8 种语言、200+ 个用于 PII 检测的模型，全部在 Apache 2.0 许可下发布。来源-twitter
Genie3 联手腾讯：从单张图片生成 3D 世界 — Genie3 与腾讯合作发布 HYWorld 2.0，这是一款面向引擎的世界模型（World Model），可从单张图片生成并编辑完整 3D 场景。项目强调生成的是真正的 3D 世界而非视频，并表示将在明天以开源形式发布，并支持 HLS 播放。来源-twitter
开源 Voicebox 支持本地语音克隆与 23 种语言 TTS — Voicebox 是一款“本地优先”的开源语音合成工作室，可从几秒钟音频中克隆声音，并使用五种 TTS 引擎在 23 种语言中生成语音。整个流程完全在用户设备上运行以保护隐私，并提供后期处理效果、多角色时间轴项目以及副语言（paralinguistic）标签等功能。它将自己定位为 ElevenLabs 的免费替代品，内置引擎包括 Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo 和 HumeAI TADA。来源-github

多模态

Gemma 4 在笔记本上实现本地视觉分割 — Gemma 4 展示了本地 AI 编排能力：它先评估场景，再推理出需要提出哪些问题，最后调用分割模型执行视觉任务。整个工作流完全离线运行在一台笔记本电脑上，展示了边缘 AI 的潜力。在演示中，它先分割出所有车辆（共检测到 64 辆），再筛选出白色车辆（共 23 辆），并通过 HLS 播放输出结果。来源-twitter
OmniShow 统一多模态条件用于 HOIVG — OmniShow 提出一个统一框架，用于“人—物交互视频生成”（Human-Object Interaction Video Generation，HOIVG），可在文本、参考图像、音频和姿态等条件下合成高质量视频。该方法解决了以往技术无法同时支持所有关键模态的问题，从而实现更丰富、更可控的人物交互视频生成，目标应用包括电商展示、短视频制作和交互娱乐等场景。来源-huggingface
百度 ERNIE-Image 登陆 Hugging Face — 一篇 Reddit 帖子重点介绍百度多模态模型 ERNIE-Image 已在 Hugging Face 上线，并附上模型页面链接。该帖来自 LocalLLaMA 社区，包含相关讨论以及指向官方页面的跳转。来源-reddit

AI

QuanBench+：统一评测 Qiskit、PennyLane、Cirq 上的 LLM 量子代码生成 — QuanBench+ 提出一个统一基准，用于评估基于 LLM 的量子代码生成，覆盖 Qiskit、PennyLane 和 Cirq。基准包括量子算法、门分解、态制备等 42 个对齐任务，并通过可执行测试以及 Pass@1/Pass@5 指标进行评估。来源-huggingface
多智能体 AI 与 NVIDIA 合作让 CUDA 核心提速 38% — 一套能自主构建与维护复杂软件的多智能体系统，与 NVIDIA 合作对 CUDA 核心进行优化。在为期三周的时间内，该系统在 235 个问题上实现了几何平均 38% 的加速效果。来源-twitter
LLM 自动调优 llama.cpp 参数，大幅提升 Qwen3.5-27B Tokens/s — 一篇 Reddit 帖子介绍了 —ai-tune 功能，使模型可以迭代地自行调优 llama.cpp 的运行参数，并将最快配置缓存下来。作者在一套混合 GPU 机（GeForce RTX 3090 Ti、4070、3060，搭配 128 GB 内存）上测试，展示出多个模型 tokens/s 的大幅提升，尤其是在 Qwen3.5-27B + Q4_K_M 配置下达到 40.05 tok/s。该调优器通过将 llama-server —help 的输出纳入调优循环，自动适配 llama.cpp/ik_llama.cpp 的更新，并通过 llm-server-gui 提供新的可视化界面。来源-reddit

硬件

Hugging Face Hub 推出 Kernels，支持 GPU 优化内核 — Hugging Face 宣布在 Hub 上提供 Kernels 功能，这些内核会针对具体 GPU、PyTorch 版本与操作系统预编译，并允许在同一进程中运行多个内核版本。该功能兼容 torch.compile，据称相比 PyTorch 基线可带来 1.7x–2.5x 的加速，旨在简化在 Hub 上随模型一并发布 GPU 内核的流程。来源-twitter

⚡ 快讯速览

Natol Lambert 为其著作推出免费 RLHF 课程 — Natol Lambert 宣布为其书籍配套推出免费 RLHF 课程，首批内容包括一段欢迎视频和四节讲座，涵盖 RLHF 概览、IFT、奖励模型、拒绝采样、RL 数学基础及具体实现。他计划在未来数月发布 10–15 段视频，并增加问答环节，以深入讨论主题与最新进展，同时其书中后训练（post-training）代码部分仍在持续推进。帖子还提供了 YouTube 播放列表与课程落地页链接。来源-twitter
Anthropic 推出对话中途切换模型功能 — Anthropic 正在上线一项新功能，允许用户在同一场对话中切换不同模型。这样一来，用户可以在不中断对话的前提下调整能力或安全配置，使交互体验更灵活，也被视作 AI 用户体验上的一次实质改进。来源-twitter
Claude 桌面应用在首条提示时出现卡死问题 — 有用户在 X 上反馈 Claude 桌面应用在输入第一条提示时就发生卡死。该案例暗示 Claude 桌面端存在可靠性问题以及最新版可能存在稳定性隐患，目前这只是单一用户体验，尚无官方说明。来源-twitter
用于 LLM 强化学习的记忆增强动态奖励塑形（MEDS） — 一篇研究论文提出 MEDS（Memory-Enhanced Dynamic Reward Shaping）框架，利用历史行为信号来塑形强化学习中的奖励，专门面向大语言模型。不同于标准熵正则方法，MEDS 通过记录过往行为并引导未来策略更新，旨在减少跨多轮 rollout 中反复出现的失败模式。来源-huggingface
关于 Transformer 中 Attention Sink 及缓解策略的综述 — Attention Sink（AS）指的是 Transformer 模型过度关注无信息量 token 的现象，这会削弱可解释性，并影响训练、推理和幻觉问题。该综述系统回顾了 Attention Sink 的定义、使用与解释方式，以及在各种 Transformer 架构中减轻这一问题的具体策略。来源-huggingface
Strips as Tokens：实现艺术家级别的网格生成 — 一篇近期论文批判了自回归 Transformer 网格生成中常用的 token 排序方式，认为基于坐标排序与 patch 启发式会阻碍专业级建模质量。论文提出 Strips as Tokens 这一 UV 分块表示方法，以保持边缘流与几何规则性，从而生成更符合艺术家需求的高质量网格。来源-huggingface
Anthropic 发布 Claude Cookbooks，提供可复制的 Claude 代码模板 — Anthropic 在 GitHub 上发布 Claude Cookbooks，其中包含展示如何通过 API 与 Claude 进行实战交互的 notebook 与“菜谱”示例。该仓库提供可直接复制的 Python 代码与集成指南，前提包括准备 Claude API key，并推荐配合 Claude API Fundamentals 课程一起使用。来源-github
Claude-4.6-Opus 微调常常削弱本地 LLM 能力 — 一篇 Reddit 帖子认为，将 Claude-4.6-Opus 用作教师模型对本地基于 Llama 的模型进行微调，往往反而降低智能与推理能力。作者援引自己在单个提示上的体验，使用 WSL2 中的 llama.cpp 进行测试，声称无论模型大小如何，微调后表现都变差，并询问是否存在任何此类微调能超越基座模型的案例。来源-reddit
两台 Asus GX10 仍难以本地运行 Opus 4.5 — 一位经验丰富的开发者尝试在两台 Asus Ascent GX10 机器上本地运行 Opus 4.5，用于智能体式代码开发，并测试了 Qwen 3.5（多种变体）和 MiniMax（M2.5/M2.7）等模型。其 128GB 内存仍显不足，而 M2.7 的授权条款也增加了复杂度，尽管作者高度评价 M2.7 作为“智能体工作马”的能力。作者希望完全在本地部署 AI 而不依赖云服务商，即便已经投入高昂硬件成本。来源-reddit
Local GLM 5.1“跑酷游戏”提示引发讨论 — 一篇 Reddit 帖子围绕 Local GLM 5.1 以及一条“在单个网页中构建城市跑酷游戏”的提示展开讨论，细致描述了 WASD 控制、相机相对移动、抓沿等游戏机制。作者提到模型内部推理过程极长（据称达 32k token），以及在角色手臂位置上的反馈回路现象，展示了重度量化模型与代码生成行为的一些独特 quirks。来源-reddit
ZAI 或将停止开放权重发布 — 一篇 Reddit 帖子声称 ZAI 正在从开放权重模式转向更封闭的方向，将利润置于用户之上。文中提到的证据包括：在 Lite 方案中移除 GLM-5、无说明的价格上调、对编码工具使用政策的反复，以及未发布 GLM-4.7-Flash 与 GLM-5 的基座模型权重，并推测其最强模型未来可能不再开放。来源-reddit
Fairl 声称可达 1000 tokens/s 的“极致”推理速度 — r/LocalLLaMA 上的一篇帖子提到，有用户声称 Fairl 每秒可生成或处理 1000 个 token，被描述为“快得惊人”。该说法目前缺乏独立验证，完全来自用户投稿，但也反映出社区在加速开源 LLaMA 系列推理性能上的持续尝试。来源-reddit
已有一个多月没有“大模型”发布 — 有帖子感慨，从上一次“大模型”发布算起已经过去一个多月，对此表示惊讶。文中未指明具体是哪一款模型或其来源，仅强调时间间隔之长。来源-twitter

由 AI News Agent 生成 | 2026-04-14