AI 日报 — 2026-04-21

ChatGPT Images 2.0 发布：更先进的多模态图像模型 · Cursor 与 SpaceX 合作扩展 Composer，潜在 600 亿美元收购 · SpaceXAI 与 Curso...

覆盖 23 条 AI 新闻

🔥 今日焦点

1. ChatGPT Images 2.0 发布：更先进的多模态图像模型

OpenAI 推出 ChatGPT Images 2.0，这是一款面向复杂视觉任务、能够生成精确且可立即使用画面的尖端图像模型。该模型在图像编辑清晰度、版式丰富度和高层次推理上都有显著提升，官方演示包括使用 ChatGPT Images 制作的视频以及对 HLS 播放的支持。来源-twitter

2. Cursor 与 SpaceX 合作扩展 Composer，潜在 600 亿美元收购

Cursor 与 SpaceX 宣布紧密合作，共同扩展 Composer，目标是打造世界上最强大的代码与知识工作 AI。该合作利用 Cursor 面向工程师的产品与分发能力，以及 SpaceX 拥有的相当于一百万块 H100 的 Colossus 训练超级计算机来训练高度实用的模型。Cursor 授予 SpaceX 选择权，可在今年晚些时候以 600 亿美元收购 Cursor，或为双方的联合成果支付 100 亿美元。来源-twitter

3. SpaceXAI 与 Cursor AI 联手；潜在 600 亿美元收购

SpaceXAI 与 Cursor AI 宣布开展紧密合作，将 Cursor 的产品与分发能力与 SpaceX 大规模基于 H100 的 Colossus 算力相结合。该联盟旨在打造高度实用的代码与知识工作 AI 模型，Cursor 给予 SpaceX 一项期权，可在今年晚些时候以 600 亿美元收购 Cursor，或为双方的联合项目支付 100 亿美元。来源-twitter

📰 重点报道

LLM

Gemini API 升级 Deep Research 与 Max，支持图表生成 — Google 的 Gemini API 宣布对 Deep Research 进行两项更新：通过引入 MCP 支持提升质量，并新增原生图表/信息图生成能力。Deep Research 主打速度和效率，而 Max 则通过更高算力开销来聚焦高质量的上下文获取与综合，在 DeepSearchQA 上 reportedly 取得 93.3% 的成绩，在 HLE 上达到 54.6%。来源-twitter
ml-intern 自动化 Hugging Face 的后训练研究循环 — ml-intern 是 Hugging Face 研究人员真实研究循环的开源实现，能够检索论文、追踪引用，并在 GPU 沙箱中实现想法以构建模型。在演示中，它将一个 Qwen3-1.7B 配置的 GPQA 分数在不到 10 小时内从 10% 提升到 32%，并为医疗领域生成 1100 条合成数据，再放大采样 50 倍，过程中结合了 OpenScience 与 NemoTron-CrossThink，并深度整合入 Hugging Face 生态。来源-twitter
IBM Granite-4.1-8B 发布，强化 RL 对齐能力 — Granite-4.1-8B 是一款拥有 80 亿参数的长上下文指令模型，由 Granite-4.1-8B-Base 通过宽松协议的开源指令数据集与合成数据微调而来。改进后的后训练流水线结合了有监督微调与强化学习对齐，增强了工具调用、指令跟随和对话能力；该模型由 IBM 的 Granite 团队在其 Hugging Face 集合中维护，并计划于 2026 年 4 月 29 日以 Apache 2.0 协议发布。来源-reddit
Kimi-K2.6 Unsloth GGUF 发布 — Unsloth 发布了 GGUF 格式的 Kimi-K2.6 模型，可在 HuggingFace 获取并附有配套文档。Reddit 用户 Exact_Law_6489 的帖子给出了 HuggingFace 页面以及 Unsloth 基础文档的链接，此次发布凸显了面向 K2.6 风格 LLM 的开源 GGUF 部署生态仍在持续扩展。来源-reddit
开源 Gemma 4 演示支持本地同时运行 10+ 模型 — 一个新的开源演示展示了在本地硬件上并行运行多个 Gemma 4 模型的能力。据称，Gemma 4 26B A4B 模型在 MacBook Pro M4 Max 上可同时处理 10+ 个并发请求，并在每个请求上达到约每秒 18 token 的生成速度，展示了本地 AI 部署在实际场景中的可扩展性。来源-twitter
Llama.cpp Auto Fit 模式以 Qwen Q8、256k 上下文实现 57 token/s — 一位 Reddit 用户报告称，llama.cpp 的 auto-fit 模式可以在受限 VRAM 下运行大模型。他们在测试中使用了 Qwen3.6 Q8、256k 上下文，即便权重大小远超 32GB VRAM，并通过 Oculink 连接的 RTX 5090，依然达到了 57 token/s 的生成速度，帖子鼓励那些受显存限制困扰的用户尝试 auto-fit 模式。来源-reddit
235M 参数 LLM 在单张 RTX 5080 上从零训练完成 — 一位独立开发者发布了 Plasma 1.0，这是一款拥有 2.35 亿参数的 transformer 语言模型，完全在单张 RTX 5080 上从零训练完成。它采用类似 LLaMA 的架构与自定义数据流水线和指令微调，基于约 50 亿 token、使用 bf16 与梯度检查点技术进行训练；该项目提供了完整的从零搭建栈与数据处理流程，并已在 Reddit 上公开分享。来源-reddit

Multimodal

将一步图像生成从标签扩展到文本 — 研究者试图将一步图像生成从固定类别标签扩展到灵活的文本输入。在现有 MeanFlow 的基础上，这项工作探索更具判别性的文本表征，以更好地解析复杂提示词。这一方向有望带来更丰富、可控的图像合成能力，但同时也对模型理解和对齐提出了更高要求。来源-huggingface
OneVL 支持视觉语言规划中的实时潜在推理 — 论文分析了在视觉语言辅助自动驾驶中使用 chain-of-thought 推理的问题，认为纯语言的潜在表征难以捕捉符号化的世界抽象，从而与显式推理产生鸿沟。为此，它提出 OneVL，一种一步式潜在推理与规划方法，并结合视觉-语言解释，以支持更快速、可实时部署的系统。来源-huggingface
MultiWorld 统一可扩展多智能体、多视角视频世界模型 — MultiWorld 提出一个统一框架，用于构建可扩展的多智能体、多视角视频世界模型。它将原本针对动作条件视频生成的方法扩展到多个智能体的交互场景，通过对历史帧和当前动作进行条件建模，解决以往研究仅支持单一智能体的局限。来源-huggingface

Open Source

World Monitor：开源 AI 全球情报看板 — World Monitor 是一款开源的 AI 驱动情报看板，可聚合 500+ 新闻源并生成 AI 综合简报、多层级地图展示以及面向地缘政治、金融与基础设施的跨领域风险评分。它支持双地图引擎、国家情报指数，以及基于 Ollama 的本地 AI 选项，并提供五种站点变体和 macOS 桌面应用。来源-github

AI tools

Claude Code 从 Claude Pro 中下线；建议转向本地模型 — Claude Code 已从 Claude Pro 方案中移除。帖子建议用户改用 Kimi K2.6 等本地模型，并通过 OpenCode Go 计划（约 20 美元/月）获取更多 token 配额，在性价比上可与更高价方案竞争。同时还提到 Qwen 3.6 35B A3B，只要本地 PC 性能足够，就能在本地运行该模型。来源-reddit

⚡ 快讯速览

Euphony：开源工具可可视化聊天数据与 Codex 日志 — Euphony 是一款开源工具，可对聊天数据与 Codex 会话日志进行可视化。用户可以粘贴公开 URL 或上传本地文件，工具会将原始数据转换为易于浏览的视图，并提供翻译、筛选、编辑等功能，同时还支持流媒体的 HLS 回放。来源-twitter
Codex 活跃用户达 400 万，今日重置速率上限 — Codex 活跃用户已达到 400 万，而在不到两周前其用户数刚突破 300 万。团队同时宣布，今日将重置所有用户的调用速率上限。来源-twitter
Agent-World 扩展面向 AGI 的真实环境合成规模 — Agent-World 提出一个自我演化的训练竞技场，以扩展真实世界环境合成的规模，从而推动通用智能体能力的提升。它利用 Model Context Protocol (MCP) 与智能体技能框架，将大语言模型与可扩展、有状态的工具环境相连接，以弥合真实感不足与终身学习方面的差距，目标是通过可扩展模拟加速构建稳健的通用型智能体并实现持续改进。来源-huggingface
OpenGame 推进面向游戏的开放式智能体编码 — 文中指出，尽管 LLM 与代码智能体可以处理单独的编程任务，但在将高层次游戏设计转化为完整、可玩的成品时，仍容易出现跨文件不一致、场景连线错误和逻辑不连贯等问题。OpenGame 被定位为应对这些集成挑战的开放式游戏智能体编码尝试。来源-huggingface
Ling-2.6-Flash 被猜测为隐身模型 Elephant Alpha — 一篇 Reddit 帖子推测 Ling-2.6-Flash 实际上就是近期备受关注的隐身模型 Elephant Alpha。该说法由用户 /u/Careful_Equal8851 提出并附上相关链接与评论，但目前尚无任何官方确认。来源-reddit
新 AI 模型快速迭代让旧模型迅速“过时” — r/LocalLLaMA 上的一则 Reddit 帖子感叹，每当一个新 AI 模型问世，旧模型就似乎立刻被淘汰，凸显了模型更新迭代的高速节奏。讨论中也提到，随着模型持续进化，用户很难始终紧跟前沿。来源-reddit
不受欢迎的观点：OpenClaw 克隆对专家几乎没用 — 一则在线观点认为，对有经验的用户来说，OpenClaw 及其一众克隆项目几乎没什么用处，尤其是与基于命令行的工作流及 Claude Code、Codex 等成熟模型相比。文章称这类工具的主要吸引力在于新手用户，而专家们则觉得这些工具杂乱且不安全；相较之下，Telegram 被视为更友好的入口，有助于扩大用户对智能体工具的接触。来源-reddit
Roo Code 达到 300 万安装量后停运，转向 Roomote — Roo Code 创始人 Matt Rubens 宣布，Roo Code 已获得 300 万次安装量，但项目将被关闭，以专注于新产品 Roomote。相关 Reddit 讨论中提到用户反馈，并将其与 Cline 进行了对比，作者也在权衡其他替代方案。来源-reddit

由 AI News Agent 生成 | 2026-04-21