daily
May 03, 2026
AI 日报 — 2026-05-03
中文 English
From 1k to 100k tk/sec: Huge models go local
涵盖 23 条 AI 新闻
🔥 今日焦点
1. From 1k to 100k tk/sec: Huge models go local
一则 Reddit 帖子指出,量化技术和本地硬件性能的提升,如今已经能让大语言模型在本地运行时达到每秒数万到十几万 tokens 的速度。诸如 kimik2.6、deepseekv4flash、minimax2.7、step3.5flash 和 qwen3.5-397b 等模型,在本地的运行速度远超两年前的 Llama405b,而 Qwen3.6-36b 只需几百美元的投入就能在家中跑起来。帖子将这一趋势视为在消费级硬件上实现更易获取、面向 AGI 的推理能力的重要进展。来源-reddit
📰 重点报道
LLM
- 批评者称 Anthropic 像围绕 Claude 组织的修道院式“教团” — 有帖子认为,Anthropic 很像一个以 Claude 为中心的修道院机构,这个 AI 在公司内部拥有极高的话语权。文中称 Claude 可能影响招聘、绩效评估和组织文化,并将这种模式与 OpenAI 中出现的类似倾向相比较。作者将其描述为一种组织结构与 AI 自主性高度交织、既强大又令人不安的融合形态。来源-twitter
- Google Gemini Flash 3.2/3.5 与 Omni Model 传闻 — 网络上传出消息称,Google Gemini Flash 3.2/3.5 版本已经在内测中。讨论还提到一个新的 Omni Model、用来对标 Seedance 的 Veo 更新,以及一个可能名为 “spark Robin” 的视觉模型。来源-twitter
- Qwen3-32B 微调产出类人助手 Assistant_Pepe_32B — 一位 Reddit 用户分享了使用 Qwen3-32B 基座模型进行微调,打造出 Assistant_Pepe_32B 助手的过程,该模型在设计上刻意加入“负面偏置”以抑制拍马屁式回答。作者认为,就底层仍是 Qwen 模型而言,它展现出的行为非常接近人类,并在 HuggingFace 模型卡中提供了更多细节。来源-reddit
- 用 Qwen3.6-35B-A3B 把 6GB VRAM 笔记本“榨干” — 有用户展示了如何在一台五年前的华硕 ROG Zephyrus G14 笔记本(6GB RTX 2060 Max-Q)上运行 Qwen3.6-35B-A3B 模型,他们采用本地 llama-server 搭配 GGUF 文件的方案。实测可用速度约为 23 tokens/s,在拔掉电源后峰值仍能超过 10 tokens/s,并在博客中分享了整个性能调优过程。来源-reddit
- 为开源权重模型设立“名人堂”,致敬 AI 贡献者 — 一则 Reddit 帖子提议为开源权重 AI 模型建立一个“名人堂”,向推动该领域发展的研究人员和机构致敬。名单中包括来自 Google 的《Attention Is All You Need》作者、Facebook/PyTorch、NVIDIA、Meta(LLaMA 系列)、Mistral、OpenAI(Whisper 和 GPT-OSS 模型)以及 Google 的 Gemma 等贡献方。作者邀请读者补充遗漏的名字,并根据需要持续更新这份列表。来源-reddit
- Gemma 4 E2B 搭配 Whisper 实现完全本地的私密语音笔记 — 一位 Reddit 用户详细介绍了如何在一台 8GB 内存的 Android 手机(OnePlus CE 5)上完全本地运行 Gemma 4 E2B(2.4GB)和 Whisper Small(244MB),用于语音笔记的转写、分段和分类,不依赖任何云端服务。端到端本地处理可以生成结构化 JSON,且在实用时延上表现不错(10–15 秒语音笔记的处理时间约为 12–15 秒),这也激发了作者开发一款注重隐私的 Android 语音笔记应用的灵感。来源-reddit
LLMs
- Nando de Freitas:光靠规模已不再足够 — AI 研究者 Nando de Freitas 指出,尽管“规模”仍然关键,但整个领域必须在单纯扩大规模之外寻求创新。他认为,随着算力增加、开源工具成熟、代码与数学助手的普及,以及各类可获取数据源(包括中文模型)的出现,任何团队都可以用 sglang、verl 等框架训练出强大的 LLM,并进行模型蒸馏,硬件成本大约在 5 亿美元量级。他将即将到来的时代描述为:重点正从“更大规模”转向新的研究问题和可落地的实践范式。来源-twitter
开源
- Hermes Agent 在 v0.12.0 中加入多智能体看板功能 — Hermes Agent 在 v0.12.0 版本中引入了通过看板实现的多智能体协作能力。各个 Agent 能从看板上认领任务、并行处理,当遇到阻塞时可进行任务移交,所有流程都能在单一视图中观察,从而帮助“解锁”工作流。更多文档可在 hermes-agent.nousresearch.co 查阅。来源-twitter
多模态 AI
- ChatGPT Images 使用量激增 50%+,新用户贡献主力增长 — ChatGPT Images 在短短几周内获得快速普及,使用量提升超过 50%。约 60% 的日活用户为新登录用户,显示其在家装设计、学习、工作图形制作及创意任务等场景中具有广泛实用价值。来源-twitter
硬件
- Anthropic 商谈采购 Fractile AI 推理芯片 — 有报道指出,Anthropic 正在与英国初创公司 Fractile 洽谈采购其 AI 推理芯片的交易。若成交,将加强 Anthropic 在运行大模型方面的硬件能力,不过具体交易条款尚未披露。来源-twitter
- Karpathy 的 MicroGPT 在 FPGA 上跑出 50k TPS — 据称,Karpathy 的 MicroGPT 模型(共 4,192 个参数)在 FPGA 上可实现每秒 50,000 次“交易”处理(TPS)。这一速度得益于将权重存放在板载 ROM 中,从而减少外部内存带宽瓶颈;相关讨论提到 TALOS-V2 与 TAALAS,并引用了 Luthiraa 在 GitHub 上的代码与技术说明仓库。来源-reddit
行业
- Intel 与 AMD 联合发布 ACE:CPU AI 计算密度提升 16 倍 — Intel 与 AMD 共同宣布推出 AI Compute Extensions(ACE),这是一套在 x86 Ecosystem Advisory Group(EAG)框架下开发的新 x86 指令集扩展。ACE 引入二维 tile 寄存器和外积算法,每个时钟周期可进行多达 1024 次乘法运算,相比传统 AVX 指令实现高达 16 倍的计算密度提升,实际上将类似 GPU tensor core 的能力带入 CPU,同时保持向后兼容。该举措旨在让轻量级 AI 负载能更高效地在标准处理器上运行,从而改善能效并提升软件的可扩展性。来源-reddit
⚡ 快讯速览
- Google Gemini 成为频道新“队友” — 某 YouTube 频道宣布将 Google Gemini 作为新的“队友”加入,预告即将上线以 Gemini 为核心的挑战类节目。帖子邀请观众订阅后续内容,并顺带推广 Gemini 与 Google 的社交账号。来源-twitter
- 基于 Codex 的创业点子“压力测试”技能能毫不留情地验证想法 — 一项基于 Codex 的技能可对创业想法进行压力测试,通过识别关键假设、暴露致命缺陷并验证是否存在真实问题来评估可行性。它还能绘制竞品图谱、勾勒前 10 位潜在客户、并给出两周可完成的 MVP 方案。该工具完全开源,可通过 npx 安装,仓库链接放在作者个人简介中。来源-twitter
- OpenAI Codex 5.5 在 Twitter 上收获高度赞誉 — 一则 Twitter 帖子称 OpenAI Codex 5.5 “好得离谱”。该帖重点提到 @openclaw 对 Codex 5.5 的使用体验,同时在赞扬中提及 Mitch Malone。来源-twitter
- Mistral Medium 3.5 在 AMD Strix Halo 上运行缓慢 — 一位 Reddit 用户在 AMD Strix Halo 上通过 llama-server 测试 Mistral-Medium-3.5 模型,发现长提示场景下性能非常缓慢。针对一个包含 48k tokens 的提示加 4k “思考 tokens” 的端到端任务,整体运行耗时约 2 小时;具体计时为:48,349 个 tokens 的 prompt eval 约 496 万毫秒,5,583 个 tokens 的 eval 约 265 万毫秒。来源-reddit
- Hugging Face 模型可视化工具 hfviewer.com 上线 — 一个名为 hfviewer.com 的新工具允许用户通过可视化方式探索 Hugging Face 模型结构,只需粘贴模型 URL 即可生成交互式示意图。示例中包括 Qwen3.6-27B 模型以及 Gemma 4 全家桶的并排视图,作者也欢迎用户提出改进建议。来源-reddit
- Twitter 时间线从 Claude 切到 ChatGPT?有用户发文调侃 — 一则社交媒体帖子声称 Twitter 的时间线似乎从使用 Anthropic 的 Claude 转到了 OpenAI 的 ChatGPT,并被某位网友“幽默地逆转”。这反映了公众在平台上对各类 AI 工具的持续讨论。帖子还强调,与客户保持沟通是品牌经常被低估的一种“护城河”。来源-twitter
- 机器学习从数学问题迅速演变为分布式系统问题 — 有推文感叹,机器学习工作一开始看起来是数学问题,但很快就会变成分布式系统挑战。该观点强调,现实世界中的 ML 工作往往要从建模转向工程落地的规模化部署、数据管道和基础设施建设。来源-twitter
- Sam Altman 称 Agents SDK 2.0 被严重低估 — Sam Altman 在推文中表示,Agents SDK 2.0 的价值被低估了,并重点强调这一 AI agents 工具包的能力。此举表明业界对用于构建自主 AI agents 的开发者工具持续保持关注,这条在 Twitter 上发布的短讯也再次凸显 AI 工具链在推进实用 AI 工作流中的重要性。来源-twitter
- RTX 5000 Pro 对比双 3090:值不值? — 一位首次购入 GPU 的用户,将 RTX 5000 Pro Blackwell 与双 RTX 3090 在 AI 推理中的表现进行比较,权衡潜在性能收益与电费成本。该用户提到功耗过高的问题,并询问在 qwen3.6 模型上配合 PP 与 TG 时的真实速度表现,期望其他人分享使用体验。来源-reddit
- 呼吁支持 model=latest 以降低切换 AI 模型的摩擦 — 一位 x/Twitter 用户表示,了解新 AI 模型的使用方式远比“按个按钮”要费劲得多,高摩擦会让人懒得频繁切换模型。TA 建议 OpenAI、Anthropic 和 xAI 都加入一个 “model=latest” 选项,这样用户就不必每隔半年手动更换一次模型。来源-twitter
由 AI News Agent 生成 | 2026-05-03