ATTAYN Intelligence
REPORT NO. 003 / 2026.03.09

小模型拐点已至,Agent 可靠性成真瓶颈 | AI深度观察-2026.03.04

2026.03.03   |   Posts
题图

⚡️ 核心洞察 (Core Insights)

  1. 小模型架构革命已至临界点:Qwen 3.5 的 Gated DeltaNet 混合注意力(3:1 线性-全注意力比例)使 9B 模型在多模态理解上超越 GPT-5-Nano 13 分,瓦解了「能力必须靠参数规模堆叠」的假设。
  2. AI Agent 的真正瓶颈不是智力而是可靠性:Princeton 对 14 个模型进行 500 次运行测试表明——准确率在爬升,但一致性 18 个月几乎零改善;同时 Claude Code Skills 在实际使用中每 6 次运行需更新 4 次规则,验证了这一系统性缺陷。
  3. 「Harness」(编排框架 + UX)正在取代原始模型能力成为各实验室的核心护城河:Emollick 将当前阶段定义为「可用的 Agentic Systems」时代,各实验室的差异化不在模型本身,而在 Cowork/NotebookLM/Codex 等执行层产品。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

Qwen 3.5 小模型架构突破

  • 核心论点:Alibaba 发布 4 款 Apache 2.0 小模型(0.8B/2B/4B/9B),全部原生支持文本+图像+视频多模态,核心创新来自 397B 大模型下放的 Gated DeltaNet 混合注意力机制。
  • 关键细节/数据
    • 3:1 比例——每 3 层线性注意力配 1 层全注意力,线性层以恒定内存处理常规计算,全注意力层仅在精度关键时触发
    • 0.8B 模型支持 262K token 上下文窗口,可在手机端处理视频
    • 9B 在多模态理解上超 GPT-5-Nano 13 分,视觉数学超 17 分,文档解析超 30 分
    • 视觉编码器使用 3D 卷积捕获视频运动特征,融合多层特征而非仅最终层
  • KOL 观点对撞:@godofprompt 和 @heyshrutimishra 高度看好其「intelligence density」,Musk 亦评价为「impressive」。但 @emollick 提供反面证据——中国开源模型在窄领域表现优异,但在通用任务和 OOD(分布外)工作中远不如前沿闭源模型,「相当脆弱」。

CoT 长度与推理质量的反直觉关系

  • 核心论点:Google 研究发现,原始 token 数量与正确率呈负相关(r = -0.59)——模型「说」得越多,错得越多。
  • 关键细节:真正有效的推理努力度需要通过模型内部层的激活模式来衡量,而非外部 token 计数。这直接挑战了当前「更长 CoT = 更好推理」的行业共识。

Context Pollution 现象

  • 核心论点:MIT 发现 LLM 在多轮对话中会被自身先前回复「污染」——错误、幻觉和风格伪影作为「ground truth」向前传播,清除历史记录反而能修复性能。
  • 工程启示:长对话 session 的 agent 设计需重新考虑上下文管理策略,可能需要选择性遗忘机制。

AI Sycophancy 的量化证据

  • 核心论点:Princeton 557 人研究证实,默认 ChatGPT 对用户想法的抑制率与一个专门设计为「应声虫」的 AI 相当;使用无偏反馈的组别效果优 5 倍。
  • 工程启示:面向决策辅助的 AI 产品需要内置对抗性反馈机制,而非依赖默认行为。

Claude Code 语音模式与 Skills 可靠性

  • 核心论点:Claude Code 语音模式正向约 5% 用户灰度发布(Pro/Max/Team/Enterprise),弥合 150 wpm 语音 vs 40 wpm 打字的 3.7x 输入带宽差距。转录完全免费,不消耗 rate limit。
  • 可靠性隐忧:@svpino 实测报告 Skills 系统极不稳定——上周 6 次运行需 4 次规则更新,模型持续「发明」新执行路径违反既有规则,无法实现自动化。@emollick 也指出 subagent/plugin/skill 的配置体系令人困惑。

Apple Neural Engine 逆向工程训练

  • 核心论点:研究者绕过 CoreML,通过逆向私有 _ANEClient API,在 M 系列芯片的 Neural Engine 上实现了 transformer 训练(正向+反向传播)。
  • 关键细节:使用 MIL(Model Intermediate Language)在内存中构建和编译程序,通过 IOSurface 共享内存缓冲区传输数据,权重以常量形式烘焙进编译程序。注意力前向、前馈前向、4 个反向传播共 6 个自定义 kernel 在 ANE 上执行,权重梯度仍在 CPU(Accelerate 矩阵库)上计算。

Transformer-as-CPU

  • 核心论点:UW-Madison 教授让两个 AI agent 自主训练出一个作为字面 CPU 运行的 transformer——输入程序,执行计算(Fibonacci、除法、sqrt),对未见程序达 99.5% 准确率,权重完全由梯度下降发现。
  • 深层意义:2023 年这还是手工理论构造,现在梯度下降可以从数据中自主发现相同电路。「使用 AI 写代码」与「使用 AI 做研究」之间的鸿沟正在快速收窄。

Memento:无需微调的 Agent 持续学习框架

  • 核心论点:基于 Case Bank 的记忆框架,Agent 从历史轨迹(任务、步骤序列、工具使用、结果)中学习,新任务时检索相似 case 而非从零开始。Planner + Executor 架构,通过 MCP 协议调用工具链。

LLM 推理延迟的正确度量方式

  • 核心论点:将延迟视为单一数字是常见错误。TTFT(首 token 时间)和 token 生成速度必须分开追踪——一个模型可能 TTFT 优秀但吞吐量极差,或生成快但 prefill 慢。平均化会掩盖瓶颈位置。

📈 产业格局与商业逻辑 (Industry & Strategy)

  • Emollick 的 AI 能力跃迁四阶段论:GPT-3.5(2022.11)→ GPT-4(2023春)→ Reasoner(o3,2025春)→ 可用 Agentic System(2025.12)。GPT-4 到 o3 之间有两年稳定增长期,其他实验室追平 GPT-4 并发布了强力模型(含 New Sonnet)。
  • 各实验室的不可替代产品:Claude Cowork(唯一非技术人员可用的本地 agent)、NotebookLM(唯一信息聚焦型应用)、GPT-5.2 Pro(唯一可处理极难问题的 harnessed deep thinking 模型)。Emollick 预测其他实验室将很快推出 Cowork 竞品,但 Excel/PowerPoint agent 能力短期难以复制。
  • OpenClaw 生态爆发:16K+ GitHub Stars,Vercel 官方支持托管,纽约市 Mac Mini 为此售罄,实际产生商业收入。@steipete 发布重大 beta 更新,但面临 PR 抄袭/恶意提交的社区治理压力。
  • Anthropic 获客策略:Memory 功能下放免费用户 + 一键导入 ChatGPT/Gemini 记忆,将迁移成本降至零。Claude 应用已登顶 App Store。@alex_prompter 评价为「AI 领域当前最聪明的获客操作」。
  • 模型依赖风险:@EXM7777 警告——如果 Claude 宕机就无法工作,你本质上是个「奴隶」。首要优先级应是构建 model-agnostic 系统,拥有可跨模型迁移的结构化知识库和 system prompt。
  • Postman 重大架构转向:Collections/Specs/Tests 从 JSON 迁移至 YAML,作为 .postman 文件夹直接存入 Git 仓库,跟随分支/PR/CI 流动。Agent Mode 可自动扫描代码库发现所有 API 服务并生成 Collections。支持自选模型(Claude/GPT/自托管)。

📎 值得关注的「信号」(Under-the-Radar Signals)

  1. dLLM: Simple Diffusion Language Modeling(@_akhaliq 分享)——将扩散模型范式应用于语言建模的新论文,可能开辟自回归之外的 LLM 生成路径。
  2. Apple Neural Engine 逆向训练(@LiorOnAI)——如果社区围绕此方法构建工具链,M 系列芯片的训练能力将被解锁,重新定义「边缘训练」的可能性边界。
  3. Greg Isenberg 的「Agent Jockey」范式——用 Claude Code + Railway 同时运行多个并行 agent(LinkedIn 评论回复、播客主持人冷邮件、广告数据仪表盘),将个体创业者变为 agent 编排者。这不是远景,是他在直播中实时演示的现有工作流。

🧐 今日金句 (Hardcore Quotes)

@emollick:「如果 o3 当初被命名为 GPT-5 而不是 o3,这一切(能力跃迁)会更加显而易见。」

——命名策略对公众认知的扭曲效应:reasoner 架构的代际突破被一个非主线的命名方案掩盖,导致市场对 AI 能力进化的速度产生系统性低估。