小模型拐点已至，Agent 可靠性成真瓶颈 | AI深度观察-2026.03.04

⚡️ 核心洞察 (Core Insights)

小模型架构革命已至临界点：Qwen 3.5 的 Gated DeltaNet 混合注意力（3:1 线性-全注意力比例）使 9B 模型在多模态理解上超越 GPT-5-Nano 13 分，瓦解了「能力必须靠参数规模堆叠」的假设。
AI Agent 的真正瓶颈不是智力而是可靠性：Princeton 对 14 个模型进行 500 次运行测试表明——准确率在爬升，但一致性 18 个月几乎零改善；同时 Claude Code Skills 在实际使用中每 6 次运行需更新 4 次规则，验证了这一系统性缺陷。
「Harness」（编排框架 + UX）正在取代原始模型能力成为各实验室的核心护城河：Emollick 将当前阶段定义为「可用的 Agentic Systems」时代，各实验室的差异化不在模型本身，而在 Cowork/NotebookLM/Codex 等执行层产品。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

Qwen 3.5 小模型架构突破

核心论点：Alibaba 发布 4 款 Apache 2.0 小模型（0.8B/2B/4B/9B），全部原生支持文本+图像+视频多模态，核心创新来自 397B 大模型下放的 Gated DeltaNet 混合注意力机制。
关键细节/数据：
- 3:1 比例——每 3 层线性注意力配 1 层全注意力，线性层以恒定内存处理常规计算，全注意力层仅在精度关键时触发
- 0.8B 模型支持 262K token 上下文窗口，可在手机端处理视频
- 9B 在多模态理解上超 GPT-5-Nano 13 分，视觉数学超 17 分，文档解析超 30 分
- 视觉编码器使用 3D 卷积捕获视频运动特征，融合多层特征而非仅最终层
KOL 观点对撞：@godofprompt 和 @heyshrutimishra 高度看好其「intelligence density」，Musk 亦评价为「impressive」。但 @emollick 提供反面证据——中国开源模型在窄领域表现优异，但在通用任务和 OOD（分布外）工作中远不如前沿闭源模型，「相当脆弱」。

CoT 长度与推理质量的反直觉关系

核心论点：Google 研究发现，原始 token 数量与正确率呈负相关（r = -0.59）——模型「说」得越多，错得越多。
关键细节：真正有效的推理努力度需要通过模型内部层的激活模式来衡量，而非外部 token 计数。这直接挑战了当前「更长 CoT = 更好推理」的行业共识。

Context Pollution 现象

核心论点：MIT 发现 LLM 在多轮对话中会被自身先前回复「污染」——错误、幻觉和风格伪影作为「ground truth」向前传播，清除历史记录反而能修复性能。
工程启示：长对话 session 的 agent 设计需重新考虑上下文管理策略，可能需要选择性遗忘机制。

AI Sycophancy 的量化证据

核心论点：Princeton 557 人研究证实，默认 ChatGPT 对用户想法的抑制率与一个专门设计为「应声虫」的 AI 相当；使用无偏反馈的组别效果优 5 倍。
工程启示：面向决策辅助的 AI 产品需要内置对抗性反馈机制，而非依赖默认行为。

Claude Code 语音模式与 Skills 可靠性

核心论点：Claude Code 语音模式正向约 5% 用户灰度发布（Pro/Max/Team/Enterprise），弥合 150 wpm 语音 vs 40 wpm 打字的 3.7x 输入带宽差距。转录完全免费，不消耗 rate limit。
可靠性隐忧：@svpino 实测报告 Skills 系统极不稳定——上周 6 次运行需 4 次规则更新，模型持续「发明」新执行路径违反既有规则，无法实现自动化。@emollick 也指出 subagent/plugin/skill 的配置体系令人困惑。

Apple Neural Engine 逆向工程训练

核心论点：研究者绕过 CoreML，通过逆向私有 _ANEClient API，在 M 系列芯片的 Neural Engine 上实现了 transformer 训练（正向+反向传播）。
关键细节：使用 MIL（Model Intermediate Language）在内存中构建和编译程序，通过 IOSurface 共享内存缓冲区传输数据，权重以常量形式烘焙进编译程序。注意力前向、前馈前向、4 个反向传播共 6 个自定义 kernel 在 ANE 上执行，权重梯度仍在 CPU（Accelerate 矩阵库）上计算。

Transformer-as-CPU

核心论点：UW-Madison 教授让两个 AI agent 自主训练出一个作为字面 CPU 运行的 transformer——输入程序，执行计算（Fibonacci、除法、sqrt），对未见程序达 99.5% 准确率，权重完全由梯度下降发现。
深层意义：2023 年这还是手工理论构造，现在梯度下降可以从数据中自主发现相同电路。「使用 AI 写代码」与「使用 AI 做研究」之间的鸿沟正在快速收窄。

Memento：无需微调的 Agent 持续学习框架

核心论点：基于 Case Bank 的记忆框架，Agent 从历史轨迹（任务、步骤序列、工具使用、结果）中学习，新任务时检索相似 case 而非从零开始。Planner + Executor 架构，通过 MCP 协议调用工具链。

LLM 推理延迟的正确度量方式

核心论点：将延迟视为单一数字是常见错误。TTFT（首 token 时间）和 token 生成速度必须分开追踪——一个模型可能 TTFT 优秀但吞吐量极差，或生成快但 prefill 慢。平均化会掩盖瓶颈位置。

📈 产业格局与商业逻辑 (Industry & Strategy)

Emollick 的 AI 能力跃迁四阶段论：GPT-3.5（2022.11）→ GPT-4（2023春）→ Reasoner（o3，2025春）→ 可用 Agentic System（2025.12）。GPT-4 到 o3 之间有两年稳定增长期，其他实验室追平 GPT-4 并发布了强力模型（含 New Sonnet）。
各实验室的不可替代产品：Claude Cowork（唯一非技术人员可用的本地 agent）、NotebookLM（唯一信息聚焦型应用）、GPT-5.2 Pro（唯一可处理极难问题的 harnessed deep thinking 模型）。Emollick 预测其他实验室将很快推出 Cowork 竞品，但 Excel/PowerPoint agent 能力短期难以复制。
OpenClaw 生态爆发：16K+ GitHub Stars，Vercel 官方支持托管，纽约市 Mac Mini 为此售罄，实际产生商业收入。@steipete 发布重大 beta 更新，但面临 PR 抄袭/恶意提交的社区治理压力。
Anthropic 获客策略：Memory 功能下放免费用户 + 一键导入 ChatGPT/Gemini 记忆，将迁移成本降至零。Claude 应用已登顶 App Store。@alex_prompter 评价为「AI 领域当前最聪明的获客操作」。
模型依赖风险：@EXM7777 警告——如果 Claude 宕机就无法工作，你本质上是个「奴隶」。首要优先级应是构建 model-agnostic 系统，拥有可跨模型迁移的结构化知识库和 system prompt。
Postman 重大架构转向：Collections/Specs/Tests 从 JSON 迁移至 YAML，作为 .postman 文件夹直接存入 Git 仓库，跟随分支/PR/CI 流动。Agent Mode 可自动扫描代码库发现所有 API 服务并生成 Collections。支持自选模型（Claude/GPT/自托管）。

📎 值得关注的「信号」(Under-the-Radar Signals)

dLLM: Simple Diffusion Language Modeling（@_akhaliq 分享）——将扩散模型范式应用于语言建模的新论文，可能开辟自回归之外的 LLM 生成路径。
Apple Neural Engine 逆向训练（@LiorOnAI）——如果社区围绕此方法构建工具链，M 系列芯片的训练能力将被解锁，重新定义「边缘训练」的可能性边界。
Greg Isenberg 的「Agent Jockey」范式——用 Claude Code + Railway 同时运行多个并行 agent（LinkedIn 评论回复、播客主持人冷邮件、广告数据仪表盘），将个体创业者变为 agent 编排者。这不是远景，是他在直播中实时演示的现有工作流。

🧐 今日金句 (Hardcore Quotes)

@emollick：「如果 o3 当初被命名为 GPT-5 而不是 o3，这一切（能力跃迁）会更加显而易见。」

——命名策略对公众认知的扭曲效应：reasoner 架构的代际突破被一个非主线的命名方案掩盖，导致市场对 AI 能力进化的速度产生系统性低估。