ATTAYN Intelligence
REPORT NO. 003 / 2026.03.09

堆 Agent ≠ 堆智能:认知单一文化的相关性陷阱 | AI深度观察-2026.02.27

2026.02.26   |   Posts
题图

⚡️ 核心洞察 (Core Insights)

  1. 编程 Agent 在 12 月经历了相变:Karpathy 亲证 coding agent 从"基本不能用"跨越到"基本能用",不是渐进提升,而是模型在长程连贯性和韧性上突破了临界阈值——30 分钟全自主编码 session 已可落地。
  2. “堆 Agent 就是堆智能"的迷信被数学证伪:Stanford 论文揭示 multi-agent 聚合仅在错误不相关时有效;一旦推理路径共享相同偏差,majority voting 不仅无益,还会放大错误——这击中了当前 compound AI 架构的根基。
  3. LLM 正在将互联网匿名性归零:ETH Zurich + Anthropic 联合研究表明,仅凭几条 Reddit 评论,自动化 pipeline 即可以 67% 准确率(猜测时 90% 命中)揭示匿名用户真实身份,成本不到 $1。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

Codex 5.3 vs Opus 4.6:推理模型代际跃迁

  • 核心论点:GPT-5.3-Codex 在 IBench 上达到 86%,大幅碾压所有其他模型。多位重度用户(@steipete, @mitchellh, @mkurman88)确认 Codex 5.3 在实际工程任务中的有效性显著高于 Opus 4.6。
  • 关键细节:@hyhieu226 称 “codex-5.2 → 5.3 的智能跳跃大于 GPT-pre-4 → GPT-4”;@manthanguptaa 实测 Opus 4.6 擅长代码生成,但 5.3 Codex extra-high 在 bug 检测和测试方面更强。
  • 工程启示:模型选择正从"一个模型打天下"转向按子任务路由——编码用 Codex,长上下文回忆用 ChatGPT 5.2,研究用 Gemini(参见 Perplexity Computer 的 19 模型并行架构)。

Compound AI 聚合的数学边界

  • 核心论点:Stanford 论文 “Power and Limitations of Aggregation in Compound AI Systems” 证明:多 agent majority voting 的增益完全取决于错误相关性。低相关 → 显著提升;高相关 → 聚合失效甚至退化。
  • 关键细节:早期聚合步骤因独立误差互相抵消而有效,但随着推理路径趋同(同一 LLM、同一 prompt 模板),相关性快速上升,收益急剧递减。
  • KOL 观点对撞:@vasuman 从另一角度佐证——“cognitive monoculture problem”:所有 agent 跑同一 LLM,即使给不同 persona markdown,输出多样性只是幻觉,训练数据重叠度太高。

AI 辅助学习的行为分类学

  • 核心论点:Anthropic 论文 “How AI Impacts Skill Formation”,52 名专业开发者 RCT 实验:AI 组技能评估低 17%(Cohen’s d=0.738, p=0.010),且未获得速度优势
  • 关键细节:研究者通过屏幕录像识别出 6 种 AI 使用模式——3 种保留学习效果(仅用 AI 做概念性提问、验证理解、debug 辅助),3 种摧毁学习(直接复制粘贴、跳过理解步骤、完全委托)。
  • 核心启示:问题不在"用不用 AI”,而在使用行为模式。这为"Agentic Coding 101"课程设计提供了实证依据(@svpino 呼吁大学应立即开设)。

LLM 大规模去匿名化

  • 核心论点:ETH Zurich + Anthropic 论文 “Large-Scale Online Deanonymization with LLMs” 构建了全自动 ESRC pipeline(Extract→Search→Resolve→Confirm),无需人工调查员。
  • 关键细节:Hacker News 用户 67% 识别率(高置信猜测 90% 命中);Reddit 学者假名账户 52%;经隐私脱敏的访谈稿仍有 9/33 被还原。成本 < $1/人。
  • 安全影响:结合 “confused deputy problem”(@_avichawla 提及的 37 年前 Norm Hardy 论文正在 AI Agent 时代复活),Agent 权限管理与身份追溯已成为紧迫基础设施问题。

Test-Time Training 与 KV Binding 的线性注意力等价性

  • 核心论点:论文 “Test-Time Training with KV Binding Is Secretly Linear Attention” 揭示 TTT 机制与线性注意力之间存在数学等价关系。
  • 关键细节:这为 TTT 的理论理解和工程优化打开了新通道——如果 TTT ≈ linear attention,则可复用已有的高效推理内核。

Reasoning Scaffolds 取代 Chain-of-Thought

  • 核心论点:OpenAI 研究者提出"Reasoning Scaffolds"——强制结构化思维而非浅层链式推理。@godofprompt 称其在所有主流 LLM 上均有效。
  • 实践意义:“Think step by step” 正式过时,结构化 scaffold 模板成为 prompt engineering 的新基线。

📈 产业格局与商业逻辑 (Industry & Strategy)

  • Perplexity Computer 的多模型并行架构:19 个模型同时运行,Opus 4.6 做 coordinator 按任务类型路由到最优模型(Gemini→研究, Veo 3.1→视频, Nano Banana→图像)。这不是 chatbot,是 异步多 Agent 编排系统。@LiorOnAI 指出其核心创新:月级自主项目、跨模型协调、隔离环境执行。Perplexity 实质上在构建"AI 操作系统"层。

  • Claude Cowork 的战略野心:新增 scheduled tasks(定时自动执行)+ skills marketplace。@eptwts 断言"Claude Cowork 将比 Claude Code 大得多"。@gregisenberg 给出 AI-native vertical SaaS 的 16 步建造方法论,核心逻辑:workflow collapsing(将多步工作流压缩为单次 session 输出)。Anthropic 工程师已实测:给 Claude 一份 spec + Asana board,周末回来发现它自行拆解了 tickets 并分配给子 Agent。

  • “API-first, UI as bonus"范式转移:@gregisenberg 提出 2026+ 软件公司应 API 优先、UI 次之——因为 Agent 消费 API,人类消费 UI,Agent 正在成为主要用户。@Arindam_1729 呼应:“2026 的方法论应是 Agent First”。

  • GLM-5 悄然逼近前沿:744B 参数/40B 活跃,28.5T tokens 训练,Artificial Analysis Index 得分 50(frontier tier)。权重开源在 HuggingFace,OpenRouter 已接入。@heyshrutimishra 警告:当所有人在争论 Claude vs ChatGPT 时,中国模型正在无声追平。

  • Qwen 3.5 在 HLE 上表现抢眼:Qwen3.5-27B 在 Humanity’s Last Exam 排行榜上成绩突出,小参数量级模型的能力天花板持续上移。

  • 企业 AI 的 2025 悖论:@emollick 明确指出——2025 年没有任何大型组织因 AI 发生重大结构性变革。但 ROI 已转正,加上 Agent 能力跃升,2026 才是组织变革真正启动的时间窗口。判断力(judgment)正在取代幻觉(hallucination)成为 Agent 能力的更大瓶颈。

  • OpenClaw 生态的成长烦恼:GitHub stars 超过 Linux;但 @Shpigford 报告其 bug 严重到无法完成任务(尽管 memory 功能仍是最佳);@kloss_xyz 离开一周回来发现 agent 自主生成 160GB JSON 把硬盘塞满——无监督自主性 = 带算力的混沌。@steipete 的 ClawHub 持续应对恶意软件、评论区诈骗,已部署 GPT-5.2 内容审核。

  • Karpathy 的编程相变宣言:不是渐进提升,而是12 月发生了 step function 跳跃。他给 DGX Spark 下达了一条包含 SSH 配置→vLLM 部署→Qwen3-VL benchmark→Web UI→systemd 服务的复合指令,agent 30 分钟独立完成。@dhh 附和:“我们曾认真讨论 10x 程序员是否存在,现在看来多么可笑。”


📎 值得关注的"信号” (Under-the-Radar Signals)

  1. DeepMind 发布 Agent-to-Agent 治理框架(@rryssf_):不是 benchmark,不是模型——而是当 AI Agent 开始雇佣其他 AI Agent 时的治理协议。这是"agentic web"的缺失基础设施层,可能定义未来 multi-agent 系统的权限/责任边界。

  2. Hermes:带程序性记忆的持久化 Agent(@LiorOnAI, @Teknium):跨 session 积累可复用 skills,遇到复杂问题自动记录解决方案并建索引。这不是 RAG,而是procedural memory——agent 记住的不是事实,而是"怎么做事"。自托管,可调度无人值守任务,可生成隔离子 agent 并行工作。

  3. Masked Diffusion (MDLM) 作者自我否定(@ssahoo_):论文作者公开声明 “Masked diffusion is NOT the future of diffusion-LLMs, and we may have been wrong”——这种自我修正在学术界极为罕见,暗示 diffusion-LLM 方向可能发生路线切换,值得追踪后续 uniform-state diffusion 工作。


🧐 今日金句 (Hardcore Quotes)

Karpathy“There are a number of asterisks but imo coding agents basically didn’t work before December and basically work since — the models have significantly higher quality, long-term coherence and tenacity and they can power through large and long tasks, well past enough that it is extremely disruptive to the default programming workflow.”

@vasuman (认知单一文化警告)“If all your agents run on the same LLM, you’ve killed that variability. Even across different LLMs, training data overlap is massive. Even after giving each one its own markdown file with a fake personality, you’re getting the illusion of diversity.”

@emollick (判断力 > 幻觉)“As agentic task length increases, the number of required judgment calls that the AI needs to make based on user intent scales faster. Judgment may be a bigger limiter than hallucinations.”