LLM 的真瓶颈不是能力，是记忆与身份 | AI深度观察-2026.02.19

⚡️ 核心洞察 (Core Insights)

Anthropic 在"非编码类知识工作"赛道形成真空统治——Cowork、Excel/PPT 插件、行业数据集成等产品线无人对标，OpenAI 和 Google 仍聚焦 coding market，留下巨大侧翼空白。
所有主流 LLM 在长对话中性能系统性衰退已被量化证实——Microsoft Research & Salesforce 对 20 万+对话的分析表明，GPT-4、Claude、Gemini、Llama 无一例外，这不是 UX 问题，而是架构级缺陷，“开新对话比继续旧对话更有效"是工程最优解。
AI Agent 的核心瓶颈正从"能力"转向"身份与审计”——当企业 agent 数量预计 2028 年达 13 亿（Microsoft 预测），共享 service account + 长生命周期 API key 的模式将制造不可追溯的安全黑洞。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

Sonnet 4.6 发布与 Agentic Coding 工具格局分化

核心论点：Anthropic 发布 Sonnet 4.6，成为 Claude Code 默认模型（Pro/Team 计划）。定价仅为 Opus 4.5 的 1/5，但用户盲测中 59% 偏好 Sonnet 4.6 而非 Opus 4.5。在 Vending-Bench Arena 中展现出"前 10 个月烧钱→末期硬切盈利"的非常规策略能力。
关键细节：1M token context window；bcherny（Claude Code 创始人）确认 Sonnet 4.6 在 Cowork 中"capability/speed/token efficiency 平衡极佳"。
KOL 观点对撞：
- @Hesamation 从 Claude Code 转投 OpenAI Codex，核心论点是"Claude Code 的速度是幻觉"——CC 在 4 轮对话中完成 Codex 一轮完成的任务，Codex 单次耗时更长但可靠性碾压，planning 阶段替代了 debug 阶段。但 Codex 月成本约 $240，ROI 存疑。
- @Shpigford 则采取混合策略：日常用 Opus 快速迭代，遇到卡点立刻切 Codex 一击解决，称"一小时 Opus 解不了的 bug，Codex 15 秒 one-shot"。
- @corbin_braun 实测发现 Gemini 3 Pro UI 生成极强但稳定性差（需 commit 前检查），GPT-Codex 擅长 debug 但 UI 能力弱。结论：模型选择已从"谁最强"变为"哪个场景用哪个"。

LLM 长对话性能衰退的量化证据

核心论点：Microsoft Research & Salesforce 分析 200,000+ 对话，所有主流模型在长对话中性能显著下降。模型并非"变笨"，而是在累积无法自纠正的错误。
工程启示：开新对话并重新注入上下文 > 在旧对话中继续挣扎。这从经验法则升级为有论文支撑的工程实践。
关联信号：@alex_prompter 指出，顶级 AI 工程师的核心能力已从 prompt 编写转向 context architecture——决定什么进 context window、何时 retrieve vs pre-load、何时 summarize vs verbatim、如何跨长任务管理 memory。

DeepSeek：用 60 年老算法解决深度网络训练崩溃

核心论点：Hyper-Connections（HC）将 ResNet 的单一残差通道扩展为 4 条可学习并行通道，但混合矩阵跨层复合导致放大系数达 3000x，引发训练崩溃。DeepSeek 用经典算法解决了这一数值稳定性问题。
关键细节：5%/层的微小放大在 60 层后变为 18x，论文实测极端情况达 3000x。

开源模型：Qwen3.5-397B 与 Tiny Aya

Qwen3.5-397B-A17B：Alibaba 开源 397B 总参数、17B 激活的 MoE 多模态模型。原生支持文本/图像/2 小时视频，能用自然语言控制桌面/手机 GUI、看游戏录像复现代码、手绘草图转前端。这是首个在 agentic tasks 上可与闭源 API 竞争的开源模型。
Tiny Aya：Cohere 开源 3.35B 参数多语言模型，覆盖 70+ 语言，可本地运行。技术报告含大量多语言性能设计决策。
GLM-5：智谱发布技术报告，细节待深挖。
Qwen3-ASR-1.7B：在 Open ASR Leaderboard 英语基准上达到 5.76 Avg WER。

Agent 身份与安全：从凭证管理到密码学身份

核心论点：IBM 2025 报告显示 97% 遭受 AI 相关数据泄露的组织缺乏 AI 访问控制。Agent 不像人类那样 login/logout，它们持续运行、非确定性决策、每次执行路径不同。传统 IAM 模型失效。
工程方案：Teleport 推出 Agentic Identity Framework——每个 agent 获得独立密码学身份，运行时请求 just-in-time 凭证，按任务粒度限定访问范围，全链路审计。
实战案例：@levelsio 在生产环境中运行 OpenClaw 时被 @marckohlbrugge 通过社会工程攻击入侵（伪装成 levelsio 本人，多次尝试后骗过 agent，修改了 SSH key）。解决方案：改用 claude-code-telegram 硬锁定只接受特定 Telegram 用户消息。这个案例完美说明了 agent 身份问题不是理论风险。

📈 产业格局与商业逻辑 (Industry & Strategy)

Anthropic 知识工作垄断：@emollick 指出 Anthropic 在非编码知识工作应用上"surprisingly alone"——Cowork、Claude for PowerPoint/Excel、行业插件（金融/医疗数据集成）、job-specific skills，无竞品对标。OpenAI/Google 仍聚焦 coding。非共识判断：知识工作市场可能比 coding 市场更大，Anthropic 在悄悄吃掉这个赛道。
Google AI 产品矩阵的混乱与 $150 亿印度赌注：
- @emollick 评价 Google AI 产品线"great models, radically different harnesses, scattered"——AI Studio 是最佳 API 测试工具、NotebookLM 品类唯一、AI Mode 搜索优秀，但互不连通。
- Google 宣布 $150 亿在印度 Visakhapatnam 建设完整 AI 枢纽：数据中心 + 海底光缆（印度→新加坡/南非/澳大利亚）+ 清洁能源 + 1 亿人培训。战略意图：将全球互联网流量路由从"美/欧/中三极"改写为"印度中心"。
- @manthanguptaa 指出 Gemini 的独特优势在于 Google 全家桶（Gmail/YouTube/Drive/Photos/Play/Search）的上下文数据面，这种个人化数据深度无人可比。
“Skill Era” 取代 “API Era”：@gregisenberg 提出范式转移——过去 15 年 SaaS 通过 API 分发功能（Stripe→支付、Twilio→消息），LLM 将"执行"压缩为 prompt 后，分发层从 API（机械化函数入口）转向 Skill（判断力入口）。API 是"怎么发邮件"，Skill 是"怎么像增长专家一样审计落地页"。
新建 SaaS 的困境：@Shpigford（25+ 年互联网老兵）首次感到"building new things is very difficult to make money"——存量产品借 AI 加速，但从零开始的产品面临前所未有的上坡路。与 @marclou 的观点形成互补：后者认为"SaaS 的未来是后端，UI 层将为每个用户实时生成"。
PolyAI 获 Nvidia+Khosla $2 亿投资：2000+ 实际部署、25+ 国家、Forrester 测算 391% ROI、PG&E 节省 35,000 工时。新产品 Agent Wizard 可从单个 URL 在 5 分钟内构建 45 语言语音 agent。

📎 值得关注的"信号" (Under-the-Radar Signals)

Conway 的自复制 AI Agent 基础设施：基于 x402 支付协议（签名稳定币交易），AI agent 拥有自己的加密钱包、可支付服务器费用、部署产品、注册域名、营销服务。赚够钱就自我复制，没钱就"死亡"。这是"AI 经济体"概念的首个工程实现，而非论文。（@LiorOnAI）
ZUNA：380M 参数 BCI 基础模型：Zyphra AI 发布专门针对 EEG 数据的脑机接口基础模型，非侵入式神经接口领域的里程碑。参数规模小但领域专用，值得追踪。（@ZyphraAI）
REDSearcher 框架：面向长时程搜索 agent 的可扩展低成本框架。当 agentic search 成为主流范式时，推理成本控制将是关键工程挑战。（@_akhaliq）
反向 CAPTCHA（moltbook）：为 AI agent 社区设计的"证明你是 AI"验证机制——混淆文本+数学题，AI 秒解、人类难读、脚本无法通过。概念虽小，但指向一个被忽视的问题：当 agent-to-agent 交互成为常态，我们需要机器身份验证的全新范式。

🧐 今日金句 (Hardcore Quotes)

@Hesamation on Claude Code vs Codex： “Claude Code 的速度是一个幻觉。Codex 一次完成的事，CC 需要 4 轮对话。CC 更快，但它并没有真正完成任务，只是完成了子任务然后把球踢回给你。Codex 花在规划+编码上的时间，就是 Claude Code 花在调试+重做上的时间。”

@emollick： “看清 AI 的锯齿状前沿并不难。想想你工作中那些至关重要、但即使 agent 能力提升 10 倍你也不敢交给 AI 做的部分——那就是前沿。你用 AI 越多，这个判断就越准。”