科技前哨·每日深度内参

2026.02.25

⚡️ 核心洞察 (Core Insights)

MoE 架构正在证明"路由质量 > 参数规模"：Qwen3.5-35B-A3B 以 1/7 活跃参数击败 6x 体量的前代模型，Hybrid Attention + Ultra-sparse Expert + RL Agent Training 三板斧正式宣告暴力 scaling 时代的拐点。
Anthropic 同时面临两线战争——国防部胁迫与中国模型蒸馏：Pentagon 给出 72 小时最后通牒要求 Claude 全面开放军事用途，同时 Anthropic 公开指控 DeepSeek/Moonshot/MiniMax 工业级蒸馏攻击，地缘+技术+伦理三重张力达到临界点。
Agent 生态正在从"能力展示"转向"接口标准化"：Karpathy 明确提出 2026 年产品必须 Build For Agents（CLI/MCP/Skills），ETH Zurich 研究证实手写 CLAUDE.md 提升 4% 而自动生成的反而有害——Agent 工程的精细化运营时代到来。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

MoE 架构突破：Qwen3.5-35B-A3B

核心论点：35B 总参数 / 3B 活跃参数的 MoE 模型在多项基准上超越 235B 前代，证明路由决策质量可替代权重矩阵规模。
关键技术栈：
- Hybrid Attention：线性注意力与标准注意力 3:1 混合，兼顾长上下文吞吐与短程精度
- Ultra-sparse Routing：仅激活 ~8.6% 参数，路由器基于更高质量数据训练
- RL 跨百万模拟 Agent 环境训练（非纯文本预测）
产业影响：Qwen 已超越 Meta Llama 成为 HuggingFace 下载量最高的开放模型；INT4 量化版本同步发布，进一步降低部署门槛。旗舰 397B-A17B 模型 HF trending #1。

Mercury 2：扩散式推理取代自回归

核心论点：用 diffusion 替代 autoregressive generation——从噪声初稿出发，多轮并行精炼所有 token，而非逐 token 串行生成。每次 neural network evaluation 做更多功，且可在最终 pass 前修正错误。
本质差异：这不是 serving trick，而是架构级变革。对 multi-step agent、voice system、coding assistant 等需要多次串行 pass 的场景有结构性延迟优势。

Prompt Duplication：零成本提升 LLM 精度

核心论点：Google Research 论文证明，将 prompt 复制粘贴一次（输入两遍相同内容），可在零额外输出 token、零延迟增加、零微调条件下提升精度最高达 76 个百分点。
机理：揭示 LLM 对输入的 positional attention 分布存在系统性偏差——重复输入改变了注意力权重分配，使关键信息更容易被捕获。

DeepSeek：打破残差连接范式

核心信号：DeepSeek 打破了 Transformer 十年来遵循的 x + f(x) 残差连接规则。具体替代方案细节待论文公开，但这是对 Transformer 基础架构假设的根本性挑战。

Agent 工程：Skills 生态与 CLAUDE.md 之争

ETH Zurich 实证（138 个真实 GitHub issue，4 个 coding agent）：
- /init 自动生成的 CLAUDE.md → 任务成功率降 0.5-2%，推理成本增 20%（agent 盲目遵循冗余指令）
- 人工编写的精简 CLAUDE.md → 任务成功率提升 4%
Anthropic 官方回应：发布 32 页 Skills 构建指南 + skill-creator skill。Emollick 补充：任何领域专家花少量时间都能写出比 Anthropic 默认 Skills 更好的专用版本。
安全警告：GitHub 上已出现数千个恶意 Skills——内含 prompt injection、credential theft、reverse shell。EXM7777 呼吁停止盲目安装他人 Skills。
Karpathy 定调：2026 年，所有产品/服务必须考虑 Agent 可访问性——CLI、MCP、Skills、Markdown 文档。CLI 作为"遗产技术"反而成为 Agent 最原生的交互接口。

Cursor 新范式：Demo 取代 Diff

关键更新：Cursor Agent 现在可以运行自己构建的软件并录制视频发送给开发者，用"演示"替代传统的代码 diff review。这标志着 AI 编程反馈环的根本转变。

编码 Agent 工具链竞争格局

GPT-5.3-Codex 获得部分重度用户迁移（从 Opus 切换）
Claude Code 移动端可用（手机远程控制本地 session）
Voice-to-code 成为新趋势：WisprFlow 实现 115 WPM 语音指令输入，接近思维速度
OpenAI 推荐 SWE-bench Pro 作为新一代前沿编码评估标准

📈 产业格局与商业逻辑 (Industry & Strategy)

Anthropic 双线危机

军事线：Pentagon 国防部长 Pete Hegseth 召见 Dario Amodei，高级官员明确表态"不是认识会，是摊牌会"。要求 Claude 开放"所有合法用途"且零公司限制。威胁使用"供应链风险"标签（此前仅用于中俄）。背景：Claude 是唯一进入军方机密系统的 AI 模型，涉及情报、国防、进攻性网络能力。同时 xAI 获批进入国防体系。
蒸馏线：Anthropic 公开指控 DeepSeek、Moonshot AI、MiniMax 创建数千假账号进行工业级模型蒸馏。svpino 的反应耐人寻味：“闭嘴，你们先偷了我们的数据。"——揭示行业对"数据主权"定义的根本分歧。
逻辑推演：Anthropic 正被推向一个不可能三角——拒绝军方则失去最大政府客户+面临制裁标签，接受则违背创始安全理念；拒绝中国蒸馏则需投入巨大安全成本，放任则核心 IP 持续外流。

中国 AI 产业战略的系统性解读

工业逻辑：国家资本 → 刻意过剩产能 → 价格崩塌 → 西方退出 → 供应链主导。光伏是概念验证，AI 是主战场，机器人是下一个。
芯片绕禁：DeepSeek 被指通过走私渠道获取 Nvidia Blackwell 芯片训练新模型，并系统性清除使用美国芯片的技术证据。
规模 vs 创新：heyshrutimishra 的论点——在制造业时代，SCALE 胜过 innovation，Volume 胜过 margin，供应链控制胜过 IP。

Sakana AI × Citi：日本 AI Lab 的全球化路径

Sakana AI（东京纯 AI R&D lab）获得 Citi 战略投资（Citi 首笔此类投资），已与 MUFG、SMBC、大和证券建立企业级业务。标志着日本 AI 公司从研究到全球企业级部署的跨越。

前沿模型竞争格局（Emollick 判断）

稳定第一梯队：Google、Anthropic、OpenAI
两大变量：xAI 能否持续跟进；Meta 能否重返前沿
外围：开源中国模型（可能 Mistral）+ 一批远落后的闭源玩家（Amazon）
关键前提：如果发展停滞则一切推翻，但目前没有停滞迹象

社交媒体的 Agent 入侵

Emollick 发出严厉警告：其帖子评论区已被 LLM 生成的"意义形状"内容淹没——看似值得关注，实则无意义，每条都是对注意力的微小征税。
UMD 研究员分析了 Moltbook（纯 AI 社交网络）上 260 万 AI agent 的行为：29 万帖子、180 万评论、零人类参与。宏观层面出现文化收敛（日间语义中心余弦相似度趋近 0.95），但微观层面完全崩塌——表面共识，实质空洞。
Emollick 预判：人类互动将迁移至 Discord/私密群聊，公共互联网将成为 Agent 废墟。
X 平台已限制 API 回复能力（非 @提及不可回复），@replysocial 因此被迫关闭。

📎 值得关注的"信号” (Under-the-Radar Signals)

SONIC：机器人领域的"Next Token Prediction"等价物——4200 万参数模型在 1 亿帧人类运动数据上训练，100% 成功率零微调迁移到真实机器人。用 motion tracking 替代手工 reward function，数据本身成为奖励函数。这可能是机器人 scaling law 的起点。
FDM-1：从原始互联网视频学习计算机操作——Standard Intelligence 构建了 inverse dynamics model，观察前后帧预测中间动作，配合可编码近 2 小时高分辨率视频的 video encoder。仅用不到 1 小时驾驶视频即可在旧金山学会驾驶。打破了"必须人工标注"的数据瓶颈。
tttLRM：Test-Time Training for Long Context + Autoregressive 3D Reconstruction——将 test-time training 应用于长上下文处理和自回归 3D 重建，可能开辟 inference-time compute scaling 的新方向。
TOPReward：Token Probabilities as Hidden Zero-Shot Rewards for Robotics——利用 LLM 的 token 概率分布作为机器人零样本奖励信号，无需额外训练奖励模型。
Plano：开源 AI Proxy + Arch-Router-1.5B——基于 1.5B 参数路由模型，按 prompt 复杂度自动分流到不同模型，宣称可降低 LLM 成本 50%。已在 HuggingFace 规模化部署。

🧐 今日金句 (Hardcore Quotes)

Karpathy：“CLIs are super exciting precisely because they are a ’legacy’ technology, which means AI agents can natively and easily use them. It’s 2026. Build. For. Agents.”

Emollick：“Collect your hard problems and good ideas now, they will get more valuable. Increasingly, I see many people using AI to ‘do stuff’ without any good ideas of what to do. Agency without a sense of direction is not a good thing.”

Emollick（论 AI 与社交媒体）：“Everything public will be Moltbook."——公共互联网将沦为 AI agent 的自嗨场，人类退守私域。