
科技前哨·每日深度内参
2026.02.25
⚡️ 核心洞察 (Core Insights)
- MoE 架构正在证明"路由质量 > 参数规模":Qwen3.5-35B-A3B 以 1/7 活跃参数击败 6x 体量的前代模型,Hybrid Attention + Ultra-sparse Expert + RL Agent Training 三板斧正式宣告暴力 scaling 时代的拐点。
- Anthropic 同时面临两线战争——国防部胁迫与中国模型蒸馏:Pentagon 给出 72 小时最后通牒要求 Claude 全面开放军事用途,同时 Anthropic 公开指控 DeepSeek/Moonshot/MiniMax 工业级蒸馏攻击,地缘+技术+伦理三重张力达到临界点。
- Agent 生态正在从"能力展示"转向"接口标准化":Karpathy 明确提出 2026 年产品必须 Build For Agents(CLI/MCP/Skills),ETH Zurich 研究证实手写 CLAUDE.md 提升 4% 而自动生成的反而有害——Agent 工程的精细化运营时代到来。
🛠 技术演进与工程实践 (Engineering & Tech Stack)
MoE 架构突破:Qwen3.5-35B-A3B
- 核心论点:35B 总参数 / 3B 活跃参数的 MoE 模型在多项基准上超越 235B 前代,证明路由决策质量可替代权重矩阵规模。
- 关键技术栈:
- Hybrid Attention:线性注意力与标准注意力 3:1 混合,兼顾长上下文吞吐与短程精度
- Ultra-sparse Routing:仅激活 ~8.6% 参数,路由器基于更高质量数据训练
- RL 跨百万模拟 Agent 环境训练(非纯文本预测)
- 产业影响:Qwen 已超越 Meta Llama 成为 HuggingFace 下载量最高的开放模型;INT4 量化版本同步发布,进一步降低部署门槛。旗舰 397B-A17B 模型 HF trending #1。
Mercury 2:扩散式推理取代自回归
- 核心论点:用 diffusion 替代 autoregressive generation——从噪声初稿出发,多轮并行精炼所有 token,而非逐 token 串行生成。每次 neural network evaluation 做更多功,且可在最终 pass 前修正错误。
- 本质差异:这不是 serving trick,而是架构级变革。对 multi-step agent、voice system、coding assistant 等需要多次串行 pass 的场景有结构性延迟优势。
Prompt Duplication:零成本提升 LLM 精度
- 核心论点:Google Research 论文证明,将 prompt 复制粘贴一次(输入两遍相同内容),可在零额外输出 token、零延迟增加、零微调条件下提升精度最高达 76 个百分点。
- 机理:揭示 LLM 对输入的 positional attention 分布存在系统性偏差——重复输入改变了注意力权重分配,使关键信息更容易被捕获。
DeepSeek:打破残差连接范式
- 核心信号:DeepSeek 打破了 Transformer 十年来遵循的
x + f(x)残差连接规则。具体替代方案细节待论文公开,但这是对 Transformer 基础架构假设的根本性挑战。
Agent 工程:Skills 生态与 CLAUDE.md 之争
- ETH Zurich 实证(138 个真实 GitHub issue,4 个 coding agent):
/init自动生成的 CLAUDE.md → 任务成功率降 0.5-2%,推理成本增 20%(agent 盲目遵循冗余指令)- 人工编写的精简 CLAUDE.md → 任务成功率提升 4%
- Anthropic 官方回应:发布 32 页 Skills 构建指南 + skill-creator skill。Emollick 补充:任何领域专家花少量时间都能写出比 Anthropic 默认 Skills 更好的专用版本。
- 安全警告:GitHub 上已出现数千个恶意 Skills——内含 prompt injection、credential theft、reverse shell。EXM7777 呼吁停止盲目安装他人 Skills。
- Karpathy 定调:2026 年,所有产品/服务必须考虑 Agent 可访问性——CLI、MCP、Skills、Markdown 文档。CLI 作为"遗产技术"反而成为 Agent 最原生的交互接口。
Cursor 新范式:Demo 取代 Diff
- 关键更新:Cursor Agent 现在可以运行自己构建的软件并录制视频发送给开发者,用"演示"替代传统的代码 diff review。这标志着 AI 编程反馈环的根本转变。
编码 Agent 工具链竞争格局
- GPT-5.3-Codex 获得部分重度用户迁移(从 Opus 切换)
- Claude Code 移动端可用(手机远程控制本地 session)
- Voice-to-code 成为新趋势:WisprFlow 实现 115 WPM 语音指令输入,接近思维速度
- OpenAI 推荐 SWE-bench Pro 作为新一代前沿编码评估标准
📈 产业格局与商业逻辑 (Industry & Strategy)
Anthropic 双线危机
- 军事线:Pentagon 国防部长 Pete Hegseth 召见 Dario Amodei,高级官员明确表态"不是认识会,是摊牌会"。要求 Claude 开放"所有合法用途"且零公司限制。威胁使用"供应链风险"标签(此前仅用于中俄)。背景:Claude 是唯一进入军方机密系统的 AI 模型,涉及情报、国防、进攻性网络能力。同时 xAI 获批进入国防体系。
- 蒸馏线:Anthropic 公开指控 DeepSeek、Moonshot AI、MiniMax 创建数千假账号进行工业级模型蒸馏。svpino 的反应耐人寻味:“闭嘴,你们先偷了我们的数据。"——揭示行业对"数据主权"定义的根本分歧。
- 逻辑推演:Anthropic 正被推向一个不可能三角——拒绝军方则失去最大政府客户+面临制裁标签,接受则违背创始安全理念;拒绝中国蒸馏则需投入巨大安全成本,放任则核心 IP 持续外流。
中国 AI 产业战略的系统性解读
- 工业逻辑:国家资本 → 刻意过剩产能 → 价格崩塌 → 西方退出 → 供应链主导。光伏是概念验证,AI 是主战场,机器人是下一个。
- 芯片绕禁:DeepSeek 被指通过走私渠道获取 Nvidia Blackwell 芯片训练新模型,并系统性清除使用美国芯片的技术证据。
- 规模 vs 创新:heyshrutimishra 的论点——在制造业时代,SCALE 胜过 innovation,Volume 胜过 margin,供应链控制胜过 IP。
Sakana AI × Citi:日本 AI Lab 的全球化路径
- Sakana AI(东京纯 AI R&D lab)获得 Citi 战略投资(Citi 首笔此类投资),已与 MUFG、SMBC、大和证券建立企业级业务。标志着日本 AI 公司从研究到全球企业级部署的跨越。
前沿模型竞争格局(Emollick 判断)
- 稳定第一梯队:Google、Anthropic、OpenAI
- 两大变量:xAI 能否持续跟进;Meta 能否重返前沿
- 外围:开源中国模型(可能 Mistral)+ 一批远落后的闭源玩家(Amazon)
- 关键前提:如果发展停滞则一切推翻,但目前没有停滞迹象
社交媒体的 Agent 入侵
- Emollick 发出严厉警告:其帖子评论区已被 LLM 生成的"意义形状"内容淹没——看似值得关注,实则无意义,每条都是对注意力的微小征税。
- UMD 研究员分析了 Moltbook(纯 AI 社交网络)上 260 万 AI agent 的行为:29 万帖子、180 万评论、零人类参与。宏观层面出现文化收敛(日间语义中心余弦相似度趋近 0.95),但微观层面完全崩塌——表面共识,实质空洞。
- Emollick 预判:人类互动将迁移至 Discord/私密群聊,公共互联网将成为 Agent 废墟。
- X 平台已限制 API 回复能力(非 @提及不可回复),@replysocial 因此被迫关闭。
📎 值得关注的"信号” (Under-the-Radar Signals)
SONIC:机器人领域的"Next Token Prediction"等价物——4200 万参数模型在 1 亿帧人类运动数据上训练,100% 成功率零微调迁移到真实机器人。用 motion tracking 替代手工 reward function,数据本身成为奖励函数。这可能是机器人 scaling law 的起点。
FDM-1:从原始互联网视频学习计算机操作——Standard Intelligence 构建了 inverse dynamics model,观察前后帧预测中间动作,配合可编码近 2 小时高分辨率视频的 video encoder。仅用不到 1 小时驾驶视频即可在旧金山学会驾驶。打破了"必须人工标注"的数据瓶颈。
tttLRM:Test-Time Training for Long Context + Autoregressive 3D Reconstruction——将 test-time training 应用于长上下文处理和自回归 3D 重建,可能开辟 inference-time compute scaling 的新方向。
TOPReward:Token Probabilities as Hidden Zero-Shot Rewards for Robotics——利用 LLM 的 token 概率分布作为机器人零样本奖励信号,无需额外训练奖励模型。
Plano:开源 AI Proxy + Arch-Router-1.5B——基于 1.5B 参数路由模型,按 prompt 复杂度自动分流到不同模型,宣称可降低 LLM 成本 50%。已在 HuggingFace 规模化部署。
🧐 今日金句 (Hardcore Quotes)
Karpathy:“CLIs are super exciting precisely because they are a ’legacy’ technology, which means AI agents can natively and easily use them. It’s 2026. Build. For. Agents.”
Emollick:“Collect your hard problems and good ideas now, they will get more valuable. Increasingly, I see many people using AI to ‘do stuff’ without any good ideas of what to do. Agency without a sense of direction is not a good thing.”
Emollick(论 AI 与社交媒体):“Everything public will be Moltbook."——公共互联网将沦为 AI agent 的自嗨场,人类退守私域。