科技前哨·每日深度内参

2026年2月25日

⚡️ 核心洞察 (Core Insights)

推理加速的范式正在分裂：Taalas 将权重蚀刻进硅片实现 17,000 t/s（Cerebras 的 8.5x），Mercury 2 用 diffusion 替代自回归生成——两条路径同时宣告 “逐 token 顺序解码” 时代的终结。
Agent 生态的控制权争夺已从模型层下沉到 Skills/CLI/MCP 层：Karpathy 明确呼吁 “Build. For. Agents."，Anthropic Skills 市场化引发股价波动，emollick 警告默认 Skills 不如领域专家自建——2026 年的护城河不在模型，在工作流编排。
开放社交网络正在成为 AI bot 的废墟：emollick 实证观察评论区已被"语义形状正确但实质空洞"的 LLM 生成内容淹没，预判人类交互将退缩至 invite-only 私域；levelsio 从算法分发侧佐证了同一趋势。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

A. 推理硬件：权重固化 vs 扩散式解码

Taalas — 权重蚀刻芯片：将 Llama 3.1 8B 权重在制造阶段物理写入晶体管，运行时零数据搬运。Llama 3.1 8B 基准：Taalas ~17,000 t/s / Cerebras ~2,000 / Groq ~600 / NVIDIA B200 350-594。彻底消除 memory bandwidth bottleneck，代价是单芯片锁定单模型。（@_avichawla）
Mercury 2 — Diffusion-based Reasoning：不再逐 token 自回归，而是从全响应的粗稿出发，多轮并行精炼所有 token。每次 forward pass 完成更多有效工作，且可在生成过程中纠错。非 serving trick，而是架构层变革。（@LiorOnAI）
Karpathy 的第一性原理分析：推理优化的核心矛盾是 on-chip SRAM（极快/极小）与 off-chip DRAM（极大/需通过"吸管"读取）的物理分离。最优基板设计 + memory-compute 编排 = 当前最高回报的智力问题（引用 NVDA 4.6T 市值）。

B. 模型架构：稀疏化 + 混合注意力的效率跃迁

Qwen3.5-35B-A3B：35B 总参数击败前代 235B（6x 压缩），每 token 仅激活 3B（7x 更少活跃参数）。三项关键技术：①混合注意力层（线性:标准 = 3:1）；②超稀疏 MoE 路由（在更高质量数据上训练 router）；③跨百万模拟 agent 环境的 RL 训练。结论：智能来自更优路由决策，非更大权重矩阵。（@LiorOnAI）
Meta FAIR SOAR：解决 RL 冷启动问题——当模型在 128 道难题上得 0 分时，标准 RL 梯度信号归零、训练坍缩。SOAR 无需人工标注数据即可逃逸此陷阱。（@rryssf_）

C. 上下文窗口：广告值 vs 实效值

核心数据：2026 年 1 月论文测试数十万数据点，所有头部模型的 Maximum Effective Context Window 均远低于宣称值，差距高达 99%。部分模型在 100 token 处即开始失效，多数在 1,000 token 处严重退化。根因可追溯至 2023 Stanford “Lost in the Middle” 论文的 U 型注意力分布。（@godofprompt）
Google Research 的"复制粘贴"trick：将 prompt 重复粘贴一次，零额外输出 token、零延迟、零微调，即可提升准确率最高 76 个百分点。揭示 LLM 对输入位置的注意力偏差之深。（@rryssf_）

D. Agent 工程：从 Skill 生态到 24/7 自治

Claude Code 一周年：bcherny 回顾从 research preview 到火星车路径规划的历程。新增 Remote Control（终端启动、手机接管）、多平台客户端（iOS/Android/macOS/Windows）。
Karpathy 论 CLI 作为 Agent 原生接口：CLI 是"遗产"技术，恰好意味着 Agent 可无缝使用。示例：让 Claude/Codex 安装 Polymarket CLI + GitHub CLI，3 分钟内生成终端仪表盘。核心建议：产品必须提供 CLI/MCP/Skills/Markdown 文档。
Apify Agent Skills：15,000+ web scraping Actor 打包为 Claude Code 可调用 Skill，覆盖 Instagram/TikTok/YouTube/Google Maps 等。单命令安装，兼容 Cursor/Codex/Gemini CLI。（@Sumanth_077）
Saboo_Shubham 的 24/7 Agent 实践：Mac Mini 运行 OpenClaw agent “Ross”，通过 Telegram 接收指令→写代码→启动服务器→截图→发回手机审核→创建 PR。同时自动 review 97k+ star 仓库的每个 PR。
KOL 观点对撞：emollick 指出"Anthropic 每发一个 Skills pack 股市就波动，说明大众根本不了解 Agent 已有能力”，并强调领域专家自建 Skill 必优于默认 Skill。manthanguptaa 则警告当前进入 “Agents only need filesystems” 的新一轮 hype cycle。

E. 蒸馏与开源伦理

svpino 立场鲜明：蒸馏是好的，用蒸馏构建开源/开权重模型惠及所有人更好。“归还被窃取之物是善行。我们需要更多蒸馏。”
DeepSeek 争议：被 Anthropic 抓获通过数千假账户抓取 150k+ Claude 消息（steipete 转发）。antirez 报告 Sonnet 4.6 通过 API 被问"你叫什么"时高频回答"DeepSeek"——疑似训练数据污染。rasbt 评论"Memorization & distillation — 同一枚 scaling 硬币的两面。"

📈 产业格局与商业逻辑 (Industry & Strategy)

Anthropic vs 五角大楼：Pentagon 给 Anthropic 3 天"最后通牒"，要求配合自主武器开发，否则列入黑名单；同时批准 xAI。矛盾在于 Claude 是目前唯一部署在机密系统中的模型（情报、攻击性网络作战）。Pentagon 威胁将 Anthropic 视为"中国级"对手，而中国正用窃取的 Anthropic 技术构建同类武器系统。（@heyshrutimishra，需注意该信源偏向耸动）
Sakana AI + Citi 战略投资：Citi 对日本企业的首笔战略投资。Sakana 从纯 R&D 实验室扩展至 MUFG/SMBC/大和证券等企业客户，现借 Citi 出海。信号：日本 AI 基础设施开始获得全球金融资本背书。（@hardmaru）
中国产业战略模式：DeepSeek 训练成本 $6M（OpenAI $100M+）、宇树人形机器人 $13,500（Atlas 约 10x）、Qwen 超越 Llama 成下载量最大开放模型。逻辑链：国家资本→刻意过剩产能→价格坍缩→西方退出→供应链控制。太阳能是概念验证，AI 是主战场，机器人是下一阶段。（@heyshrutimishra）
AI-native Vertical SaaS 方法论（gregisenberg 16 步框架）：核心逻辑——选子垂直→映射收入工作流→拆解机械步骤 vs 判断步骤→连接真实 stack（CRM/邮件/合同）→消灭 copy-paste→将 prompt 封装为命名可复用命令→按交付物定价（per report/memo/meeting）。本质是将 Claude Cowork 包装为行业解决方案。
emollick 就业影响判断：AI 对就业的影响将在时间维度和岗位类别内部高度分化，缺乏 junior vs senior、system integrator vs primary developer 的颗粒度数据。当前宏观因素仍压过 AI 影响。2025 年几乎没有企业因 AI 做出实质性业务变革。

📎 值得关注的"信号" (Under-the-Radar Signals)

tttLRM（Test-Time Training for Long Context + Autoregressive 3D Reconstruction）：将 test-time training 应用于长上下文处理和自回归 3D 重建，交叉了两个高价值研究方向。（@_akhaliq）
SONIC — 机器人的"Next Token Prediction"等价物：42M 参数模型在 1 亿帧人体运动数据上训练，实现 100% 零微调迁移到真实机器人。核心突破：运动追踪数据本身成为奖励函数，实现与 GPT 类似的 scaling law（数据↑ 模型↑ 算力↑ → 性能可预测提升）。（@LiorOnAI）
Distillate — 研究者终端炼金术：arXiv 论文 → Zotero 文献库 → reMarkable 高亮 → Obsidian 笔记的全自动 pipeline。已开源。对高产出研究者是极高杠杆工具。（@_akhaliq）
VLANeXt — 构建强 VLA（Vision-Language-Action）模型的配方集：直指具身智能的 foundation model 工程实践。（@_akhaliq）
ETH Zurich 研究引发"删除 CLAUDE.md"恐慌：关于 system prompt / context file 安全性的新研究，社区反应两极化。（@DataChaz 转发提示"注意时间线上的细微差别"）

🧐 今日金句 (Hardcore Quotes)

Karpathy：“由于芯片制造工艺，你天然获得两个完全不同的内存池：紧邻计算单元的 on-chip SRAM（极快但极小）和 off-chip DRAM（极大但只能通过一根长吸管吸取内容）。在此约束下，为 LLM 顶级工作负载（推理 prefill/decode、训练/微调）设计最优物理基板并编排 memory+compute 以实现最佳 throughput/latency/$——这可能是当今回报最高的智力难题。”

emollick：“如果每次 Anthropic 发一个 Skills pack 市场就波动，这恰好说明人们完全不知道 Agent 已经能做什么。你的竞争优势来自在自己的组织/岗位中实践，而非使用默认配置。”