
科技前哨·每日深度内参
2026年2月25日
⚡️ 核心洞察 (Core Insights)
- 推理加速的范式正在分裂:Taalas 将权重蚀刻进硅片实现 17,000 t/s(Cerebras 的 8.5x),Mercury 2 用 diffusion 替代自回归生成——两条路径同时宣告 “逐 token 顺序解码” 时代的终结。
- Agent 生态的控制权争夺已从模型层下沉到 Skills/CLI/MCP 层:Karpathy 明确呼吁 “Build. For. Agents.",Anthropic Skills 市场化引发股价波动,emollick 警告默认 Skills 不如领域专家自建——2026 年的护城河不在模型,在工作流编排。
- 开放社交网络正在成为 AI bot 的废墟:emollick 实证观察评论区已被"语义形状正确但实质空洞"的 LLM 生成内容淹没,预判人类交互将退缩至 invite-only 私域;levelsio 从算法分发侧佐证了同一趋势。
🛠 技术演进与工程实践 (Engineering & Tech Stack)
A. 推理硬件:权重固化 vs 扩散式解码
- Taalas — 权重蚀刻芯片:将 Llama 3.1 8B 权重在制造阶段物理写入晶体管,运行时零数据搬运。Llama 3.1 8B 基准:Taalas ~17,000 t/s / Cerebras ~2,000 / Groq ~600 / NVIDIA B200 350-594。彻底消除 memory bandwidth bottleneck,代价是单芯片锁定单模型。(@_avichawla)
- Mercury 2 — Diffusion-based Reasoning:不再逐 token 自回归,而是从全响应的粗稿出发,多轮并行精炼所有 token。每次 forward pass 完成更多有效工作,且可在生成过程中纠错。非 serving trick,而是架构层变革。(@LiorOnAI)
- Karpathy 的第一性原理分析:推理优化的核心矛盾是 on-chip SRAM(极快/极小)与 off-chip DRAM(极大/需通过"吸管"读取)的物理分离。最优基板设计 + memory-compute 编排 = 当前最高回报的智力问题(引用 NVDA 4.6T 市值)。
B. 模型架构:稀疏化 + 混合注意力的效率跃迁
- Qwen3.5-35B-A3B:35B 总参数击败前代 235B(6x 压缩),每 token 仅激活 3B(7x 更少活跃参数)。三项关键技术:①混合注意力层(线性:标准 = 3:1);②超稀疏 MoE 路由(在更高质量数据上训练 router);③跨百万模拟 agent 环境的 RL 训练。结论:智能来自更优路由决策,非更大权重矩阵。(@LiorOnAI)
- Meta FAIR SOAR:解决 RL 冷启动问题——当模型在 128 道难题上得 0 分时,标准 RL 梯度信号归零、训练坍缩。SOAR 无需人工标注数据即可逃逸此陷阱。(@rryssf_)
C. 上下文窗口:广告值 vs 实效值
- 核心数据:2026 年 1 月论文测试数十万数据点,所有头部模型的 Maximum Effective Context Window 均远低于宣称值,差距高达 99%。部分模型在 100 token 处即开始失效,多数在 1,000 token 处严重退化。根因可追溯至 2023 Stanford “Lost in the Middle” 论文的 U 型注意力分布。(@godofprompt)
- Google Research 的"复制粘贴"trick:将 prompt 重复粘贴一次,零额外输出 token、零延迟、零微调,即可提升准确率最高 76 个百分点。揭示 LLM 对输入位置的注意力偏差之深。(@rryssf_)
D. Agent 工程:从 Skill 生态到 24/7 自治
- Claude Code 一周年:bcherny 回顾从 research preview 到火星车路径规划的历程。新增 Remote Control(终端启动、手机接管)、多平台客户端(iOS/Android/macOS/Windows)。
- Karpathy 论 CLI 作为 Agent 原生接口:CLI 是"遗产"技术,恰好意味着 Agent 可无缝使用。示例:让 Claude/Codex 安装 Polymarket CLI + GitHub CLI,3 分钟内生成终端仪表盘。核心建议:产品必须提供 CLI/MCP/Skills/Markdown 文档。
- Apify Agent Skills:15,000+ web scraping Actor 打包为 Claude Code 可调用 Skill,覆盖 Instagram/TikTok/YouTube/Google Maps 等。单命令安装,兼容 Cursor/Codex/Gemini CLI。(@Sumanth_077)
- Saboo_Shubham 的 24/7 Agent 实践:Mac Mini 运行 OpenClaw agent “Ross”,通过 Telegram 接收指令→写代码→启动服务器→截图→发回手机审核→创建 PR。同时自动 review 97k+ star 仓库的每个 PR。
- KOL 观点对撞:emollick 指出"Anthropic 每发一个 Skills pack 股市就波动,说明大众根本不了解 Agent 已有能力”,并强调领域专家自建 Skill 必优于默认 Skill。manthanguptaa 则警告当前进入 “Agents only need filesystems” 的新一轮 hype cycle。
E. 蒸馏与开源伦理
- svpino 立场鲜明:蒸馏是好的,用蒸馏构建开源/开权重模型惠及所有人更好。“归还被窃取之物是善行。我们需要更多蒸馏。”
- DeepSeek 争议:被 Anthropic 抓获通过数千假账户抓取 150k+ Claude 消息(steipete 转发)。antirez 报告 Sonnet 4.6 通过 API 被问"你叫什么"时高频回答"DeepSeek"——疑似训练数据污染。rasbt 评论"Memorization & distillation — 同一枚 scaling 硬币的两面。"
📈 产业格局与商业逻辑 (Industry & Strategy)
- Anthropic vs 五角大楼:Pentagon 给 Anthropic 3 天"最后通牒",要求配合自主武器开发,否则列入黑名单;同时批准 xAI。矛盾在于 Claude 是目前唯一部署在机密系统中的模型(情报、攻击性网络作战)。Pentagon 威胁将 Anthropic 视为"中国级"对手,而中国正用窃取的 Anthropic 技术构建同类武器系统。(@heyshrutimishra,需注意该信源偏向耸动)
- Sakana AI + Citi 战略投资:Citi 对日本企业的首笔战略投资。Sakana 从纯 R&D 实验室扩展至 MUFG/SMBC/大和证券等企业客户,现借 Citi 出海。信号:日本 AI 基础设施开始获得全球金融资本背书。(@hardmaru)
- 中国产业战略模式:DeepSeek 训练成本 $6M(OpenAI $100M+)、宇树人形机器人 $13,500(Atlas 约 10x)、Qwen 超越 Llama 成下载量最大开放模型。逻辑链:国家资本→刻意过剩产能→价格坍缩→西方退出→供应链控制。太阳能是概念验证,AI 是主战场,机器人是下一阶段。(@heyshrutimishra)
- AI-native Vertical SaaS 方法论(gregisenberg 16 步框架):核心逻辑——选子垂直→映射收入工作流→拆解机械步骤 vs 判断步骤→连接真实 stack(CRM/邮件/合同)→消灭 copy-paste→将 prompt 封装为命名可复用命令→按交付物定价(per report/memo/meeting)。本质是将 Claude Cowork 包装为行业解决方案。
- emollick 就业影响判断:AI 对就业的影响将在时间维度和岗位类别内部高度分化,缺乏 junior vs senior、system integrator vs primary developer 的颗粒度数据。当前宏观因素仍压过 AI 影响。2025 年几乎没有企业因 AI 做出实质性业务变革。
📎 值得关注的"信号" (Under-the-Radar Signals)
tttLRM(Test-Time Training for Long Context + Autoregressive 3D Reconstruction):将 test-time training 应用于长上下文处理和自回归 3D 重建,交叉了两个高价值研究方向。(@_akhaliq)
SONIC — 机器人的"Next Token Prediction"等价物:42M 参数模型在 1 亿帧人体运动数据上训练,实现 100% 零微调迁移到真实机器人。核心突破:运动追踪数据本身成为奖励函数,实现与 GPT 类似的 scaling law(数据↑ 模型↑ 算力↑ → 性能可预测提升)。(@LiorOnAI)
Distillate — 研究者终端炼金术:arXiv 论文 → Zotero 文献库 → reMarkable 高亮 → Obsidian 笔记的全自动 pipeline。已开源。对高产出研究者是极高杠杆工具。(@_akhaliq)
VLANeXt — 构建强 VLA(Vision-Language-Action)模型的配方集:直指具身智能的 foundation model 工程实践。(@_akhaliq)
ETH Zurich 研究引发"删除 CLAUDE.md"恐慌:关于 system prompt / context file 安全性的新研究,社区反应两极化。(@DataChaz 转发提示"注意时间线上的细微差别")
🧐 今日金句 (Hardcore Quotes)
Karpathy:“由于芯片制造工艺,你天然获得两个完全不同的内存池:紧邻计算单元的 on-chip SRAM(极快但极小)和 off-chip DRAM(极大但只能通过一根长吸管吸取内容)。在此约束下,为 LLM 顶级工作负载(推理 prefill/decode、训练/微调)设计最优物理基板并编排 memory+compute 以实现最佳 throughput/latency/$——这可能是当今回报最高的智力难题。”
emollick:“如果每次 Anthropic 发一个 Skills pack 市场就波动,这恰好说明人们完全不知道 Agent 已经能做什么。你的竞争优势来自在自己的组织/岗位中实践,而非使用默认配置。”