ATTAYN Intelligence
REPORT NO. 003 / 2026.03.09

Prompt 的终局是 Onboarding Doc,软件的终局是 Ephemeral | AI深度观察-2026.02.21

2026.02.20   |   Posts
题图

科技前哨·每日深度内参


⚡️ 核心洞察 (Core Insights)

  1. Gemini 3.1 Pro 将 ARC-AGI-2 推至 77.1%,三个月内推理能力翻倍——benchmark 饱和正在从知识类(MMLU-Pro、GPQA Diamond)向推理类蔓延,行业竞争焦点已从"更大"转向"更聪明地解未见问题"。
  2. Claude Code 的内部设计哲学公开,催生"Agent 编排文化"——.claude/CLAUDE.md 正取代源码本身成为仓库中最关键的文件,Prompt Engineering 的终局形态是"为机器写 Onboarding Doc"。
  3. llama.cpp 并入 Hugging Face,开源推理基础设施完成关键整合——ggml 生态获得 HF 分发+社区双重加速,本地推理的"最后一公里"工程化门槛进一步降低。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

A. Gemini 3.1 Pro:推理跃迁与前端代码生成

  • 核心论点:Google 在 Gemini 3 Pro 发布不到四个月后推出 3.1 Pro,定价不变($2/M input tokens),推理性能全面跃升。
  • 关键数据
    • ARC-AGI-2: 77.1%(vs Opus 4.6 的 68.8%、GPT-5.2 的 52.9%,2x 前代)
    • GPQA Diamond: 94.3% | SWE-Bench Verified: 80.6% | LiveCodeBench Pro Elo: 2887
    • Agentic tool use: 99.3% | Agentic search: 85.9%
  • 工程实践亮点:多位开发者(@MengTo, @alex_prompter, @Saboo_Shubham_)确认其在前端 3D 代码生成(Three.js + GSAP + Tailwind 单文件架构)上表现远超前代,理解光照、相机物理、glassmorphism 等设计语言的能力被形容为"terrifying"。@OriolVinyalsML 展示其 SVG 生成质量的质变(如第一人称过山车动画)。
  • Benchmark 警告(@emollick):GPQA Diamond、MMLU-Pro、τ²-bench 已基本饱和;GDPval-AA 不应作为 benchmark 使用——它用未校准的通用 AI judge 替代了原设计所需的领域专家评审,Gemini 在该指标上表现差但这不说明问题。ARC-AGI 尚未饱和,但"测量的究竟是什么"仍有争议。

B. Claude Code 架构公开与 Agent 编排范式

  • 核心论点:Claude Code 创建者 @bcherny 发布 50 分钟深度访谈,完整暴露设计决策、错误复盘和未来路线。Claude Code 已写入 GitHub 4% 的 commit,DAU 上月翻倍。
  • 关键架构理念
    • Terminal 的优雅简洁性:选择 CLI 而非 GUI 是刻意的——终端是最低阻力的人机接口。
    • Subagent 策略:大量使用 subagent 保持主 context window 清洁;一个任务一个 subagent。
    • 自我改进循环:每次被用户纠正后,agent 自动更新 tasks/lessons.md,为自己写规则防止重复错误。
    • Plan Mode 优先:任何 3+ 步骤的非平凡任务默认进入 plan mode;出错立即 re-plan 而非硬推。
  • .claude/CLAUDE.md 成为新基础设施(@DataChaz 详细拆解):该文件本质是 agent 的行为配置文件——强制 AI 自验证、自动修复 CI、拒绝 hacky fix。“Writing crystal-clear instructions for machines is the new 10x dev skill.”
  • 编排文化正在形成(@Arindam_1729):拆分任务而非 mega-prompt → 并行 agent 分工 → 用 GPT-class 模型 review Claude 输出 → 把 agent 当 process 而非聊天窗口。核心技能从 prompting 转向 agent orchestration

C. LLM 记忆层:从自治到确定性管理

  • Lossless Context Management (LCM)(Voltropy 论文,@rryssf_):
    • 核心批判:Recursive Language Models (RLMs) 让模型自主用 Python REPL 写记忆管理脚本,灵活但不可预测——同一个 chunking 脚本在不同 rollout 中表现不一致。
    • LCM 方案:引擎层确定性压缩旧消息为 hierarchical DAG summaries,原文 verbatim 保存在 immutable store,模型通过 stable pointers 按需展开。类比:从 GOTO 到结构化编程。
    • 结论:Agent 不应让模型自行管理记忆。
  • Claude-Mem(@Sumanth_077):Claude Code 的持久记忆插件,3 层 token 高效工作流(search → timeline → get_observations),每次仅加载必要记忆,~50-100 tokens/result。开源。

D. Skill Graphs:Agent 能力的图结构组织

  • 核心论点(@akshay_pachaar):单一 SKILL.md 文件的 flat 结构无法扩展。应将 skill 组织为 wikilink 连接的小型可组合文件网络——每个文件捕获一个完整概念,链接描述依赖关系。类比:高级工程师 onboard 新人不是给一份巨型文档,而是给一张模块地图。

E. 模型推理基础设施

  • llama.cpp 加入 Hugging Face(@ggerganov 官宣):ggml 团队将在 HF 框架内继续构建,目标是让 llama.cpp 更易用、更广泛可及。这是开源本地推理生态的关键整合节点。
  • Tiny Aya 3.35B(@rasbt from-scratch 实现):最强多语言支持的小型模型,适合 on-device 翻译。架构亮点:Parallel transformer blocks(注意力+MLP 并行计算后合并残差)、3:1 local:global sliding window attention(窗口 4096)。
  • SLA2(@_akhaliq):Sparse-Linear Attention with Learnable Routing + QAT,注意力稀疏化新方向。
  • Google Unified Latents (UL):“How to train your latents” 论文,统一潜变量训练框架。

F. AI 编码工具实战对比

  • 模型 Tier List(@corbin_braun 综合多人观点):
    • Gemini 3.1 Pro:Creative frontend code 最强
    • GPT Codex 5.3:Planning & Bug killing;@jackfriks 首次从 Claude 切换尝试,评价"very good"
    • Opus 4.6:核心 Coder workhorse
  • 实战组合(@Shpigford):Opus 4.6 Max 20x ($200/mo) 做主力 + GPT 5.3 Codex Plus ($20/mo) 做 review + 奇怪 bug 修复,全部通过 CLI。
  • MiniMax M2.5(@heyshrutimishra):10B activated params,SWE-Bench 80.2%,37% 更快更省 token,可操作 Word/Excel/PPT。定位不是聊天模型,是 agent backbone

G. 神经网络训练优化 Trick

  • CPU→GPU 传输 4x 加速(@_avichawla):将数据转换(8-bit int → 32-bit float)从 CPU 端移至 GPU 端执行,传输 8-bit 原始数据而非 32-bit float,减少 4x 传输量。简单但高效。

📈 产业格局与商业逻辑 (Industry & Strategy)

  • Anthropic $380B 估值解剖(@heyshrutimishra):

    • 5 个月内估值从 $183B → $380B(2.08x)。成立仅 5 年,已达 OpenAI 估值的 76%。
    • Revenue run-rate $14B,27x 倍数;OpenAI $20B revenue 但寻求 $850B 估值(42.5x)。
    • 核心差异化:Enterprise-first(Fortune 10 中 8 家客户)、更低 burn rate。
    • :@steipete 转发 Gergely Orosz 的警告——Anthropic 似乎不希望第三方在其 SDK 上构建生态(封禁 OpenCode 等),生态策略存疑。
  • Anthropic 自动 Prompt Caching(@bcherny RT @alexalbert__):API 层面自动缓存 prompt,开发者不再需要手动管理——降低 API 使用成本和复杂度。

  • SaaS 未来形态争论

    • @gregisenberg 引 Microsoft Copilot 员工观点:价值从 features 迁移至 data + distribution + integration
    • @marclou 实践验证:“SaaS 的未来是后端”——UI 层将为每个用户按需生成、个性化。他基于 DataFast API 4 天做了 4 个 app。
    • @Shpigford 暂停 “business in a box” 实验:6 周做了 3 个完整 app 仅赚 $10K,时机不对——AI 能构建一切的 hype 使用户不愿为成品付费,但"pendulum will swing back"。
  • ElevenLabs 护城河受威胁(@DataChaz):Voicebox 基于阿里 Qwen3-TTS 实现近乎完美的语音克隆,开源冲击 ElevenLabs 的商业模式。

  • Ephemeral App 范式(@levelsio + @karpathy):

    • @karpathy:为个人心率实验 vibe code 了一个高度定制的 dashboard,Claude 逆向工程了 Woodway 跑步机云 API。“永远不会有也不应该有一个专门的 app 做这件事”。
    • @levelsio:未来 LLM 按需 spin up 临时 UI——订酒店时生成 Airbnb 式界面,修图时生成简易编辑器。界面和 app 变成 ephemeral 的
    • @levelsio 实践:每个站点部署在独立 Hetzner VPS 上,安装 Claude Code 作为系统守护进程,通过 Telegram 双向通信——收到错误通知后回复"ok fix it",Claude Code 立即修复。“终于能在 iPhone 上完成所有工作了”。
  • 2025 年 “AI Agent” 产品已过时(@emollick):那些用流程图串联确定性 prompt + RAG 输入的"agent 产品"在 post-Claude-Code 时代看起来非常过时——几乎涵盖 2025 年发布的所有 agent 产品。

  • AI 对社交媒体的存在性威胁(@emollick):大量平淡 AI 回复可能杀死社交媒体——社交平台的粘性依赖于用户的情绪参与(通常是负面的),无聊可能比愤怒更致命。


📎 值得关注的"信号" (Under-the-Radar Signals)

  1. Google “Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality”(@_akhaliq)——研究表明 LLM 事实性错误的瓶颈不在于"知识未存储"而在于检索失败。这对 RAG vs. 参数化知识的路线之争有深远影响:即使模型"知道"答案,也可能因 recall 机制失灵而无法提取。

  2. AI 抵抗科学不端行为的脆弱性(@emollick 引论文)——最新模型能识别 p-hacking 指令并拒绝执行,但防护可被突破。论文原话:“models behave as competent, if conservative, analysts… yet these protections are not absolute.” 随着 AI 大规模进入科研流程,这一 alignment 子问题将愈发关键。

  3. Mobile-Agent-v3.5:多平台基础 GUI Agent(@_akhaliq)——跨平台 GUI 操作 agent 的新进展,指向 agent 从 API 调用走向直接操控用户界面的演进方向,与 MiniMax M2.5 可操作 Office 套件的能力形成呼应。

  4. BioVault(@iamtrask RT)——开源 privacy-first 生物医学协作平台,使用差分隐私等技术实现全球协作。在 AI + 医疗数据隐私的交叉地带,值得追踪。


🧐 今日金句 (Hardcore Quotes)

@emollick: “All those products where building an ‘AI agent’ meant defining a series of basic prompts linked together deterministically through a flowchart with separate RAG inputs are looking pretty dated right about now — yes, that is basically every agent product released in 2025.”

@karpathy: “There will never be (and shouldn’t be) a specific app for [this]. The era of highly bespoke software is coming.”

@rryssf_ (引 Voltropy 论文): “Agents should stop letting models manage their own memory. The analogy is perfect: GOTO vs structured programming.”