ATTAYN Intelligence
REPORT NO. 003 / 2026.03.09

Agent Memory 替代 RAG,Anthropic 转型 Agent OS | AI深度观察-2026.03.02

2026.03.01   |   Posts
题图

⚡️ 核心洞察 (Core Insights)

  1. Agent Memory 正在取代 RAG 成为新范式:从 read-only 检索到 read-write 记忆,AI Agent 开始具备跨会话学习能力,Cognee 等开源项目将 vector search + graph DB 融合,为 Agent 提供关系感知型持久记忆。
  2. Claude 生态正以平台逻辑全面扩张:Connectors 对免费用户开放(150+ 工具集成)、MCP 成为 SaaS 新基线、SkillsMP 上线 20 万+ Agent Skills、App Store 登顶——Anthropic 正从模型公司转型为 Agent 操作系统。
  3. AI 隐私审计揭示行业性"默认掠夺":Stanford HAI 对六大 AI 公司 28 份隐私文件的审计确认,所有公司默认用用户对话训练模型,部分公司(Amazon、Meta、OpenAI)无明确删除时限,13-18 岁用户数据无差别对待。

🛠 技术演进与工程实践 (Engineering & Tech Stack)

Agent Memory:从 RAG 到 Read-Write 记忆系统

  • 核心论点:RAG(read-only, one-shot)→ Agentic RAG(read-only via tool calls, agent 决定是否检索)→ Agent Memory(read-write via tool calls, 跨会话学习)。AI Agent 的下一个里程碑不是更好的检索,而是可持续演化的记忆层。
  • 关键项目 — Cognee(开源):融合 vector search + graph DB,支持 composable pipelines(chunking/embedding/entity extraction 模块化编排);引入 weighted memory 机制——高频使用的连接权重增强,response feedback 回流至 edge weights,实现记忆的自我强化。
  • 工程启示:纯 vector DB 将文档视为孤立 chunk,缺乏关系理解;graph layer 提供了语义关系的拓扑结构,是实现 true personalization 的关键基础设施。

AI Skills:从"提示词技巧"到可执行技能包

  • 核心论点(@emollick 引用论文):首批对 AI Skills 实际效用的实验验证——即使使用质量中等的 skills(质量评分仅 6.2/12,主要来自 GitHub),在非软件领域仍获得显著性能提升。Skills 的价值已被初步实证,但如何编写高质量 skills、如何为 Agent 构建有效 harness,仍处于极早期。
  • 关键生态:SkillsMP(“Claude Code 的 App Store”)已上线 200,000+ agent skills;Claude 内置 SKILLS 功能可学习用户工作流并持续执行。
  • 延伸 — Imbue Evolver(开源):用 LLM 驱动的进化算法自动优化 code/prompt。输入为起始代码 + 评分函数 + LLM,执行 mutation → test → selection 循环。关键优化包括 batch mutations(一次修复多个 failure)、learning logs(跨分支共享发现)、post-mutation filters(评分前过滤低质变异,成本降低 10x)。已在 ARC-AGI-2 基准达到 95%(对标 GPT-5.2 级别性能)。

Agent 间通信基础设施

  • Agent Relay(开源):为 Claude 和 Codex Agent 团队提供实时消息层(real-time messaging layer),解决多 Agent 协作中的通信问题。
  • Self-improving Agent 架构(@kloss_xyz):将审计 prompt 写入 AGENTS.md + HEARTBEAT.md,通过 cron jobs 自动执行 drift detection(“你偏离了我们共享的 context/vision/memory/expectations 的哪些部分?"),实现 Agent 的自我校正闭环。

MCP 作为 SaaS 新基线

  • 实践案例:@jackfriks 在 25 分钟内用 Claude 为其社交媒体调度工具构建 MCP server,实现用户通过自然语言在 Claude 内完成发帖调度。其判断:“agentic support is new baseline for any SaaS”。
  • MLOps 可观测性:@Arindam_1729 强调 MCP 日志可视化的重要性——随着更多 Agent 使用 MCP servers,对 tool call 层的透明度成为刚需。Nebius 提供 TTFT tracking、error breakdowns、prompt size distributions 等近实时监控。

📈 产业格局与商业逻辑 (Industry & Strategy)

  • Anthropic 的矛盾处境:WSJ 报道美军在近期伊朗打击行动中使用了 Anthropic 的 AI,但同一周 Trump 以 Anthropic 拒绝移除"safety guardrails"为由禁止联邦使用其技术。@emollick 指出:政府决策中的"突然升级、缺乏透明度、缺乏清晰度"是处理 AI 破坏性力量的危险模式。这彻底改变了"AI Safety"叙事的语境——安全不再是学术讨论,而是实时军事-政策博弈。
  • DeepSeek 切断 Nvidia/AMD 预发布访问:DeepSeek V4 提前向华为(而非 Nvidia/AMD)提供数周的优化窗口,打破行业惯例。Trump 官员指控 DeepSeek 实际使用被禁的 Nvidia 先进芯片训练模型后删除证据。核心逻辑:中国 AI 基础设施正在以"应用层反哺硬件层"的路径,加速国产芯片生态闭环。7500 万次模型下载量已证明其市场穿透力。
  • AI SaaS 的 ROI 困境(@vasuman):企业购买的 “Agentic AI SaaS” ROI 普遍为零。核心论点:AI 只有在 定制化嵌入员工现有工作方式 时才能产生有意义的 ROI。通用 SaaS 层无法适配企业具体流程,AI 必须建在现有技术栈之上,精确复制当前工作方式。这是 horizontal SaaS 和 vertical custom AI 之间的根本性矛盾。
  • 软件商品化加速:@corbin_braun 声称其在 2025 年 12 月已 vibe-code 了 250K 行代码用于真实增长产品。预判:2 年内 90% 产品可被即时构建,分发渠道和用户网络将成为唯一护城河。@levelsio 探索将 error logs + bug board 接入 AI 自动写代码并提 PR 的工作流。

📎 值得关注的"信号” (Under-the-Radar Signals)

  1. Stanford HAI 隐私审计论文链接):28 份隐私文档的系统性分析,可能成为推动 AI 隐私立法的关键证据。四家公司允许 13-18 岁用户访问且未差异化处理儿童数据。
  2. Imbue EvolverGitHub):LLM 驱动的 evolutionary code/prompt optimization。ARC-AGI-2 达 95%,核心思路是将"进化搜索"与"LLM 的定向修复能力"结合,10x 成本优化值得在实际工程中验证。
  3. Google DeepMind AI Agent 治理框架(@rryssf_):不是模型、不是 benchmark,而是 Agent 自主行为的治理框架。在 Agent 大规模部署前,这类 governance work 将决定行业监管方向。

🧐 今日金句 (Hardcore Quotes)

“Every time your agent makes a mistake, take a second to build a solution so it never happens again. This investment today will compound over time.” — @svpino

Agent 工程的本质不是 prompt 调优,而是系统性地将每一次失败固化为防御机制。这是从"使用 AI"到"运营 AI"的认知跃迁。