AI Agent 不只是一个更会写代码的编辑器插件

我最近使用 AI coding agent 的频率很高，Codex、Claude Code 之类的工具基本已经进入日常工作流。

刚开始用这类工具，很容易把它理解成“更聪明的自动补全”或者“能帮我写代码的聊天窗口”。但用得久一点以后，我越来越觉得，这种理解太小了。

AI Agent 真正改变的不是某一次代码生成，而是整个软件工作流里“上下文如何组织、任务如何拆分、审查如何发生、经验如何沉淀”的方式。

写代码不是最难的部分

很多工程问题最耗时间的地方并不是敲代码，而是找上下文。

这个字段为什么这么设计？这个状态谁可以改？这个历史 bug 当时为什么没有修彻底？线上和测试环境到底差在哪？某个 reviewer 提的意见是真问题还是误判？一个模块里看起来类似的逻辑，哪些能复用，哪些因为业务语义不同不能合并？

这些问题如果靠人脑记，迟早会丢。如果靠聊天记录找，也很快会变成一堆碎片。

AI Agent 很擅长读大量文本，但前提是你得给它结构化、可追溯、足够干净的上下文。否则它读得越多，越容易在噪音里编出一个看似完整的答案。

所以我现在越来越关心“给 AI 的上下文”这件事。

我最近在整理一个 personal-background 类型的系统。它表面上看像是个人资料库：profile、preferences、constraints、episodes、notes。实际我更希望它成为 AI 协作的基础设施。

很多时候，AI 不知道我是谁，不知道我的沟通习惯，不知道我对风险的偏好，也不知道某些项目里反复踩过哪些坑。每次新会话重新解释，效率很低，而且解释的颗粒度也不稳定。

如果这些信息能沉淀下来，Agent 就不只是“这次帮我写一段代码”，而是可以带着稳定背景参与工作：

这些东西不是简历，也不是给别人看的自我介绍。它们更像是给协作系统用的“工作记忆”。

这段时间我也看了不少自己和 Codex、Claude Code 的历史记录。里面有大量临时任务：生产问题排查、代码审查、发布、个人资料整理、产品讨论、家庭项目设想。

单独看每条聊天，它们都很碎。放在一起看，会出现一些稳定模式：

这就是为什么我不想只把 AI 当成一次性问答工具。真正有价值的是：聊天能不能变成记忆，记忆能不能变成规则，规则能不能反过来改善下一次协作。

另一个比较有趣的实验是 Vibe Lamp。它是一个给 AI coding agent 用的实体状态灯：Agent 工作时亮蓝色，需要人介入时亮红色，完成时亮绿色，连接丢失时亮琥珀色。

这个项目看起来像玩具，但它背后的问题很真实：当 AI Agent 变成后台协作者以后，人怎么知道它现在在干什么？

传统软件开发里，人的注意力和工具界面绑定得很紧。你看着 IDE，看着终端，看着 CI。Agent 出现以后，很多任务可能在后台跑，甚至多个会话同时跑。如果所有状态都藏在窗口里，人就很容易漏掉“需要你确认”的时刻。

所以我更愿意把它理解成一种 ambient display：不是增加一个复杂仪表盘，而是用一个低干扰的物理信号告诉你，协作系统现在处于什么状态。

这也是我喜欢这个小项目的原因。它把 AI 协作从屏幕里拉出来了一点。

现在关于 AI 编程的讨论，经常会走向一个方向：能不能全自动？能不能自己写、自己测、自己发？

我对这个方向没那么兴奋。

我更关心的是可控：任务边界是否清楚，修改是否可审查，测试是否真实跑过，生产写入是否有确认，多个 Agent 是否会互相污染工作区，历史上下文是否可追溯。

自动化当然重要，但自动化如果没有边界，很容易把小问题变成大事故。尤其是在业务系统、财务数据、生产环境这些场景里，快不是第一目标，稳和可解释才是。

所以对我来说，AI Agent 工作流不是“把人拿掉”，而是让人从重复劳动里出来，去做更高质量的判断。

我接下来还会继续整理这几件事：

这些东西短期看都不像一个完整产品，更像是一组互相连接的实验。但我觉得方向是对的：未来的软件工作，不只是人写代码，也不是 AI 替人写代码，而是人、Agent、知识、流程一起组成一个更大的系统。

这个系统能不能长期稳定地工作，才是最值得研究的地方。