返回博客
工程实践2026-03-26· 7 分钟阅读

AI 原生软件开发:我们的工作流程

我们不是「用 AI 辅助开发」,而是把 AI 深度嵌入开发流程的每一个环节。本文介绍我们的 5 阶段开发工作流,以及它与传统软件开发公司的本质差异。

「我们用 AI 编程」——这句话现在几乎每家软件公司都在说。但「用 AI 辅助编程」和「AI 原生开发流程」是两件完全不同的事。

前者是:开发者写代码,遇到问题问一下 AI,AI 给个建议,开发者判断采不采纳。AI 是工具,和 Google 搜索差不多。

后者是:AI 参与每一个阶段,但每一步都有结构约束,决策基于代码事实而非 LLM 想象。这是我们实际的工作方式。

五个阶段,每步基于代码事实

阶段一:需求精化(/idea)

接到需求后,我们不直接开始写代码。/idea 先查询知识图谱,找到与需求最相关的现有模块,然后基于代码事实进行追问:

  • 「这个模块的扇入是 12,新功能直接加进去还是拆出独立模块?」
  • 「现有的 auth_middleware 覆盖了 7 条路由,这次的需求需要新增一条,兼容性怎么处理?」

3-7 轮追问后,输出 2-3 个技术方案 + 影响分析 + 可审阅的开发文档。客户和我们的工程师都在这个文档上对齐,然后才开始写代码。

阶段二:基于图谱写代码

开发时,每次需要理解一个不熟悉的模块,我们用 manon_searchmanon_graph,而不是靠人工阅读文件。每次 commit 后,manon_impact 自动分析影响传播,输出 0-100 风险评分。

高风险提交不是不做,而是要明确知道「我知道这次改动影响了哪里,我有意为之」。

阶段三:代码健康维护(/dao)

每个功能完成后,我们跑一次 /dao

  • 架构层和模块层的问题展示面板,人工决策
  • 代码层(死代码、循环依赖、过碎的函数)全自动修复,每步图谱验证

这样做的结果是:项目越做越干净,而不是传统项目那样越做越乱。

阶段四:测试覆盖(/tc)

/tc 扫描覆盖率数据,查询图谱获取实体的结构重要性(扇入高的函数更重要),生成优先级列表,然后按优先级写测试、跑测试、验证。

不是随机补测试,是按「这个函数被多少地方依赖」来排序。结构上最重要的代码先有测试保护。

阶段五:体验验证(/exp)

上线前,AI Agent 像真实用户一样操作产品。Playwright 驱动浏览器,真实点击、真实输入、读取真实日志。

最多 3 轮自动修复循环,每轮找到的问题都在代码层修复后重测。只有全部场景通过,才算完成。

与传统软件开发公司的对比

维度传统软件公司一码行云
需求分析 周级文档沟通,问题基于经验假设 图谱感知追问,1 天出开发文档,问题基于代码事实
代码理解 新模块上手 8-12 小时 30 分钟,准确率 95%+
影响评估 人工走查,依赖经验,容易漏 秒级影响传播图,0-100 风险评分
测试覆盖 30-50%,随机补测,覆盖死区多 图谱优先级驱动,61%+,结构重要的先覆盖
上线验证 人工测试,覆盖不全 AI 真实行为验证,多轮自动修复
技术债 堆积,项目后期越做越慢 每轮定期健康评分,主动清理,不积累
自证能力 客户无法验证开发质量 我们的产品就是用这套流程开发的

最强的证明:我们用这套流程开发自己的产品

所有上面说的,不是方法论文章,是我们实际在做的事。Manon、WorkClaw 的每一个版本都经过这个完整流程。我们在这个过程中积累的经验,直接转化为我们交付客户项目的能力。

如果你在考虑把软件开发外包出去,可以问一个简单的问题:这家公司有没有用 AI 开发自己的产品?他们能拿出真实的代码健康度数据吗?

我们可以。

我们接什么类型的项目

  • AI 应用开发:需要集成大模型、RAG、Agent 的应用,这是我们最熟的领域
  • 企业系统开发:ERP、CRM、OA 系统,或需要 AI 能力注入的现有系统改造
  • API 与后端服务:Python/TypeScript/Java 后端,特别是需要高可维护性的中台系统
  • 技术债清理:帮现有代码库做健康度评估和系统性重构

如果你有一个具体的项目想聊,欢迎联系我们。我们的习惯是:先理解问题,再说能不能做,以及怎么做。

想了解我们如何做软件开发?

我们把这套方法论用在每一个客户项目上。欢迎聊聊你的具体需求。

联系我们