意项
39.91M · 2026-03-23
先说结论:我跑通了一套能连续运行 10 小时以上、全自动处理复杂全栈开发的本地 AI 编程工作流。
这套系统不仅能写代码,还能自己跑测试、自己修 Bug、自己管理数据库,甚至还能组建一个“AI 工程师团队” 来并发干活。
最关键的是,我这次实战用的核心大脑,是阿里刚刚开源的Qwen3.5-Plus,特别合适,原因放后面说。
接下来,直接交作业。
大家用现在的 AI 编程工具(Cursor, Windsurf, 甚至 Claude Code)一定有这个体会:太粘人了。
结果就是,名义上是 AI 帮你写代码,实际上是你给 AI 当保姆。
我就想:能不能做一个真正的“全自动开发系统”?
我把需求扔给它,它自己去拆解任务、自己去执行、自己去验证,只有在关键节点才需要我确认。
之前我做过一个尝试,用一段超长 Prompt 让 AI 帮我写了一个 TikTok 视频生成网站。
效果还行的,帮我完成了最开始10%左右的工作量。
但只要时间一长,上下文就爆,逻辑就开始乱。
于是,我痛定思痛,结合了 Claude Code 的最新特性和工程化思维,搞出了AI 自治开发系统 2.0,并且进一步升级到了引入 Agent Team 的 3.0 版本。
这次实战的对象,依然是这个 TikTok UGC 视频生成平台 (后来改名叫 TKCreator),但我这次要用 Qwen3.5-Plus 把剩下 80% 的硬骨头(支付、鉴权、视频生成 API 对接、自动化测试)全部啃下来。
要解决 AI “失忆”和“乱跑”的问题,单纯靠 Prompt 是不够的,必须要有架构约束。
我在 2.0 版本里,引入了一套基于文件的状态管理系统。它的核心逻辑是:不要让 AI 记在脑子里,要让它记在文件里。
我把 AI 当成一个「轮班工人」。每个 AI 启动时都是全新的,它不需要知道上一个 AI 跟用户聊了什么,它只需要看交接文档。
所以,这套系统的基础设施由以下几个核心文件组成(建议直接抄作业):
这是 AI 的任务清单。必须用 JSON 格式,因为模型对 JSON 的破坏性比 Markdown 小得多。
{
"features": [
{
"id": "F-001",
"category": "backend",
"description": "实现 Sora2 视频生成 API 对接",
"status": "pending",
"passes": false
}
]
}
下图就是 AI 说自己完成了feature_list.json里的 F-00X 任务
用于记录高层级的决策和进度。例如:“2026-02-16: 鉴权模块已完成,但 Token 刷新逻辑有 Bug,需修复。”
这是 AI 的行为准则,每次启动都会读一次来恢复记忆。
# AI 自治开发协议## 核心工作流
每次启动时,必须严格按顺序执行:
1. **环境自检**:运行 `source init.sh`。
2. **状态同步**:读取 `feature_list.json` 和 `progress.txt`。
3. **任务选择**:选择优先级最高且 `status: pending` 的任务。
4. **严格验证**:修改 UI 后必须截图验证;修改逻辑后必须跑通测试。
把项目关键要启动的脚本都写在一起,防止 AI 每次都要重新摸索怎么跑项目。
有了这些文件还不够,我们需要一个脚本来驱动 AI 不断循环工作。我写了一个 run_autonomy.py
它的逻辑非常简单粗暴:
这就是 2.0 版本的核心:把开发过程变成了一个状态机。AI 不再是对话者,而是执行者。
整个逻辑是这样:
在 2.0 系统的实战中,我特意选用了 Qwen3.5-Plus。
在 2.0 架构下,Qwen3.5-Plus 顺利帮我完成了 TKCreator 的大部分基础功能复刻。
但到了“最后一公里” ——也就是生产环境对接时,问题来了。
在对接 Sora2 、Nano Banana 的真实 API 和全链路测试时,我发现单线程的 2.0 系统开始吃力了。
于是,我决定启用 Claude Code 最近很火的新功能:Agent Team。
什么是 Agent Team?
简单说,就是让 AI 变成一个团队。有一个 Lead Agent (CTO) 负责统筹,它不写代码,只负责分派任务;下面有几个 Specialist Agent (专家) 并发干活。
我重新设计了 TKCreator 的开发团队:
这是一个实验性功能,需要一些配置才能激活:
{
"experimental": {
"agent_team": true
},
"permissions": {
"auto_approve_tools": ["TeamCreate"]
}
}
可以在终端测试环境变量:export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
整体逻辑是这样:
开启后,我直接把下面这段 Prompt 扔给了 Claude Code(Qwen3.5-Plus 后端):
# Role & Objective
你现在的角色是 **TKCreator 项目的 CTO**。我们要升级到 **3.0 Agent Team 架构**,完成生产环境冲刺。
# Team Structure
请初始化以下 Agent Team:
1. **Lead (你)**:负责统筹。
2. **@backend-integrator**:专攻 FastAPI,对接 Sora2/Nano Banana 真实接口(文档见附件)。
3. **@frontend-polisher**:专攻 Next.js,优化 UI。
4. **@qa-engineer**:使用 Playwright 进行 E2E 测试。如果测试失败,直接向 Backend Agent 报错。
# Execution Rules1. **Parallel Execution**: 让后端写接口的同时,前端优化加载状态。
2. **No Mock**: 必须调用真实的 AI 模型接口。
3. **Local Storage**: 暂时将生成文件存放在 `/public/uploads`。
我看着终端里,Lead Agent 迅速分配了任务。
两者几乎是同时提交了代码。
紧接着,QA Agent 启动了。
它自动打开了浏览器,注册了一个新用户,充值了积分,点击了生成视频。
一分钟后,测试报错:“Sora2 API 返回 401 Unauthorized”。
QA Agent 没有瞎改代码,而是直接并在 Log 里 @ 了 Backend Agent:“API Key 似乎没生效,请检查 .env 加载逻辑。”
Backend Agent 秒回:“收到,正在检查 config.py。”
这种“团队协作” 的感觉,真的太像一个真实的人类开发小组了。
经过大约 40 分钟的“团队协作”,TKCreator 的生产环境版本部署完成。