轻松上网宝
68.40M · 2026-02-06
很多兄弟在用 AI 画图时,最大的痛苦就是“抽卡”:Prompt 输 进去,出的图全靠模型心情。尤其是想做系列人物或者 IP 时,同一套提示词,这张出的是 UX 设计师,下一张可能就变成了产品经理,脸完全对不上。
今天记录一下我折腾 Gemini CLI 技能(Skill)的探索过程, 带大家看看如何通过自动化逻辑把“随机性”彻底干掉。
起初,我直接在 CLI 里调用画图工具,想要一个“可爱的 UX 设计师”:
模型调用了 generate_image(文生图)MCP。出来的结果就是下面这张图:
说实话,图画得不差,但很不符合预期:
这就是典型的“抽卡”,你永远不知道下一张图长什么样。
edit_image 才是稳定输出的钥匙我开始翻看 MCP 的文档,发现我之前一直忽略了一个神器:edit_image。
generate_image:适合从 0 到 1 开荒,但它没有“记 忆”。edit_image:它可以基于一张已有的参考图进行修改。我的思路瞬间通了:如果我能让 Gemini 记住我的“基准图”,然后每次都通过 edit_image去微调动作或场景,不就能实现“人像一致性”了吗?
smart-image-generator 技能为了让这个过程自动化,我写了一个 Gemini Skill。它的核心 逻辑非常暴力:只要检测到我有参考图,就强行切换模式。
下面是这个技能的完整定义(存放在 ~/.gemini/skills/smart-image-generator.md):
# Smart Image Generator Skill
## 1. 决策路由
当用户要求画人像时,自动分析上下文:
* **场景 A:没有参考图(开荒期)**
*
- 调用 `generate_image`。
-
- 目标:生成一张高质量的基准原图。
-
* **场景 B:有参考图(迭代期)**
*
- 调用 `edit_image`。
-
- 逻辑:锁定参考图的人物面部特征,仅根据 Prompt 修改姿势 or 环境。
-
## 2. ️ 自动化工作流
1. 生成图片后,自动移动到桌面并按语义命名。
2. 自动调用 `r2-upload-proxy` 上传到 Cloudflare R2 图床 。
3. 直接返回远程链接。
配置好这个技能后,我再次尝试:给之前的基准图换个动作。
这一次,Gemini 没有再给我开盲盒,而是老老实实地调用了 edit_image。
出来的成果就是下面这张,也就是我非常满意的版本:
这张图我非常满意:
AI Agent 不应该只会聊天,它应该学会组合工具。
通过把 MCP 的底层能力 和 Skill 的逻辑判断 结合,我把一个原本需要不断“重试”的随机过程,变成了一个工业级的稳定流水线。
如果你也在受困于 AI 生成的不确定性,别光顾着改 Prompt 了,去写个 Skill 吧。
毕竟,架构的稳定性永远胜过提示词的玄学。