很多兄弟在用 AI 画图时,最大的痛苦就是“抽卡”:Prompt 输 进去,出的图全靠模型心情。尤其是想做系列人物或者 IP 时,同一套提示词,这张出的是 UX 设计师,下一张可能就变成了产品经理,脸完全对不上。

今天记录一下我折腾 Gemini CLI 技能(Skill)的探索过程, 带大家看看如何通过自动化逻辑把“随机性”彻底干掉。

一、 翻车现场:文生图的“随机开盲盒”

起初,我直接在 CLI 里调用画图工具,想要一个“可爱的 UX 设计师”:

模型调用了 generate_image(文生图)MCP。出来的结果就是下面这张图:

说实话,图画得不差,但很不符合预期

  1. 没个性:就是谁家阿姨,请领走。
  2. 不可持续:我想让这个角色做一个“点赞”或者“喝咖啡” 的动作,再次生成时,出来的完全是另一个人。

这就是典型的“抽卡”,你永远不知道下一张图长什么样。

二、 发现真理:edit_image 才是稳定输出的钥匙

我开始翻看 MCP 的文档,发现我之前一直忽略了一个神器:edit_image

  • generate_image:适合从 0 到 1 开荒,但它没有“记 忆”。
  • edit_image:它可以基于一张已有的参考图进行修改。

我的思路瞬间通了:如果我能让 Gemini 记住我的“基准图”,然后每次都通过 edit_image去微调动作或场景,不就能实现“人像一致性”了吗?

三、 硬核解法:手搓 smart-image-generator 技能

为了让这个过程自动化,我写了一个 Gemini Skill。它的核心 逻辑非常暴力:只要检测到我有参考图,就强行切换模式。

下面是这个技能的完整定义(存放在 ~/.gemini/skills/smart-image-generator.md):


# Smart Image Generator Skill



## 1.  决策路由

当用户要求画人像时,自动分析上下文:



*   **场景 A:没有参考图(开荒期)**
*   
    - 调用 `generate_image`    - 
    - 目标:生成一张高质量的基准原图。
    - 


*   **场景 B:有参考图(迭代期)**
*   
    - 调用 `edit_image`    - 
    - 逻辑:锁定参考图的人物面部特征,仅根据 Prompt 修改姿势 or 环境。
    - 


## 2. ️ 自动化工作流

1. 生成图片后,自动移动到桌面并按语义命名。
2. 自动调用 `r2-upload-proxy` 上传到 Cloudflare R2 图床 。
3. 直接返回远程链接。

四、 最终成品:我非常满意的“一致性”表现

配置好这个技能后,我再次尝试:给之前的基准图换个动作。

这一次,Gemini 没有再给我开盲盒,而是老老实实地调用了 edit_image

出来的成果就是下面这张,也就是我非常满意的版本:

这张图我非常满意:

  • 五官 100% 还原:还是那个熟悉的妹子,没有“整容”。
  • 动作精准:按我的要求完成了姿势切换。
  • 风格完美衔接:光影、色彩和基准图完全一致。

五、 总结

AI Agent 不应该只会聊天,它应该学会组合工具

通过把 MCP 的底层能力Skill 的逻辑判断 结合,我把一个原本需要不断“重试”的随机过程,变成了一个工业级的稳定流水线。

如果你也在受困于 AI 生成的不确定性,别光顾着改 Prompt 了,去写个 Skill 吧。

毕竟,架构的稳定性永远胜过提示词的玄学。

本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:alixiixcom@163.com