您的位置: 首页> AI模型

彻底告别 AI 画图“抽卡”：我用 Gemini Skill + MCP 实现了人像一致性

匿名上传

发布时间:2026-02-06 14:36:01

很多兄弟在用 AI 画图时，最大的痛苦就是“抽卡”：Prompt 输进去，出的图全靠模型心情。尤其是想做系列人物或者 IP 时，同一套提示词，这张出的是 UX 设计师，下一张可能就变成了产品经理，脸完全对不上。

今天记录一下我折腾 Gemini CLI 技能（Skill）的探索过程，带大家看看如何通过自动化逻辑把“随机性”彻底干掉。

一、翻车现场：文生图的“随机开盲盒”

起初，我直接在 CLI 里调用画图工具，想要一个“可爱的 UX 设计师”：

模型调用了 generate_image（文生图）MCP。出来的结果就是下面这张图：

说实话，图画得不差，但很不符合预期：

没个性：就是谁家阿姨，请领走。
不可持续：我想让这个角色做一个“点赞”或者“喝咖啡” 的动作，再次生成时，出来的完全是另一个人。

这就是典型的“抽卡”，你永远不知道下一张图长什么样。

二、发现真理：`edit_image` 才是稳定输出的钥匙

我开始翻看 MCP 的文档，发现我之前一直忽略了一个神器：edit_image。

generate_image：适合从 0 到 1 开荒，但它没有“记忆”。
edit_image：它可以基于一张已有的参考图进行修改。

我的思路瞬间通了：如果我能让 Gemini 记住我的“基准图”，然后每次都通过 edit_image去微调动作或场景，不就能实现“人像一致性”了吗？

三、硬核解法：手搓 `smart-image-generator` 技能

为了让这个过程自动化，我写了一个 Gemini Skill。它的核心逻辑非常暴力：只要检测到我有参考图，就强行切换模式。

下面是这个技能的完整定义（存放在 ~/.gemini/skills/smart-image-generator.md）：


# Smart Image Generator Skill



## 1.  决策路由

当用户要求画人像时，自动分析上下文：



*   **场景 A：没有参考图（开荒期）**
*   
    - 调用 `generate_image`。
    - 
    - 目标：生成一张高质量的基准原图。
    - 


*   **场景 B：有参考图（迭代期）**
*   
    - 调用 `edit_image`。
    - 
    - 逻辑：锁定参考图的人物面部特征，仅根据 Prompt 修改姿势 or 环境。
    - 


## 2. ️ 自动化工作流

1. 生成图片后，自动移动到桌面并按语义命名。
2. 自动调用 `r2-upload-proxy` 上传到 Cloudflare R2 图床 。
3. 直接返回远程链接。