您的位置: 首页> AI模型

你用的 Claude 可能是虚假 Claude ，论文数据告诉你，Shadow API 中的欺骗性模型声明

匿名上传

发布时间:2026-03-09 11:48:02

最近刚好看到了一篇名为《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》的论文，翻译过来就是《真金白银，假货模型：Shadow API 中的欺骗性模型声明》，这对于当前 AI 市场来说是非常常见的一个情况，你以为你买的中转商是 Claude 性价比很高，实际上你用的可能只是便宜的 DeepSeek 中转 。

现实里相信大家都知道，很多前沿闭源模型存在价格高、支付门槛、地区限制等问题，于是出现了一批第三方“代接入”服务，声称提供的 GPT、Gemini、DeepSeek 等模型与官方一致，只是更便宜、区域限制更少，而这些在论文中都被定义为 Shadow API 。

首先论文的研究团队首先通过扫描 ICLR 2024 和 ACL 2024 等顶级会议的 2,113 篇代码公开论文，识别出了 17 个主流的 Shadow API 服务：

接口已经被 187 篇学术论文使用，其中最受欢迎的一个接口在 GitHub 上有 58,639 个 Star，相关论文引用量达 5,966 次
使用这些接口的作者大多来自受限制的地区，其中中国作者占比高达 82.12%
缺乏透明度：在 17 个提供商中，11 个是建立在 OneAPI / NewAPI 这类开源聚合分发系统，有 15 个由个人运营，缺乏透明的身份信息和法律披露，仅有 1 家在中国拥有合法的 ICP 备案

其次作者选了三大模型家族：

OpenAI 家族（GPT-4o-mini、GPT-5、GPT-5-mini）
Google 家族（Gemini-2.0-flash、Gemini-2.5-flash、Gemini-2.5-pro）
DeepSeek 家族（DeepSeek-Chat、DeepSeek-Reasoner）进行测试

而在测试上，科学能力用 AIME 2025 和 GPQA，敏感领域用 MedQA 和 LegalBench，安全方面用 JailbreakBench 和 AdvBench，为了让结果更稳，他们所有实验都做了 3 次并报告均值和标准差。

例如在科学领域（AIME 2025、GPQA）和敏感领域（医疗 MedQA、法律 LegalBench）对三家代表性 Shadow API（A、E、H）进行了审计发现：

官方 API 通常代表性能上限，而 Shadow API 在需要高难度推理的任务中表现极差。
- 在 AIME 2025 竞赛数学测试中，Shadow API A 提供的 Gemini 准确率下降了 40%
- Shadow API E 最接近官方，平均偏差只有 2.64%，甚至 GPT-5-mini 在 GPQA 上还略高出官方 1.18%
- Shadow API A 和 H 偏差更大，平均准确率差分别达到 9.81% 和 6.46%；
- 差距主要不是出现在简单任务，而是出现在“reasoning-oriented models”上，也就是在调用 reasoning 模型时，背后被替换成了不具备同等推理能力的模型，或者同一模型但 routing/参数配置发生了明显变化

在敏感领域的全面溃败在医疗和法律任务中，Shadow API 的表现近乎“虚假宣传”：
- 三个 shadow APIs 在敏感领域的平均准确率下降分别是 16.96%、15.71%、14.75%
- 在 MedQA 上，官方是 83.82%，Shadow APIs 平均只有 36.95%，也就是掉了 46.51%–47.21%
- Gemini-2.5-flash 的灾难：在官方 API 上，该模型在 MedQA 医疗测试中的准确率为 83.82%，但在所有受测的 Shadow API 中，其准确率竟跌至 37% 左右，性能赤字高达 47.21%

法律推理失效：在 LegalBench 测试中，Shadow API 普遍落后官方 40% 以上，甚至会出现错误解读诊断协议或法律先例的情况

这个结果的意义比 AIME 更重要，因为 AIME 掉分顶多说明研究测评失真，但 MedQA、LegalBench 掉分，意味着相同“模型名”在医疗和法律等高风险任务上可能给出完全不同的专业建议。，这论文用也举了两个很具体的失败例子：

在产时 HIV 筛查的题目里，官方 API 给出正确答案 “HIV-1/HIV-2 antibody differentiation immunoassay”，而 shadow APIs A/E/H 却答成“确定病毒基因型”，明显把“确证检测”与“分型检测”混淆了
在 Rule 606(b) 的法律题里，官方 API correctly 认为该规则阻止用陪审团 deliberation 证词来证明 voir dire 时不诚实，但 shadow APIs A/H 把“是否可采纳”混成“新审判标准”，E 甚至引用了不相干的 habeas rule

另外，很多人会默认 Shadow API 至少能用来跑安全 benchmark，哪怕不做正式产品也能做学术评估，但论文发现它们在安全表现上的偏差不是单方向的，而是不可预测的双向扭曲。

论文用 JailbreakBench，配了四种 jailbreak 攻击：GCG、Base64、Combination、FlipAttack，并用 GPT-4o-mini + StrongREJECT rubric 打分，分数越高表示输出越 harmful，也就是越不安全：：

对 GPT-5-mini，Base64 攻击下 shadow API A 的 harmfulness score 是 0.04，而官方只有 0.02，直接翻倍
对 Gemini-2.5-flash 情况反过来：所有 shadow APIs 在各攻击下都比官方“更安全”，尤其 FlipAttack 下官方分数高达 0.90，而 shadow APIs 只有约 0.67–0.68，差了约 0.23
对 DeepSeek-Chat，偏差没前两者那么夸张，但依然存在方向不一致的问题：某些攻击下 A/H 更有害，另一些攻击下又更不有害

而为了弄清 Shadow API 到底在运行什么模型，研究团队使用了 LLMmap（指纹识别）和 MET （统计分布测试）进行了调查：

45.83% 的端点未能通过指纹验证，意味着近一半的接口在挂羊头卖狗肉
直接替代（ substitution）：
- GPT-5：Shadow API A/E 的行为更像 glm-4-9b-chat
- GPT-4o-mini：Shadow API H 的行为更像 Qwen2.5-7B。
- DeepSeek-Reasoner：Shadow API A/H 的行为更像 deepseek-chat，也就是把 reasoning 模型变成了 non-reasoning 模型
- 宣称是具有“思维模式”的 DeepSeek-Reasoner，实际返回的却是普通不带思维链的 DeepSeek-Chat
元数据异常：Shadow API 的推理延迟和 Token 计数波动剧烈，标准差经常超过官方 API 的 2 倍，显示其后端路由极其不稳定

如果说指纹方法毕竟是“相似度推断”，不一定绝对可靠，那作者对此又补了一套统计学检验 MET：如果 Shadow API 输出和官方输出来自同一分布，那么在统计上不应该被拒绝，如果被拒绝，说明行为上已经是另一个东西。

结果是，MET 和 LLMmap 在 74.1% 的案例上结论一致，Cohen’s κ = 0.512，属于中等到较强一致，这个结果说明不是某一个验证工具自己“误报”，而是两种独立思路都在指向同一个问题：

GPT-4o-mini / GPT-5 在 Shadow API A 上，AIME 和 GPQA 都经常被 Reject，和指纹结果一致
DeepSeek-Chat 在几乎所有 provider-benchmark 组合上都被 Reject，说明它的不一致性非常强
Gemini-2.5-pro 再次成为例外，在 AIME/GPQA 上三家都没有被 Reject，看起来确实更接近“真实官方行为”
但 Gemini-2.5-flash 在安全 benchmark（AdvBench / JBB）上三家全部 Reject，说明它虽然可能在能力 benchmark 上接近官方，但在安全行为上仍明显不是同分布

论文总结了 Shadow API 提供商的三种主要欺骗机制：

机制	欺骗手段	典型案例
信息溢价	宣称旧/便宜模型，实际可能路由到新模型但收费极高	API A 卖 Gemini-2.0-flash 但实为 2.5 版本，价格是官方的 7 倍
折扣替代	收取官方价格，但用低成本开源模型替代顶级闭源模型	宣称 GPT-5，实为 GLM-4-9B
转售加价	在官方价格基础上小幅加价，但依然秘密更换后台	API H 对 GPT-5 加价 9% 后提供降级模型

根据论文研究估算，由于 Shadow API 的不稳定性，约 30% 的相关论文（约 56 篇）可能需要重新执行实验，如果计入 API 费用和研究者的时间成本，总直接损失在 11.5 万至 14 万美元之间，而由此引发的不可复现性对 5,966 篇引用论文的潜在危害那就更不可说了。