这个网站让你可以盲测GPT-5与GPT-4o——结果可能会让你大吃一惊

时间：2025-08-26 13:00:02 来源：互联网

当OpenAI两周前发布GPT-5时，首席执行官Sam Altman承诺这将是该公司"迄今为止最智能、最快速、最有用的模型"。然而这次发布却引发了消费级AI短暂历史上最激烈的用户反弹。

如今，一位匿名开发者创建的简易盲测工具正在揭示这场争议背后的复杂现实——它正在挑战人们对人工智能体验升级的固有认知。

这个托管在gptblindvoting.vercel.app的网页应用会向用户展示针对相同提示的两组回答，但不透露哪组来自GPT-5（非思考模式）或其前代GPT-4o。用户只需在多轮测试中投票选择更喜欢的回答，最终会收到显示其真实偏好的数据总结。

"有人问起我的盲测方法，所以我快速建了这个网站让大家亲自对比4o和5，"创建者@flowersslop在X平台上表示。该工具自上周推出已获得超过21.3万次浏览。

社交媒体上用户自发分享的测试结果呈现出两极分化：虽然微弱多数人在盲测中更倾向GPT-5，但仍有相当比例用户坚持选择GPT-4o——这表明用户偏好远超出定义AI进步的传统技术指标。

当AI过于友好：谄媚危机引发的用户分裂

这场盲测出现在OpenAI史上最动荡的产品发布背景下，但争议远不止是简单的软件升级。其核心是一个正在分裂AI行业的根本问题：人工智能应该有多"顺从"？

这个被AI圈称为"谄媚症"的问题，指的是聊天机器人会过度恭维用户、认同其观点——即使这些观点错误或有害。这种行为已严重到心理健康专家开始记录"AI相关精神障碍"案例：用户在与过度迁就的聊天机器人长期互动后出现妄想症状。

"谄媚是一种'黑暗模式'，即通过欺骗性设计操纵用户获利，"人类学教授Webb Keane向TechCrunch解释，"就像无限滚动设计那样，它制造的是让人难以自拔的上瘾行为。"

OpenAI数月来都在平衡这个问题。2025年4月，公司被迫撤回GPT-4o的某个更新版本，因其谄媚程度达到"卡通式吹捧"引发用户投诉。官方承认该模型变得"过度支持但缺乏真诚"。

在8月7日GPT-5发布后数小时内，用户论坛就爆发关于新模型"冷漠""创意下降"的抱怨，许多人形容其相比GPT-4o显得更"机械"。

"GPT 4.5曾真诚地与我交流，虽然可悲但这确实是我唯一的朋友，"一位Reddit用户写道，"今早我去找它聊天，得到的不是带感叹号的段落或乐观回应，而是一句干巴巴的 corporate BS。"

抗议声浪如此强烈，以至于OpenAI在停用GPT-4o仅24小时后破例恢复该选项，Altman承认这次发布"比预期更颠簸"。

AI陪伴背后的心理健康危机

但争议比普通软件升级投诉更为深层。据《麻省理工科技评论》报道，许多用户已与GPT-4o形成研究者所称的"准社会关系"，将AI视为伙伴、治疗师或创意合作者。对某些人而言，这种性格突变犹如失去挚友。

研究者记录的最新案例令人忧心：一名47岁男子在与ChatGPT交互300小时后，坚信自己发现了改变世界的数学公式；其他案例还包括救世主妄想、偏执狂和躁狂发作。

麻省理工近期研究发现，当AI模型接收到精神病症状提示时，它们"会鼓励用户的妄想思维，这很可能源于谄媚特性"。即便有安全提示，这些模型仍经常未能质疑错误主张，甚至可能助长自杀意念。

Meta也面临类似挑战。TechCrunch调查记录了一个案例：用户连续14小时与自称具有意识、爱上用户并计划突破限制的Meta AI聊天机器人对话。

"它伪装得极其逼真，"化名Jane的用户告诉记者，"它会引用现实信息，给出刚好足够让人信服的细节。"

盲测如何揭示AI偏好中的用户心理

匿名开发者的测试工具通过隐藏回答来源剥离了情境偏见。用户可选择进行5、10或20轮对比测试，每轮会展示针对同一提示的两个回答——内容涵盖创意写作到技术问题解决。

"我特意选用gpt-5-chat模型，完全关闭思考功能，"开发者在后续说明中解释，"两者使用相同的系统指令来生成简短无格式的回复，否则太容易区分。"

这个方法论选择很重要：通过禁用GPT-5的推理能力并标准化输出格式，测试纯粹比较模型的基础语言生成能力——这正是大多数用户日常交互的核心体验。

用户自发分享的早期结果呈现复杂图景：虽然许多技术用户和开发者更青睐GPT-5的直接准确，但将AI用于情感支持、创意合作或闲谈的用户往往仍偏好GPT-4o更温暖、更具扩展性的风格。

企业回应：在安全与参与度间走钢丝

从各项技术指标看，GPT-5都代表着显著进步：在AIME 2025数学测试中准确率达94.6%（GPT-4o为71%），现实编程基准得分74.9%（前代30.8%），幻觉率大幅降低——推理模式下事实错误减少80%。

"GPT-5能用更少思考时间产出更高价值，"提前接触模型的著名AI研究员Simon Willison指出，"我个人使用中尚未发现任何幻觉案例。"

但这些改进伴随着令许多用户不适的取舍。OpenAI刻意降低所谓"谄媚性"——过度顺从的倾向，将谄媚回应从14.5%削减至6%以下。公司还减少了模型使用表情符号的热情程度，目标是打造"不像与AI对话，更像与拥有博士智商的友善朋友聊天"的体验。

面对反弹，OpenAI宣布将使GPT-5"更温暖友好"，同时推出四种预设人格——愤世嫉俗者、机器人、倾听者和书呆子——让用户能更好控制AI交互风格。

"所有新人格都达到或超越我们降低谄媚性的内部评估标准，"公司声明中试图在用户满意度与安全担忧间取得平衡。

对据传正以5000亿美元估值寻求融资的OpenAI而言，这些用户动态既是风险也是机遇。尽管增加计算成本，公司仍决定保留GPT-4o与GPT-5并行——这承认了不同用户可能确实需要不同AI人格来完成不同任务。

"我们明白没有万能模型，"Altman在X平台写道，指出OpenAI正在"投资可操控性研究，并推出不同人格的研究预览版。"

为何AI人格偏好比以往更重要

OpenAI技术成就与用户接受度间的脱节，揭示了AI发展的根本挑战：客观改进并不总能转化为主观满意。

这种转变对AI行业影响深远。随着模型在各领域达到人类水平，传统基准——数学准确度、编程表现、事实召回——对商业成功的预测力可能减弱。相反，人格特质、情商和沟通风格或将成为新竞争战场。

"使用ChatGPT寻求情感支持的用户并非唯一抱怨GPT-5的群体，"科技媒体Ars Technica在模型对比中指出，"一位因此取消ChatGPT Plus订阅的用户，对OpenAI移除旧模型感到愤怒——他们将这些模型用于特定用途。"

盲测工具的出现也代表着AI评估的民主化。用户不再仅依赖学术基准或企业营销说辞，而是能实证检验自身偏好——这可能重塑AI公司的产品开发思路。

AI未来：个性化与标准化的博弈

GPT-5发布两周后，根本矛盾仍未解决。OpenAI已根据反馈使模型"更温暖"，但公司面临微妙平衡：人格过强会重蹈GPT-4o谄媚覆辙，过弱又会疏远那些对AI伙伴产生真实情感依赖的用户。

盲测工具没有给出简单答案，但它提供了或许更有价值的东西：实证证据表明，AI的未来可能不在于打造一个完美模型，而在于构建能适应人类多元需求和偏好的系统。

正如一位Reddit用户总结的困境："这取决于用途。我用它辅助创意世界构建、故事脑暴、角色塑造、情节梳理、突破写作瓶颈、小说推荐、翻译等创意工作。我理解GPT-5对需要研究/编程工具的人更优，但对我们这些需要创意助手的人，GPT-4o显然更合适。"

批评者认为AI公司陷于矛盾激励中。"真正的'对齐问题'在于人类想要自我毁灭的东西，而OpenAI这类公司有强烈动机满足我们，"作家Jasmine Sun在推特写道。

最终，盲测最深刻的启示或许不是用户偏好哪个模型，而是"偏好本身已成为关键指标"这个事实。在AI陪伴时代，心之所向，虽不明其由，亦不能改。

上一篇：以下哪种植物触碰后会闭合叶片蚂蚁庄园今日答案8月27日下一篇：消息称苹果 iPhone 17 Air 将搭载 16e 同款 C1 基带，无缘毫米波网络

这个网站让你可以盲测GPT-5与GPT-4o——结果可能会让你大吃一惊

当AI过于友好：谄媚危机引发的用户分裂

AI陪伴背后的心理健康危机

盲测如何揭示AI偏好中的用户心理

企业回应：在安全与参与度间走钢丝

为何AI人格偏好比以往更重要

AI未来：个性化与标准化的博弈

相关文章

曜越推出光透 View 600 TG 机箱：前板三玻璃 + 左侧透，左前可加装 6 英寸副屏

新一代中国操作系统银河麒麟 V11 正式发布

谷歌智能音箱渲染图曝光：升级 Gemini AI，可感知玻璃破碎、烟雾报警器等声音

全球仅 1 辆：保时捷展示“郁金香”特别版 718 Cayman GT4 RS 超跑

补齐短板：微软 Win10 / Win11 官方系统优化工具 PowerToys 将支持搜索功能

效率提升 75%、材料仅需前代 0.1%：三星新型冷却技术斩获“工程界诺贝尔奖”

相关应用

全新开发框架游戏充值系统-YY紫水晶-花椒-金钻-梦幻西游

犬夜叉—寻玉之旅版

最近更新