Salesforce押注于模拟商业环境中的严格测试,以解决企业人工智能领域的最大难题:那些在演示中表现优异,却在混乱的企业实际运营中失效的智能体。
这家云软件巨头本周公布了三大AI研究计划,包括被称作商业运营"数字孪生"的CRMArena-Pro平台,可在AI智能体部署前进行压力测试。该发布正值企业面临大规模AI试点失败之际,近期Salesforce数百个客户实例遭入侵事件又引发了新的安全担忧。
"飞行员不会在暴风雨中学习飞行;他们通过飞行模拟器接受训练,在极端挑战中做好准备。"Salesforce首席科学家兼AI研究负责人Silvio Savarese在发布会上表示,"同样地,AI智能体也能从模拟测试和训练中获益,在部署前就准备好应对日常业务场景中的不确定性。"
这项研究反映了企业对AI落地日益增长的挫败感。MIT最新报告显示95%的企业生成式AI试点未能投入生产,而Salesforce自身研究表明,大语言模型在复杂商业场景中的成功率仅35%。
企业AI的数字孪生:Salesforce如何模拟真实商业混乱
CRMArena-Pro代表着Salesforce弥合AI承诺与实际表现差距的尝试。与测试通用能力的现有基准不同,该平台使用合成但真实的商业数据,在客户服务升级、销售预测和供应链中断等真实企业任务上评估智能体。
"如果合成数据生成不谨慎,可能导致对智能体实际表现的误导性或过度乐观的评估。"领导CRMArena-Pro开发的Salesforce研究经理Jason Wu解释道。
该平台在真实Salesforce生产环境中运行(而非玩具设置),采用由具备相关商业经验的领域专家验证的数据。支持B2B和B2C场景,能模拟捕捉真实对话动态的多轮交流。
Salesforce一直将自身作为"零号客户"内部测试这些创新。"在将任何创新推向市场前,我们会先让内部团队进行测试。"Salesforce总裁兼CTO Muralidhar Krishnaprasad在发布会上表示。
决定AI智能体是否具备企业级能力的五项指标
除模拟环境外,Salesforce还推出了CRM智能体基准测试,从准确性、成本、速度、信任与安全、环境可持续性五个关键企业指标评估AI智能体。
可持续性指标尤为突出,帮助企业根据任务复杂度匹配模型规模,在保持性能的同时减少环境影响。"通过消除模型过载的干扰,该基准为企业提供了数据驱动的清晰路径,将合适模型与合适智能体配对。"公司声明称。
这项基准测试解决了IT领导者面临的实际挑战:在几乎每天都有新AI模型发布的当下,判断哪些模型适合特定商业应用变得愈发困难。
混乱的企业数据为何成为AI部署成败关键
第三项计划聚焦可靠AI的基本前提:干净统一的数据。Salesforce的"账户匹配"功能使用微调语言模型,自动识别并整合系统中的重复记录,能识别"The Example Company, Inc."和"Example Co."代表同一实体。
这项数据整合工作源于Salesforce研究团队与产品团队的合作。"数据云中的身份解析本质上意味着,即便是最简单的用户,在任何公司内部多个系统中都有无数ID。"Krishnaprasad解释道。
某大型云服务商客户使用该技术实现95%匹配率,通过消除手动跨屏幕核对账户的需求,为销售人员每次连接节省30分钟。
OAuth令牌窃取事件暴露AI客户工具漏洞
这些发布正值安全担忧加剧之际——本月早些时候影响超700家Salesforce客户的数据窃取事件。据谷歌威胁情报组称,黑客利用Salesloft旗下Drift聊天智能体的OAuth令牌入侵Salesforce实例,窃取AWS、Snowflake等平台凭证。
该事件暴露了企业依赖的第三方AI客户互动工具的漏洞。Salesforce已暂时将Salesloft Drift从AppExchange应用市场下架等待调查。
AI演示与企业现实的差距超乎想象
模拟与基准测试计划反映出更广泛的共识:企业AI部署需要的不仅是令人印象深刻的演示视频。真实的商业环境包含遗留软件、不一致的数据格式和复杂工作流,足以让最先进的AI系统失控。
"我们今天讨论的核心是确保一致性的问题——如何从直接将语言模型插入企业用例时的不尽人意的表现,提升到实现更高性能的水平。"Savarese在发布会上表示。
Salesforce的方法强调AI智能体需要在多样化场景中可靠工作,而非仅擅长狭窄任务。该公司提出的"企业通用智能"(EGI)概念聚焦于构建既能干又能在复杂商业任务中保持一致的智能体。
随着企业持续投资AI技术,CRMArena-Pro等平台的成功与否,将决定当前这波AI热潮会转化为可持续的商业变革,还是成为又一个技术承诺超越实际交付的案例。
这些研究成果将在10月的Salesforce Dreamforce大会上展示,届时公司预计将宣布更多AI进展,以维持在日益竞争的企业AI市场中的领导地位。