新教育
105.83M · 2026-03-23
数据的爆发式增长与业务对实时性的极致追求,驱动易车技术团队在实时湖仓建设上持续探索。目前易车已基于 Apache Doris + Paimon + Hive 构建了湖仓一体化数据平台,实现架构收敛统一:逐步替换 Druid、Kudu、HBase、MongoDB、ClickHouse 等近 10 种引擎。 广泛应用于实时多维分析、用户画像及标签体系、BI 报表(实时报表、仪表盘)等核心场景。在此基础上,团队进一步探索 Apache Doris + AI 的融合应用,为智能化业务提供实时、统一的数据底座。本文将具体讲述易车数据平台架构的演进及具体实践。
易车数据平台的数据源丰富多样,涵盖业务日志、业务数据库(RDS/自建库)、消息系统、接口数据、第三方 API 及应用程序等。
团队通过内部数据集成工具将多源数据统一接入数据平台:底层离线数仓以 Hive 为主、基于 Hudi 构建数据湖;半结构化数据则主要存储在 Elasticsearch、HBase、MongoDB 中。
在 OLAP 引擎层面,团队先后使用过 Kudu、Kylin、Druid、ClickHouse 等多种引擎,即席分析 MPP 架构方面则使用了 Impala、Spark、Presto 等计算引擎,为数据分析、实时大屏、实时指标、个性化推荐等上层应用提供服务。
然而,早期架构链路复杂,面临多重挑战:
为满足快速响应、统一架构等新需求,团队决定对湖仓架构进行持续迭代与升级。在引擎选型上,ClickHouse 曾是易车选择的过渡方案,但随着业务深入,其短板愈发凸显:
因此,团队开始评估新的 OLAP 引擎。Apache Doris 凭借以下优势成为最终选择:
综合以上考虑,团队最终选择 Apache Doris 作为核心 OLAP 引擎。在实际落地过程中,Doris 不仅在查询性能上表现稳定,其湖仓一体能力更是超出预期。
Apache Doris 的湖仓一体能力,体现在三个维度:
可扩展的多源数据连接:
便捷的跨源联邦查询:
高性能的数据处理
引入 Apache Doris 后,构建了全新的湖仓一体融合架构,整体设计如下图所示:
升级前后架构对比如下,可看到整体收益明显:
在 AI 技术迅猛发展的当下,Apache Doris 积极推动 Data + AI 的深度融合与创新,这与易车在 AI 业务领域的探索方向高度契合。在构建湖仓一体架构的基础上,易车数据团队进一步探索了 Doris + AI 的融合应用,将 Doris 打造为面向智能化场景的数据底座,赋能上层 AI 应用与智能代理。
易车对数据引擎在 AI 场景下的应用有着迫切需求,而 Apache Doris 4.0 版本 引入了向量检索、混合检索以及 AI 原生函数,使得结构化分析与语义检索能够在同一系统中完成。并提供了面向 Agent 的 MCP 交互能力,能够有效支撑易车在 AI 业务中的实践。
Apache Doris 天然支持多源联邦查询,可无缝对接 MySQL、Hive、PostgreSQL、Hudi 等异构数据源。这意味着,上层 AI 应用无需关心数据实际存储在何处,只需通过 Doris 即可统一访问数仓内的离线历史数据、实时增量数据以及业务库中的维度信息。这种能力为 AI 模型训练、特征工程、实时推理等场景提供了高效、统一的数据供给通道。
Apache Doris 开源了 Doris MCP 工具,为 AI 代理与数据平台的交互提供了标准化接口。团队基于 Doris MCP 及内部二次开发,构建了一套面向智能代理的数据服务层,支持通过 MCP 执行 SQL 查询、获取库表 Schema、列举表列表、检索字段信息等操作。这些能力被封装成可复用的 API,使得上层 AI 应用能够以自然语言或结构化方式快速获取所需数据上下文,极大降低了智能代理接入数据平台的复杂度。
易车基于 Apache Doris,已在多个智能化场景中落地应用,具体包括:
Doris 社区目前还在 AI 侧发力,未来易车数据团队也会持续跟进与参与 Doris MCP 的建设。此外,Apache Doris 4.0 版本已支持混合检索分析、AI 原生函数等。易车数据团队也将在此版本上进一步探索。
从多引擎混用到统一架构,从离线分析到实时智能,易车数据平台在 Apache Doris 的加持下,完成了从“支撑业务”到“驱动业务”的跨越。未来,随着存算分离架构的落地和 AI 能力的深度融合,我们将持续打造更高效、更智能的数据基础设施,为业务创新提供源源不断的数据动力。
当前易车数据平台主要运行在 Doris 2.0 版本之上,下一步将全面升级至存算分离架构。 通过存算解耦与冷热分层,进一步降低存储成本、提升查询效率,为业务增长释放更多资源。
云基础设施的成熟,推动了 Apache Doris 存算分离架构商业化的实现。SelectDB Cloud和阿里云数据库 SelectDB 版 均基于 Apache Doris 内核构建,二者均采用存算分离架构,为企业提供更加弹性、易管理的部署模式。