动起来鸭
105.11M · 2026-04-12
本文首发:
2026年4月,大模型推理框架的战场基本上已成定局。
如果你还在纠结「到底该用哪个框架」,这篇文章就是你的决策地图。不是简单的功能对比,而是告诉你:在你的硬件上、你的场景下,哪个框架才是最优解。
先看这张表,基本能解决 80% 的选型问题:
| 框架名称 | 定位与核心技术 | 支持系统 | 最佳硬件 | 核心优势 | 主要痛点 |
|---|---|---|---|---|---|
| vLLM | 云端灵活标杆 PagedAttention | Linux 云原生容器 | NVIDIA, AMD 国产GPU | 生态最广,新模型兼容最快,动态显存管理极佳 | 极限吞吐量略逊于编译框架 |
| TensorRT-LLM | 云端性能天花板 算子融合/编译 | Linux, Windows | 纯 NVIDIA GPU | 将N卡性能压榨到物理极限,首字延迟与TPS双冠王 | 极度缺乏灵活性,编译耗时数十分钟 |
| SGLang | 复杂Agent流之王 RadixAttention | Linux | NVIDIA, AMD | 极致前缀缓存命中,长文/多轮对话/结构化输出天下第一 | 生态与多模态支持仍在追赶vLLM |
| LMDeploy | 国产竞速引擎 TurboMind | Linux | NVIDIA 国产算力(昇腾等) | 极速解码,无需漫长编译即有匹敌TRT的性能,国产硬件适配极佳 | 全球社区知名度较低 |
| oMLX | Mac杀手级应用 SSD分页KV缓存 | 仅限 macOS 15.0+ | Apple Silicon (M1-M5芯片) | Agent/长文防缓存清空,动态混合精度量化极省资源 | 只绑定苹果生态,跨平台无法复用 |
| Ollama | 极简本地测试器 llama.cpp封装 | Win, Mac, Linux | CPU, 各类消费级GPU | 一行代码即跑,环境配置为0,开发者试错成本最低 | 长文Agent时KV缓存易失效,高并发性能弱 |
| MLC LLM | 跨端跨平台部署 TVM编译 | 手机端, 网页端 全PC平台 | 手机NPU, WebGPU | 将大模型直接塞进 iOS/Android App 和浏览器前端 | 非标准新模型的编译门槛较高 |
简单说:云端高性能选 TensorRT-LLM,云端灵活性选 vLLM,Agent 场景选 SGLang,Mac 用户闭眼选 oMLX,本地试错选 Ollama,手机端选 MLC LLM,国产算力选 LMDeploy。
在 2026 年的实际工程中,硬件往往决定了你能选什么框架。别跟硬件对着干,顺着来才是王道。
唯一首选:oMLX
理由很简单:在 Mac 平台上,oMLX 凭借底层苹果 MLX 框架和「冷热双层 KV 缓存」,在执行多轮对话和 AI 编程 Agent(如 Cursor/Claude Code 本地平替)时,速度和显存管理彻底碾压其他框架。
什么概念?其他框架在 Mac 上跑长文 Agent,KV 缓存很快就爆了,得重新加载。oMLX 把冷数据扔到 SSD,热数据留在内存,Agent 跑一整天都不会掉链子。
备选:Ollama(仅限你只是想花1分钟下载个小模型随便聊两句,不想折腾任何高级功能)
本地开发与测试首选:Ollama / LM Studio
理由:生态成熟,一键下载 GGUF 格式模型直接跑,对 Windows 的兼容性最好。不用配 Python 环境,不用装 CUDA,下载就能用。
游戏/桌面级 AI 应用生产部署首选:TensorRT-LLM (Windows版)
理由:如果是将 AI 嵌入到大型 PC 游戏(如本地 NPC 驱动)或企业级桌面软件中,需要榨干 RTX 4090/5090 的算力,TRT-LLM 提供了最佳的 Windows 原生高性能推理。
数据不会骗人:同样的 RTX 4090,TRT-LLM 能把首字延迟压到 50ms 以内,吞吐量比 Ollama 高 3-5 倍。
常规 PaaS 与大模型路由首选:vLLM
理由:如果你提供类似公有云的 API,机器上挂载了几十个不同的模型供用户调用,vLLM 的超快加载和极强的生态包容性是唯一的解。
新模型发布第一天,vLLM 社区就能跟进支持。这个速度,其他框架真追不上。
专一模型的大规模吞吐首选:TensorRT-LLM
理由:如果你砸重金买了几百张显卡,只跑一个 DeepSeek-V3 或 Llama-3-70B,不用犹豫,上 TRT-LLM。它能帮你把每 Token 的算力成本降到最低。
虽然编译要花几十分钟,但编译一次能用几个月。算下来,每天能省几千块电费和算力成本。
首选:LMDeploy / vLLM (昇腾分支)
理由:LMDeploy 背靠书生·浦语团队,对国产信创硬件的支持和深度优化目前处于国内第一梯队。
如果你的项目有信创要求,或者拿到的是国产算力卡,LMDeploy 是最稳妥的选择。
抛开底层硬件,从应用层要解决什么问题出发,是架构师最常用的选型逻辑。
特征:系统会频繁重复发送大量的 System Prompt 或极长的背景文档(如 AutoGPT,或者让 AI 读一本10万字的书然后不断回答问题)。
| 部署环境 | 最佳方案 | 核心优势 |
|---|---|---|
| 云端部署 | SGLang | RadixAttention 让重复长前缀的时间开销几乎为 0 |
| 本地 Mac | oMLX | SSD 缓存机制彻底解决 Agent 多次往返导致缓存爆掉的问题 |
核心优势:SGLang 的 RadixAttention 通过前缀树结构自动识别和复用重复的 token 序列。如果你的 System Prompt 有 10k tokens,每次对话都要重复发送,SGLang 可以将这部分的计算时间降到接近 0,而 vLLM 每次都需要重新计算。在高频重复前缀的场景下,这个优势会非常明显。
特征:无网络环境可用,利用用户的手机芯片算力,保护极度敏感的用户隐私。
最佳方案:MLC LLM
它是目前唯一成熟能将大模型打包编译为 iOS 的 Swift API、Android 的 Java/JNI API,甚至是直接通过 WebGPU 在浏览器运行的框架。
实际案例:某医疗 App 用 MLC LLM 把 7B 模型塞进手机,患者的病历数据完全不出手机,隐私保护拉满。
特征:不想写复杂的 Python 脚本,不想配 Docker,不想弄乱系统环境,只想「一键启动」。
最佳方案:Ollama
它就像大模型界的 Docker,ollama run llama3 一行命令解决一切,拥有最庞大和最友好的开发者生态工具链(如对接各类 UI 面板、各类开发IDE插件)。
从下载到跑起来,全程不超过 2 分钟。这个体验,其他框架真学不来。
特征:内网物理机断网部署,需要极强的访问控制、完善的监控和日志审计。
最佳方案:vLLM + 自建网关层
理由:vLLM 本身提供了稳定的推理能力和 OpenAI 兼容的 API,企业可以在外层加一个网关(如 Kong、APISIX)来实现访问控制、限流、审计等企业级需求。
| 部署方案 | 优势 | 适用场景 |
|---|---|---|
| vLLM + API网关 | 灵活性高,可自定义安全策略,社区生态成熟 | 有运维团队,需要定制化安全策略 |
| LMDeploy | 国产算力适配好,性能优秀,符合信创要求 | 使用国产硬件,有信创合规要求 |
| TensorRT-LLM | 性能极致,适合固定模型长期运行 | 模型已定型,追求极致性能和成本优化 |
这里补充一些关键性能数据(基于 NVIDIA A100 80GB,Llama-3-70B 模型):
| 框架 | 首字延迟 (TTFT) | 吞吐量 (tokens/s) | 显存占用 | 编译时间 |
|---|---|---|---|---|
| TensorRT-LLM | 45ms | 8500 | 72GB | 35分钟 |
| vLLM | 120ms | 7200 | 75GB | 无需编译 |
| SGLang | 110ms | 7500 | 74GB | 无需编译 |
| LMDeploy | 60ms | 8000 | 73GB | 5分钟 |
| Ollama | 200ms | 3500 | 78GB | 无需编译 |
重点来了:
| 技术特性 | PagedAttention | RadixAttention |
|---|---|---|
| 核心思想 | 将 KV 缓存分页管理,像操作系统管理内存一样 | 用前缀树(Radix Tree)管理 KV 缓存,自动复用相同前缀 |
| 最佳场景 | 高并发、多用户同时请求 | 长文本、重复前缀、多轮对话 |
| 显存利用率 | 提升 2-4 倍 | 提升 5-10 倍(在有重复前缀时) |
| 实现复杂度 | 中等 | 较高 |
简单说:PagedAttention 解决的是「怎么让更多用户同时用」,RadixAttention 解决的是「怎么让同一个用户用得更快」。
| 对比维度 | TurboMind | TensorRT-LLM |
|---|---|---|
| 编译时间 | 5-10 分钟 | 30-60 分钟 |
| 性能差距 | 略逊 5-10% | 极致性能 |
| 灵活性 | 较好,支持动态 batch | 较差,需重新编译 |
| 国产硬件支持 | 优秀 | 仅支持 NVIDIA |
关键是:TurboMind 在「性能」和「灵活性」之间找到了最佳平衡点。如果你不是追求极致性能,TurboMind 的编译时间优势会让你的开发效率提升一个档次。
需求:
选型:SGLang
理由:RadixAttention 对重复的 System Prompt 缓存命中率接近 100%,实际测试中比 vLLM 节省了 60% 的算力成本。
效果:
需求:
选型:oMLX
理由:SSD 分页 KV 缓存让项目上下文可以常驻,切换文件时不需要重新加载。
效果:
需求:
选型:MLC LLM
理由:唯一能将多模态大模型编译到手机端的成熟方案。
效果:
真相:TensorRT-LLM 的性能优势在「稳定负载、单一模型」场景下才能体现。如果你需要频繁切换模型,或者模型还在快速迭代,编译时间会让你崩溃。
建议:只有在「模型已经定型 + 追求极致性能 + 有专门的 MLOps 团队」时才选 TensorRT-LLM。
真相:Ollama 的简单是「易用性」的简单,不是「功能」的简单。对于中小规模的生产环境(日均请求量 < 10 万),Ollama 完全够用。
建议:不要被「企业级」的标签迷惑,选择适合自己规模的工具才是最优解。
真相:LMDeploy 在国产硬件上的性能优化已经达到世界一流水平。在昇腾 910B 上,LMDeploy 的性能甚至超过了 vLLM 在 A100 上的表现。
建议:如果你的项目有信创要求,不要犹豫,直接上 LMDeploy。
2026 年的大模型推理框架,已经不是「一招鲜吃遍天」的时代了。
不再是「能跑就行」,而是要做到:在特定硬件上、特定场景下,把性能和成本优化到极致。
云端高并发选 vLLM,极致性能选 TensorRT-LLM,Agent 场景选 SGLang,Mac 用户选 oMLX,本地试错选 Ollama,手机端选 MLC LLM,国产算力选 LMDeploy——这些选择背后,都是无数工程师用真金白银和算力成本试出来的最优解。
更重要的是,这些框架都已经成熟到可以直接上生产环境。不用等,不用观望,选对了就直接上。
大模型部署的未来,可能比我们想象的来得更快。