Liquid AI 希望为智能手机提供小巧、快速的 AI，通过新型 LFM2-VL 模型实现视觉功能

时间：2025-08-20 14:30:02 来源：互联网

Liquid AI发布了新一代视觉语言基础模型LFM2-VL，该模型专为智能手机、笔记本电脑、可穿戴设备及嵌入式系统等多样化硬件的高效部署而设计。

该系列模型在现实应用中展现出低延迟、高精度与强适应性的特点。

LFM2-VL基于该公司一个多月前推出的LFM2架构升级而来。通过动态生成输入相关权重（即线性输入可变系统/LIV），并将其扩展至支持可变分辨率图文输入的多模态处理，该公司宣称其提供了"市场上最快的端侧基础模型"。

据Liquid AI介绍，在保持主流基准测试竞争力的同时，这些模型的GPU推理速度可达同类视觉语言模型的两倍。

"高效就是我们的产品"，Liquid AI联合创始人兼CEO Ramin Hasani在X平台宣布新模型系列时强调：

双版本满足多元需求

本次发布包含两种规格：

两个版本均支持原生处理512X512像素图像，避免失真或非必要放大。

针对更大尺寸图像，系统采用非重叠分块技术并添加全局缩略图，使模型能同时捕捉细节与整体场景。

Liquid AI由MIT计算机科学与人工智能实验室（CSAIL）前研究员创立，致力于突破当前主流的Transformer架构。

其核心创新Liquid基础模型（LFM）融合动态系统、信号处理与数值线性代数原理，打造出能处理文本、视频、音频、时间序列等多元数据的通用AI模型。

相比传统架构，Liquid方案以显著更少的计算资源实现同等或更优性能，在保持低内存占用的同时支持推理过程实时调整。这使得LFM既适用于企业级场景，也能胜任资源受限的边缘部署。

今年7月，该公司推出跨平台SDK工具Liquid边缘AI平台（LEAP），帮助开发者直接在移动端和嵌入式设备运行小型语言模型。

LEAP兼容iOS/Android系统，支持Liquid模型与开源SLM集成，内置最小300MB的模型库——可在低运存现代手机上流畅运行。

配套应用Apollo支持完全离线的模型测试，契合Liquid AI对隐私保护与低延迟AI的追求。LEAP与Apollo共同体现了该公司推动AI执行去中心化、降低云依赖、赋能开发者构建场景化优化模型的愿景。

LFM2-VL采用模块化架构，包含语言模型主干、SigLIP2 NaFlex视觉编码器及多模态投射器。

投射器采用带像素重组的两层MLP连接器，有效减少图像标记数量并提升吞吐量。

用户可调整图像标记/分块数量等参数，根据部署场景平衡速度与质量。训练过程消耗约1000亿多模态token，数据源自开放数据集与内部合成数据。

该系列模型在多项视觉语言评估中表现优异：LFM2-VL-1.6B在RealWorldQA（65.23）、InfoVQA（58.68）和OCRBench（742）得分亮眼，多模态推理任务中保持稳定。

在1024X1024图像+短文本的标准测试负载下，LFM2-VL实现了同品类中最快的GPU处理速度。

LFM2-VL模型已登陆Hugging Face平台，附Colab微调示例代码，兼容Hugging Face transformers和TRL。

模型采用定制"LFM1.0许可"。Liquid AI表示该许可基于Apache 2.0原则，但尚未公布完整文本。

公司透露将允许特定条件下的商业使用，对年收入1000万美元以上与以下企业设置不同条款。

通过LFM2-VL，Liquid AI致力于让高性能多模态AI在端侧和资源受限场景中实现能力无损的普及。