Liquid AI发布了新一代视觉语言基础模型LFM2-VL,该模型专为智能手机、笔记本电脑、可穿戴设备及嵌入式系统等多样化硬件的高效部署而设计。
该系列模型在现实应用中展现出低延迟、高精度与强适应性的特点。
LFM2-VL基于该公司一个多月前推出的LFM2架构升级而来。通过动态生成输入相关权重(即线性输入可变系统/LIV),并将其扩展至支持可变分辨率图文输入的多模态处理,该公司宣称其提供了"市场上最快的端侧基础模型"。
据Liquid AI介绍,在保持主流基准测试竞争力的同时,这些模型的GPU推理速度可达同类视觉语言模型的两倍。
"高效就是我们的产品",Liquid AI联合创始人兼CEO Ramin Hasani在X平台宣布新模型系列时强调:
双版本满足多元需求
本次发布包含两种规格:
两个版本均支持原生处理512X512像素图像,避免失真或非必要放大。
针对更大尺寸图像,系统采用非重叠分块技术并添加全局缩略图,使模型能同时捕捉细节与整体场景。
Liquid AI技术背景
Liquid AI由MIT计算机科学与人工智能实验室(CSAIL)前研究员创立,致力于突破当前主流的Transformer架构。
其核心创新Liquid基础模型(LFM)融合动态系统、信号处理与数值线性代数原理,打造出能处理文本、视频、音频、时间序列等多元数据的通用AI模型。
相比传统架构,Liquid方案以显著更少的计算资源实现同等或更优性能,在保持低内存占用的同时支持推理过程实时调整。这使得LFM既适用于企业级场景,也能胜任资源受限的边缘部署。
今年7月,该公司推出跨平台SDK工具Liquid边缘AI平台(LEAP),帮助开发者直接在移动端和嵌入式设备运行小型语言模型。
LEAP兼容iOS/Android系统,支持Liquid模型与开源SLM集成,内置最小300MB的模型库——可在低运存现代手机上流畅运行。
配套应用Apollo支持完全离线的模型测试,契合Liquid AI对隐私保护与低延迟AI的追求。LEAP与Apollo共同体现了该公司推动AI执行去中心化、降低云依赖、赋能开发者构建场景化优化模型的愿景。
速度与质量的平衡设计
LFM2-VL采用模块化架构,包含语言模型主干、SigLIP2 NaFlex视觉编码器及多模态投射器。
投射器采用带像素重组的两层MLP连接器,有效减少图像标记数量并提升吞吐量。
用户可调整图像标记/分块数量等参数,根据部署场景平衡速度与质量。训练过程消耗约1000亿多模态token,数据源自开放数据集与内部合成数据。
性能基准表现
该系列模型在多项视觉语言评估中表现优异:LFM2-VL-1.6B在RealWorldQA(65.23)、InfoVQA(58.68)和OCRBench(742)得分亮眼,多模态推理任务中保持稳定。
在1024X1024图像+短文本的标准测试负载下,LFM2-VL实现了同品类中最快的GPU处理速度。
许可与获取
LFM2-VL模型已登陆Hugging Face平台,附Colab微调示例代码,兼容Hugging Face transformers和TRL。
模型采用定制"LFM1.0许可"。Liquid AI表示该许可基于Apache 2.0原则,但尚未公布完整文本。
公司透露将允许特定条件下的商业使用,对年收入1000万美元以上与以下企业设置不同条款。
通过LFM2-VL,Liquid AI致力于让高性能多模态AI在端侧和资源受限场景中实现能力无损的普及。