小模型正迎来高光时刻。继MIT分拆公司Liquid AI发布可运行于智能手表的微型AI视觉模型,以及谷歌推出适配智能手机的小模型后,英伟达今日正式加入战局,推出其全新小型语言模型(SLM)Nemotron-Nano-9B-V2。该模型在特定基准测试中创下同类别最高性能,并支持用户开关AI"推理"功能——即在输出答案前进行自我校验。
尽管90亿参数规模大于VentureBeat近期报道的数百万参数小模型,但英伟达强调其参数已从最初的120亿显著精简,专为适配单块NVIDIA A10 GPU设计。
英伟达AI模型后训练总监Oleksii Kuchiaev在X平台回应笔者提问时表示:"12B模型被修剪至9B专为适配部署常用的A10 GPU。作为混合架构模型,其批量处理能力更强,比同规模Transformer模型提速达6倍"。
注:当前主流大语言模型参数多在700亿以上(参数指决定模型行为的内部设置,通常参数越多模型能力越强,算力需求也越高)。
该模型支持多语言处理(英语、德语、西班牙语、法语、意大利语、日语,及扩展描述的韩语、葡萄牙语、俄语和中文),适用于指令跟随与代码生成场景。
Nemotron-Nano-9B-V2及其预训练数据集已登陆Hugging Face及英伟达模型库。
Transformer与Mamba架构融合
其基础是Nemotron-H系列混合架构模型,结合了Mamba与Transformer技术。
主流LLM多为纯Transformer架构,完全依赖注意力机制,随着序列增长会显著增加内存与算力消耗。
而基于卡内基梅隆大学与普林斯顿研发的Mamba架构,Nemotron-H系列创新性融入选择性状态空间模型(SSM),通过状态维持机制处理超长信息序列。
这些层级的计算复杂度与序列长度呈线性关系,能在相同内存开销下处理远超标准自注意力机制的上下文长度。
Mamba-Transformer混合架构用线性时间状态空间层替代大部分注意力计算,长上下文吞吐量提升2-3倍且精度相当。
除英伟达外,Ai2等机构也已发布基于Mamba架构的模型。
语言指令控制推理开关
Nemotron-Nano-9B-v2定位为统一纯文本对话与推理模型,完全从头训练。
系统默认在给出最终答案前生成推理轨迹,但用户可通过/think或/no_think等简单指令切换该功能。
模型还引入运行时"思考预算"管理机制,允许开发者限制模型响应前内部推理消耗的token数量。
该设计旨在平衡准确性与延迟,特别适用于客服系统或自主代理等场景。
基准测试表现亮眼
评测显示其在小规模开源模型中具备竞争力。开启推理模式时:AIME25得分72.1%,MATH500达97.8%,GPQA获64.0%,LiveCodeBench取得71.1%。
指令跟随与长上下文测试成绩:IFEval 90.3%,RULER 128K测试78.9%,BFCL v3与HLE基准亦有提升。
综合精度超越对比标杆Qwen3-8B。
英伟达通过精度-预算曲线展示推理token配额与性能的关系,建议开发者通过预算控制优化生产环境质量与延迟。
合成数据训练
Nano系列与Nemotron-H家族均采用精选网络数据与合成数据的混合训练集。
语料涵盖通用文本、代码、数理科学、法律金融文档及对齐风格QA数据集。
英伟达证实使用其他大模型生成的合成推理轨迹来增强复杂基准测试表现。
许可与商用条款
Nano-9B-v2采用2025年6月修订的《英伟达开放模型许可协议》。
该许可以宽松企业友好著称。英伟达明确声明模型可即装商用,且允许开发者自由创建和分发衍生模型。
关键条款:英伟达不主张模型输出的所有权,相关权责归属使用方。
企业开发者可立即投入生产,无需协商商业许可或支付使用阈值/收入/用户数相关费用。无类似其他厂商的分级收费条款。
协议主要约束包括:
聚焦合法合规使用,而非商业规模限制。企业无需因产品商业化或用户增长向英伟达申请许可或支付版税,但需确保部署符合安全、署名及合规要求。
市场定位
Nemotron-Nano-9B-v2瞄准需要平衡推理能力与部署效率的中小规模开发者。
运行时预算控制与推理开关功能赋予系统构建者精准管理精度与响应速度的灵活性。
登陆Hugging Face与英伟达模型库意味着该模型面向广泛实验与集成。
英伟达通过Nemotron-Nano-9B-v2持续强化语言模型的效率与可控推理。混合架构结合新型压缩与训练技术,为开发者提供在降低成本与延迟同时保持精度的工具。