Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

大语言模型能否处理混乱数据?面向应用的 LLM 数据准备技术综述

数据准备旨在清理原始数据集、发现跨数据集关联并从中提取有价值的洞见,这对于众多以数据为中心的应用至关重要。在以下因素的共同驱动下: (i) 对可直接用于应用的数据 (例如用于分析、可视化、决策) 的需求不断增长, (ii) 大语言模型技术日益强大, 以及 (iii) 便于灵活构建 AI 智能体的基础设施 (例如使用 Databricks Unity Catalog) 的出现, 基于大语言模型增强的方法正迅速成为数据准备领域一个变革性乃至主导性的范式。本文通过分析数百篇近期文献, 对这一快速发展领域进行了系统性综述, 重点关注如何利用大语言模型技术为各类下游任务准备数据。首先, 我们阐述了该领域的基本范式转变, 即从基于规则、模型特定的流水线转向提示驱动、上下文感知且由智能体驱动的工作流。接着, 我们提出了一个以任务为中心的分类体系, 将相关研究归纳为三大核心任务: 数据清洗 (例如标准化、错误修复、数据填补)、数据集成 (例如实体匹配、模式匹配) 以及数据丰富 (例如数据标注、数据画像)。针对每项任务, 我们综述了代表性技术, 并着重分析了它们各自的优势 (例如泛化能力提升、语义理解增强) 与局限性 (例如扩展大语言模型的高昂成本、即使在先进智能体中仍持续存在的幻觉问题、先进方法与薄弱评估之间的脱节)。此外, 我们还分析了常用的数据集与评估指标 (实证研究部分)。最后, 我们探讨了开放的研究挑战, 并勾勒了一个前瞻性路线图, 强调需关注可扩展的大语言模型与数据系统、可靠智能体工作流的 principled 设计以及稳健的评估协议。

LongCat-Flash-Thinking-2601 Technical Report

LongCat-Flash-Thinking-2601 技术报告

我们介绍了 LongCat-Flash-Thinking-2601,这是一个拥有 5600 亿参数的开源混合专家 (Mixture-of-Experts, MoE) 推理模型,具备卓越的智能体推理能力。在广泛的智能体基准测试(包括智能体搜索、智能体工具使用和工具集成推理)中,LongCat-Flash-Thinking-2601 在开源模型中实现了最先进的性能。除了基准测试表现,该模型还展现出强大的泛化能力,能够处理复杂的工具交互,并在嘈杂的现实环境中保持鲁棒的行为。其先进能力源于一个统一的训练框架,该框架结合了领域并行专家训练与后续融合,并实现了从预训练到后训练阶段的数据构建、环境、算法和基础设施的端到端协同设计。具体而言,该模型在复杂工具使用方面的强大泛化能力,得益于我们对环境缩放和基于原则的任务构建的深入探索。为了优化长尾、偏斜的生成以及多轮智能体交互,并为了在跨越 20 多个领域的超过 10,000 个环境中实现稳定训练,我们系统地扩展了异步强化学习框架 DORA,以支持稳定高效的大规模多环境训练。此外,我们认识到现实任务本质上是嘈杂的,因此对现实世界的噪声模式进行了系统分析和分解,并设计了针对性的训练流程,明确地将这些不完美因素纳入训练过程,从而提升了模型在现实应用中的鲁棒性。为了进一步提升复杂推理任务的性能,我们引入了重型思考 (Heavy Thinking) 模式,该模式通过密集的并行思考同时扩展推理的深度和宽度,从而实现有效的测试时缩放。

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Idea2Story:一个将研究概念转化为完整科学叙事的自动化流水线

基于大语言模型 (LLM) 的 AI 智能体在自主科学发现领域近期取得了显著进展,展现了自动化端到端研究工作流程的能力。然而,现有系统主要采用运行时中心型的执行范式,需要反复在线读取、总结和推理海量科学文献。这种即时计算策略不仅计算成本高昂、受限于上下文窗口,还常常导致推理过程脆弱并产生幻觉。我们提出了 Idea2Story,一个预计算驱动型的自主科学发现框架,它将文献理解从在线推理迁移至离线知识构建。Idea2Story 持续收集同行评审论文及其评审反馈,提取核心方法论单元,组合成可重用的研究模式,并将其组织成一个结构化的方法论知识图谱。在运行时,系统将用户欠指定的研究意图与既定的研究范式进行对齐,从而实现高质量研究模式的高效检索与复用,而非依赖于开放式生成和试错。通过将研究规划与执行过程基于预构建的知识图谱,Idea2Story 缓解了大语言模型的上下文窗口瓶颈,并大幅减少了对文献的重复运行时推理。我们进行了定性分析和初步实证研究,结果表明 Idea2Story 能够生成连贯、方法扎实且新颖的研究模式,并能在端到端场景下产出多个高质量的研究示例。这些发现表明,离线知识构建为可靠、可扩展的自主科学发现提供了切实可行的基础。

daVinci-Dev: Agent-native Mid-training for Software Engineering

daVinci-Dev:面向软件工程的智能体原生中期训练

近来,大语言模型(LLM)能力的前沿已从单轮代码生成转向基于智能体的软件工程——这是一种模型能够自主导航、编辑和测试复杂代码库的新范式。尽管后训练方法已成为代码智能体事实上的主流方法,但智能体中期训练——即在模拟真实智能体工作流程的大规模数据上进行的 Mid-training(MT)——虽然为培养基础智能体行为提供了一条比单纯依赖昂贵强化学习更具可扩展性的路径,但由于其巨大的资源需求,至今仍未得到充分探索。实现有效智能体中期训练的一个核心挑战在于静态训练数据与真实开发中动态、富含反馈的环境之间存在分布差异。为解决此问题,我们对智能体中期训练进行了系统性研究,建立了适用于大规模有效智能体开发的数据合成原则与训练方法。我们方法的核心在于智能体原生数据——这是一种包含两种互补类型轨迹的监督数据:上下文原生轨迹,其保留了智能体所经历的完整信息流,提供了广泛的覆盖面和多样性;以及环境原生轨迹,这些轨迹从可执行代码库中收集,其观测值来源于实际的工具调用和测试执行,从而提供了深度和交互真实性。我们在 SWE-Bench Verified 基准上验证了模型的智能体能力。在两种后训练设置下,使用对齐的基础模型和智能体框架,我们证明了我们的方法优于先前开放的软件工程中期训练方案 Kimi-Dev,同时所使用的中期训练 Token 数量不到后者的一半(73.1B)。除了相对优势,我们性能最佳的 32B 和 72B 模型分别实现了 56.1%58.5% 的问题解决率,这一结果是...

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

AgentDoG:一个用于AI智能体安全与防护的诊断护栏框架

AI智能体的兴起,因其自主使用工具和与环境交互的特性,带来了复杂的安全与防护挑战。当前的护栏模型缺乏对智能体风险的认知,且在风险诊断方面透明度不足。为了构建一个能够覆盖复杂且多样风险行为的智能体护栏,我们首先提出了一种统一的三维分类法,该分类法从风险来源(何处)、失效模式(如何)和后果(什么)三个正交维度对智能体风险进行系统分类。在这一结构化、层次化的分类法指导下,我们提出了一个新的细粒度智能体安全基准(ATBench)以及一个用于智能体安全与防护的诊断护栏框架(AgentDoG)。AgentDoG能够对智能体的行为轨迹进行细粒度的、结合上下文的监控。更为关键的是,AgentDoG不仅能诊断不安全行为的根本原因,还能识别那些看似安全实则不合理的行动,提供超越简单二元判定的溯源信息和透明度,从而有效促进智能体对齐。AgentDoG提供了基于Qwen和Llama模型系列的三种参数规模变体(4B、7B和8B)。大量实验结果表明,在多样且复杂的交互场景中,AgentDoG在智能体安全审核方面达到了最先进的性能。所有模型和数据集均已开源发布。

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Harder Is Better: 通过难度感知 GRPO 与多角度问题改写提升数学推理能力

具备可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 为提升大型语言模型的数学推理能力提供了一种稳健的机制。然而,我们发现,尽管更具挑战性的问题对于完善模型的能力短板至关重要,但现有方法在算法和数据层面均未给予这类问题足够的重视。在算法层面,广泛使用的组相对策略优化 (Group Relative Policy Optimization, GRPO) 存在一种隐含的不平衡性:对于更难的问题,其策略更新量往往较低。在数据层面,现有的增强方法主要通过改写问题来增加多样性,并未系统性地提升问题的内在难度。为解决这些问题,我们提出了一个双管齐下的 MathForge 框架,旨在从算法和数据两个维度聚焦于更难的问题,以提升数学推理能力。该框架包含一个难度感知组策略优化 (Difficulty-Aware Group Policy Optimization, DGPO) 算法和一个多角度问题改写 (Multi-Aspect Question Reformulation, MQR) 策略。具体而言,DGPO 首先通过难度平衡的组优势估计来修正 GRPO 中的隐含不平衡,并进一步通过难度感知的问题级加权,给予更难的问题更高的学习优先级。同时,MQR 从多个角度对问题进行改写,在保持原始标准答案不变的前提下,系统地增加问题的难度。总体而言,MathForge 形成了一个协同增效的良性循环:MQR 拓展了数据的边界,而 DGPO 则能有效地从这些增强数据中学习。大量实验表明,MathForge 在多种数学推理任务上均显著优于现有方法。代码及增强数据均已公开在 github.com/AMAP-ML/Mat…

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

万物归位:评估文本到图像模型的空间智能

文本到图像 (T2I) 模型在生成高保真度图像方面已取得显著成功,但在处理复杂空间关系(如空间感知、推理或交互)时往往表现不佳。由于现有基准测试的提示设计通常较为简短或信息稀疏,这些关键方面在很大程度上被忽视了。为此,本文提出了 SpatialGenEval,这是一个旨在系统评估 T2I 模型空间智能的新基准,主要涵盖两个方面:(1) SpatialGenEval 包含了涵盖 25 个真实世界场景的 1,230 个长且信息密集的提示。每个提示整合了 10 个空间子领域及其对应的 10 个多项选择题-答案对,内容涵盖物体位置、布局、遮挡及因果关系等多个方面。我们对 21 个前沿模型进行了全面评估,结果表明高阶空间推理仍是其主要瓶颈。(2) 为了证明我们信息密集设计的价值不仅限于评估,我们还构建了 SpatialT2I 数据集。该数据集包含 15,400 个文本-图像对,其中的提示经过重写,在保持信息密度的同时确保了与图像内容的一致性。基于当前主流基础模型(即 Stable Diffusion-XL、Uniworld-V1、OmniGen2)的微调实验显示,模型性能获得了稳定提升(分别提升 +4.2%、+5.7%、+4.4%),并且在空间关系上呈现出更逼真的效果,这凸显了通过以数据为中心的方法来实现 T2I 模型空间智能的潜力。

Advancing Open-source World Models

推进开源世界模型

我们推出 LingBot-World,一个基于视频生成的开源世界模拟器。它定位为顶级世界模型,具备以下特性。(1) 在包括写实、科学场景、卡通风格等在内的广泛环境中,均能保持高保真度与稳健的动态特性。(2) 支持分钟级的模拟时长,并能随时间保持上下文一致性,即具备"长期记忆"能力。(3) 支持实时交互,在以每秒16帧的速率生成时,可实现低于1秒的延迟。我们公开了代码和模型,以期缩小开源与闭源技术之间的差距。我们相信,此次发布将助力社区在内容创作、游戏及机器人学习等领域实现实际应用。

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

SWE-Pruner: 面向编码智能体的自适应上下文剪枝

大语言模型智能体在软件开发中已展现出卓越能力,但其性能常受限于冗长的交互上下文,这会带来高昂的 API 调用成本和延迟。尽管已有多种上下文压缩方法 (如 LongLLMLingua) 出现以应对此问题,但它们通常依赖固定指标 (如 PPL),而忽略了代码理解的任务特定性。因此,这些方法往往会破坏代码的语法和逻辑结构,且无法保留关键的实现细节。本文提出 SWE-Pruner,一个专为编码智能体设计的自适应上下文剪枝框架。该框架受人类程序员在开发与调试过程中"选择性浏览"源代码的启发,能够对长上下文进行任务感知的自适应剪枝。具体而言,针对当前任务,智能体会制定一个明确的目标 (例如 "聚焦于错误处理") 作为提示,用以指导剪枝过程。我们训练了一个轻量级神经浏览模型 (参数量 0.6B),使其能够依据给定目标,从周边上下文中动态筛选出相关的代码行。在四个基准测试集和多个模型上的评估结果表明,SWE-Pruner 在各种场景下均表现有效:在 SWE-Bench Verified 等智能体任务上,它能减少 23-54% 的 Token 消耗;在 LongCodeQA 等单轮任务上,则能实现高达 14.84 倍的压缩率,同时性能影响微乎其微。

Scaling Embeddings Outperforms Scaling Experts in Language Models

在语言模型中扩展嵌入优于扩展专家

虽然专家混合 (Mixture-of-Experts, MoE) 架构已成为大语言模型中稀疏性扩展的标准方法,但它们正日益面临收益递减和系统级瓶颈。在本工作中,我们探索将嵌入扩展作为一种强大且正交的维度,用于实现稀疏性扩展。通过全面的分析和实验,我们确定了在特定条件下,嵌入扩展相较于专家扩展能够实现更优帕累托边界。我们系统地分析了决定此效能的关键架构因素,包括参数预算、以及与模型宽度和深度的相互作用。此外,通过整合定制的系统优化和推测解码 (Speculative Decoding),我们有效地将这种稀疏性转化为显著的推理加速。基于这些见解,我们推出了 LongCat-Flash-Lite 模型,这是一个拥有 685 亿参数、激活参数约 30 亿、从头开始训练的模型。尽管将超过 300 亿参数分配给了嵌入,LongCat-Flash-Lite 不仅超越了参数等效的 MoE 基线模型,而且在智能体和编码领域,与现有同等规模的模型相比,展现出了卓越的竞争力。

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Innovator-VL:一个用于科学发现的多模态大语言模型

我们提出了 Innovator-VL,这是一个面向科学领域的多模态大语言模型,旨在提升对多种科学领域的理解与推理能力,同时在通用视觉任务上保持优异性能。与当前依赖海量领域特定预训练及不透明流程的趋势不同,我们的研究表明,基于原则的训练设计和透明的方法论,能够以大幅降低的数据需求实现强大的科学智能。具体贡献如下:(i) 首先,我们提供了一个完全透明、端到端可复现的训练流程,包括数据收集、清洗、预处理、监督微调、强化学习、评估以及详细的优化方案,便于社区进行系统性复现与扩展。(ii) 其次,Innovator-VL 展现出卓越的数据效率,在未进行大规模预训练的情况下,仅使用少于五百万的精选样本,便在多种科学任务上取得了具有竞争力的性能。这一结果凸显了通过原则性数据选择(而非盲目规模扩张)来实现有效推理的可行性。(iii) 第三,Innovator-VL 表现出强大的泛化能力,在通用视觉、多模态推理以及科学基准测试中均达到了有竞争力的水平。这表明,将科学任务对齐能力集成到统一模型中,并不会削弱其通用性能。我们的实践表明,即使不依赖大规模数据,也能构建出高效、可复现且高性能的科学多模态模型,这为未来的研究奠定了坚实基础。

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

通过非对称混合Transformer机制释放通用VLM在具身任务中的潜力

标准的视觉-语言-动作 (VLA) 模型通常通过微调一个单一的视觉-语言模型 (VLM) 主干网络来专门实现机器人控制。然而,这种方法在维持高级通用语义理解与学习低级、细粒度的感觉运动技能之间产生了核心矛盾,常常导致模型出现开放世界能力的“灾难性遗忘”。为解决这一冲突,我们提出了 TwinBrainVLA,这是一种新颖的架构。它协调了一个保留通用语义理解的通用 VLM 与一个专精于具身本体感知的专用 VLM,以进行联合机器人控制。TwinBrainVLA 通过一种新颖的非对称混合Transformer (Asymmetric Mixture-of-Transformers, AsyMoT) 机制,将一个保持强大通用视觉推理能力的冻结“左脑”与一个专为具身感知设计的可训练“右脑”高效协同。该设计使得右脑能够动态地从冻结的左脑中查询语义知识,并将其与本体感知状态融合,从而为流匹配动作专家 (Flow-Matching Action Expert) 生成精确的连续控制提供了丰富的条件信息。在 SimplerEnv 和 RoboCasa 基准上进行的大量实验表明,与最先进的基线模型相比,TwinBrainVLA 实现了更优的操作性能,同时明确保留了预训练 VLM 的全面视觉理解能力。这为构建同时具备高级语义理解和低级物理灵巧性的通用机器人指明了一个有前景的方向。

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

剧本即所需:一种面向长跨度对话到电影视频生成的智能体框架

近期视频生成技术的进展催生了许多模型,它们能够根据简单的文本提示合成视觉效果惊人的内容。然而,这些模型难以基于对话这类高层级概念生成篇幅较长且连贯的叙事,这暴露出创意构思与其电影化呈现之间存在“语义鸿沟”。为弥合此鸿沟,我们提出了一种新颖的、端到端的智能体框架,用于从对话生成电影视频。该框架的核心是 ScripterAgent,它是一个经过训练的模型,能够将粗略的对话转化为细粒度、可执行的电影剧本。为此,我们构建了 ScriptBench,这是一个包含丰富多模态上下文信息的大规模新基准数据集,其标注工作通过专家指导的流程完成。生成的剧本随后用于指导 DirectorAgent,后者采用跨场景连续生成策略来协调调度多个最先进的视频模型,以确保长跨度叙事的一致性。我们进行了全面的评估,其中包含一个由 AI 驱动的 CriticAgent 以及一个新提出的视觉-剧本对齐 (VSA) 指标。评估结果表明,我们的框架显著提升了所有被测视频模型在剧本忠实度和时间保真度方面的表现。此外,我们的分析揭示了当前最先进模型在追求视觉奇观与严格遵循剧本之间存在关键权衡,这为自动化电影制作的未来发展提供了有价值的见解。

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

DynamicVLA:用于动态物体操作的视觉-语言-动作模型

动态物体操作对视觉-语言-动作 (VLA) 模型而言仍是一个开放挑战。这类模型虽然在静态操作中泛化能力很强,但在需要快速感知、时序预测和连续控制的动态场景中却表现不佳。我们提出了 DynamicVLA,这是一个用于动态物体操作的框架,它通过三项关键设计整合了时序推理和闭环适应能力:1) 一个紧凑的 0.4B 参数 VLA 模型,采用卷积视觉编码器进行空间高效且结构保真的编码,从而实现快速的多模态推理;2) 连续推理机制,通过重叠推理与执行来降低延迟,并及时适应物体运动;3) 潜在感知动作流技术,通过强制执行时间对齐的动作来弥合感知与执行之间的差距。为了填补动态操作数据基础的缺失,我们引入了动态物体操作 (DOM) 基准。该基准从头构建,采用自动数据收集流程,高效采集了涵盖 2.8K 个场景和 206 个物体的 20 万条合成交互片段,并能快速收集 2K 条无需遥操作的真实世界片段。大量评估结果表明,DynamicVLA 在响应速度、感知能力和泛化性能上均有显著提升,使其成为一个适用于跨具身通用动态物体操作的统一框架。

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

AdaReasoner: 面向迭代视觉推理的动态工具编排

当人类遇到超出自身即时能力的问题时,往往会借助工具。这为提高多模态大语言模型 (MLLMs) 的视觉推理能力提供了一个极具前景的范式。有效的推理,关键在于知道在何时、选用何种工具,以及如何在多步骤中组合这些工具,即使面对新工具或新任务时也应如此。为此,我们提出了 AdaReasoner 模型家族,其核心在于将工具使用学习为一种通用的推理技能,而非针对特定工具或依赖于显式监督的行为。AdaReasoner 的实现基于三个关键组件:(i) 一个可扩展的数据整理流程,让模型能够学习长视野、多步骤的工具交互;(ii) Tool-GRPO 强化学习算法,该算法根据最终任务的成功率来优化工具的选择与调用顺序;(iii) 一种能够动态调节工具使用的自适应学习机制。这些组件协同工作,使模型能够根据任务上下文和中间结果推断工具的效用,从而协调多个工具的使用,并泛化至未见过的工具。实证结果表明,AdaReasoner 展现出强大的工具自适应和泛化能力:它能自主采纳有益的工具、抑制无关工具,并根据任务需求调整工具使用频率,尽管模型从未被明确训练去执行这些行为。这些能力使其在多个具有挑战性的基准测试中取得了最先进的性能:它将 7B 基础模型的平均性能提升了 24.9%,并在包括 VSP 和 Jigsaw 在内的多项任务上超越了 GPT-5 等强大的闭源模型系统。

本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:alixiixcom@163.com