05-26 · LLM 最新论文速览
今日候选池104篇,硬过滤 + LLM 打分后通过评估16篇,精选 Top-10,另列 6 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. Triplet-Block Diffusion RWKV
评分8.2·方向cs.CL · Computation and Language ·arxiv2605.25969· PDF
💡 提出 B³D-RWKV,用 triplet-block 布局将双向离散扩散与 RWKV O(L) 推理统一,7.2B 模型获 1.6× 解码加速。
扩散语言模型RWKV推理加速
摘要:因果 Transformer 语言模型受限于严格的顺序解码和二次方注意力开销。线性时间因果模型与离散扩散模型分别缓解了这些问题,但二者的结合存在本质矛盾:扩散需要双向注意力,而因果模型是单向的。为统一两种架构,作者提出 B³D-RWKV,通过"三元块布局"(triplet-block layout) 方法将 RWKV 的 O(L) 推理效率与并行双向离散扩散相结合。B³D-RWKV-7.2B 在 8 项任务上达到与现有模型相当的精度,同时在解码吞吐量上显著优于基线,平均加速 1.6 倍。
评分细项:rel 9 / nov 8 / prac 7 / author 5
2. Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents
评分8.0·方向cs.MA · Multiagent Systems ·arxiv2605.24598· PDF
💡 Hera 用模仿学习冷启动+RL联合优化,在长步骤 agent 任务中做 step 级端云路由,兼顾成功率与云端调用成本。
多agent系统端云协同强化学习推理成本优化
摘要:LLM智能体在长时域复杂任务中表现优异,但实际部署面临端云困境:端侧模型高效但脆弱,云端模型强大但昂贵。现有端云路由方案多为粗粒度的任务级决策,无法适应多步交互中动态变化的难度。本文提出 Hera,一种步级端云协同调度框架,通过两阶段训练实现性能与成本的帕累托最优:第一阶段利用模仿学习冷启动,将步级路由建模为监督分类问题,依据端侧与云端动作的一致性标注每步状态;第二阶段通过代价感知的强化学习,对相同状态分组并以更高期望回报和更少云端调用为目标联合优化。在 ALFWorld、WebShop 和 AppWorld 上的实验表明,Hera 仅在 46.3% 的步骤中调用云端,即可达到纯云端方案 92.5% 的成功率,显著优于已有方法。
评分细项:rel 8.5 / nov 7.5 / prac 8.0 / author 6.0
3. Language Models Need Sleep
评分7.8·方向cs.CL · Computation and Language ·arxiv2605.26099· PDF
💡 提出类睡眠巩固机制:Transformer 周期性将 KV cache 压缩为 SSM 快权重,用离线多轮回放换取推理时低延迟长上下文。
长上下文注意力机制SSM推理加速
摘要:基于 Transformer 的大语言模型在长上下文任务中面临注意力机制随序列长度扩展性差的问题。本文提出一种类似睡眠的记忆巩固机制:模型周期性地将近期上下文转化为持久的快权重(fast weights),随后清空 KV cache。在"睡眠"阶段,模型对累积上下文执行 N 次离线循环处理,通过学习到的局部规则更新其状态空间模型(SSM)模块的快权重;推理时额外计算被转移至睡眠阶段,从而保持清醒时的低延迟预测。实验在元胞自动机、多跳图检索等合成任务及数学推理任务上验证了该方法的有效性——常规 Transformer 和 SSM-注意力混合模型均失败的场景下,增大睡眠时长 N 可持续提升性能,尤其在需要深层推理的样本上收益最大。
评分细项:rel 8.0 / nov 8.5 / prac 6.5 / author 7.0
4. Multi-Agent Coordination Adaptation via Structure-Guided Orchestration
评分7.4·方向cs.MA · Multiagent Systems ·arxiv2605.25746· PDF
💡 MACA 框架将多 agent 协调建模为结构与编排的联合后验推断,学习任务/预算条件先验,平均提升 8.4% 且省 43% token
多agent协调概率推断token效率
摘要:随着基于大语言模型的多智能体系统处理日益复杂的任务,如何兼顾结构稳定性与动态适应性成为核心挑战。现有方法要么预先固定协调结构(缺乏细粒度控制),要么动态调整决策但协调结构隐式且不稳定。本文从概率视角重新审视多智能体协调,将其建模为结构与编排联合分布上的后验推断,提出 MACA 框架。MACA 学习一个以任务和预算为条件的结构先验(刻画智能体参与及交互模式),并以基于策略的编排作为后验推断的近似,实现高效且细粒度可控的协调。实验表明,MACA 在多个基准上平均超越自适应多智能体基线 8.42%,同时减少 43.19% 的 token 消耗,且结构与编排的联合适应能有效抑制冗余交互。
评分细项:rel 8.0 / nov 7.0 / prac 7.5 / author 5.0
5. Recursive Multi-Agent Trading System: Iterative Optimized Portfolio Strategy Under Geopolitical Uncertainty
评分7.3·方向cs.MA · Multiagent Systems ·arxiv2605.25311· PDF
💡 RMATS 用四个专业 agent 递归协作做多资产组合管理,561 天回测最大回撤 9.62%,侧重地缘风险下的资本保护
量化交易多agent组合管理风险控制
摘要:递归多智能体交易系统(RMATS)集成情绪、报告、分析和风险四个专用智能体,由递归管理智能体通过迭代反馈环路协调。在2023年1月至2025年3月共561个交易日、覆盖24种多类别资产的实验中,RMATS最大回撤仅9.62%,优于MVO(15.49%)和FinBERT情绪策略(15.28%),并在5个地缘政治压力场景中的3个取得最低事件期回撤。尽管在持续牛市中收益不及收益最大化基线,消融实验证实各智能体组件对下行保护均有独立贡献。RMATS定位为面向风险控制的架构,适合在地缘政治不确定性下优先保全资本的机构投资者。
评分细项:rel 8.5 / nov 5.5 / prac 7.0 / author 5.0
6. Market Regime Council for Dynamic Credit Assignment in Multi-Agent LLM Decision Systems
评分7.8·方向q-fin.PM · Portfolio Management ·arxiv2605.24490· PDF
💡 用 Shapley 值为多 agent LLM 组合管理系统做动态信用分配,结合贝叶斯自适应与 regime 乘子,在加密资产上达 1.51 Sharpe。
多agent量化交易组合管理Shapley值
摘要:多智能体LLM投资组合决策系统缺乏对专家智能体进行信用分配的原则性方法,且在市场regime切换时易受冷启动主导效应影响。本文提出Market Regime Council(MRC),一种协作式多智能体决策系统,通过计算所有单体、两两及大联盟输出的精确Shapley值实现在线智能体加权。MRC实例化3个专家智能体,每个交易周期基于指数加权历史表现重算联盟Shapley权重,利用贝叶斯自适应混合稳定早期阶段,并施加regime依赖乘子调整智能体权威,同时以五层因果追踪记录每次再平衡。在13种加密资产、1037个交易日、5个随机种子的实验中,MRC实现Sharpe比率1.51、累计收益440.1%,在主动基线中累计收益、Sharpe和信息比率均排名第一,最大回撤最低。消融实验表明收益来源于跨联盟输出的Shapley加权整合而非单一模块。
评分细项:rel 9 / nov 7 / prac 8 / author 5
7. MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research
评分7.1·方向cs.AI · Artificial Intelligence ·arxiv2605.26114· PDF
💡 MobileGym 提供浏览器托管的轻量移动 GUI 仿真环境,支持 JSON 状态判定和大规模并行 RL rollout,GRPO 训练 Qwen3-VL-4B 提升 12.8pp
agentRLGUI仿真GRPO
摘要:MobileGym 是一个基于浏览器的轻量级移动端 GUI 智能体研究平台,无需复制专有后端即可实现高保真交互。其核心贡献在于两项此前难以实现的能力:基于结构化 JSON 状态的确定性判定机制提供可验证的结果信号,以及通过低成本并行 rollout 支持可扩展的在线强化学习(每实例约 400 MB 内存、约 3 秒冷启动,单服务器可承载数百并行实例)。配套的 MobileGym-Bench 提供 28 款应用上的 416 个参数化任务模板(256 测试 + 160 训练),并采用结构化 AnswerSheet 协议避免自由文本匹配失败。Sim-to-Real 实验中,基于 GRPO 微调 Qwen3-VL-4B 在测试集上提升 12.8 个百分点,真机执行保留了 95.1% 的仿真训练增益。
评分细项:rel 7 / nov 7 / prac 8 / author 6
8. Game-Theoretic Modeling of Heterogeneous Investor Interactions for Stock Price Forecasting
评分7.2·方向q-fin.TR · Trading and Market Microstructure ·arxiv2605.23953· PDF
💡 将博弈论机制嵌入异质投资者交互的异构图网络,结合时序位置编码预测股价走势用于量化交易。
股票预测博弈论异构图网络量化交易
摘要:股票价格预测是量化交易的核心任务。现有方法多依赖静态先验假设,分别建模个股时序依赖或基于预定义结构的跨股票空间依赖,忽视了驱动价格变动的复杂市场动态。本文提出一种博弈论建模方法,将博弈机制嵌入异质图结构,精细刻画异质投资者围绕目标股票的动态策略交互。通过时序位置编码反映不同时间步博弈事件对未来价格的差异化影响,并借助异质图网络实现投资者博弈的实时信息传播与节点更新。在两个真实基准数据集上的实验表明,该方法显著优于现有最优方法。
评分细项:rel 8 / nov 6 / prac 7 / author 5
9. Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents
评分7.0·方向cs.MA · Multiagent Systems ·arxiv2605.25971· PDF
💡 ProAct 在用户交互间隙利用空闲算力预测下一步需求并预取信息,减少对话轮次 14.8% 并降低幻觉率 28.1%。
proactive agentidle-time computeagentic workflow
摘要:当前 AI 智能体本质上是被动的——仅在用户发出指令后才开始计算,交互间的空闲时间被大量浪费。本文提出 ProAct,一种主动式智能体架构,利用空闲时间预判用户即将提出的需求。ProAct 通过分析对话历史与持久记忆,预测未来需求并迭代获取信息,在用户提问前即完成知识准备。同时提出 ProActEval 基准,包含 40 个领域的 200 个场景,涵盖可预测需求链和多样化用户认知画像。实验表明,ProAct 相比被动基线将所需交互轮次减少 14.8%,用户负担降低 11.7%,幻觉率下降 28.1%,并在 MemBench 上达到最优反思准确率。
评分细项:rel 7 / nov 7 / prac 7 / author 6
10. Peak-Then-Collapse and the Four Interface Channels of Knowledge-Graph Tool Use
评分6.7·方向cs.CL · Computation and Language ·arxiv2605.26037· PDF
💡 在知识图谱工具调用上复现 GRPO/RLVR 训练,发现 peak-then-collapse 现象并归因于接口缺乏自然语言错误反馈。
RLVR工具使用训练失败模式
摘要:本文在知识图谱工具调用场景下测试标准 RLVR 方案(基于 Qwen2.5-7B-Instruct 的 GRPO),使用 Freebase 上四个导航动词处理 Complex WebQuestions。在自验证检索奖励下,策略的工具锚定回答率从 3.8% 升至 9.6%,随后在 50 步内骤降至 0%——呈现"先升后崩"模式,四个种子均可复现。七种奖励设计揭示四类反复出现的失败模式,更密集的代理奖励只是转移而非消除问题。作者指出关键差异在于接口反馈:Python 报错含自然语言信号,而 Freebase 空结果 [] 不提供此类信息。Oracle 消融排除了关系选择瓶颈,95.4% 的错误源于检索组合失败。作为缓解方案,单轮自蒸馏在 7B 模型上达到 40.0% EM,且容量不敏感——性能上限受限于接口本身。
评分细项:rel 7.5 / nov 7.0 / prac 5.5 / author 5.0
📚 速览 · 其他通过评估的工作(6 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
cs.AI6.7CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists· 💡 针对扩散语言模型提出 D²-Monitor,利用去噪轨迹中隐状态的安全犹豫信号做双层安全监控路由。cs.CL6.6Mitigating Provenance-Role Collapse in Long-Term Agents via Typed Memory Representation· 💡 提出 MemIR 类型化记忆中间表示,将长期记忆分为证据/检索线索/声明原子,解决 agent 来源-角色混淆问题。cs.MA6.1From Facts to Insights: A Persona-Driven Dual Memory Framework and Dataset for Role-Playing Agents· 💡 DualMem 将角色扮演记忆解耦为事实认知与人设洞察双流,经 SFT+RL 训练 4B 模型超越 DeepSeek-V3.2 零样本基线。cs.MA6.0Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?· 💡 用 Friedkin-Johnsen 意见动力学建模多 agent 讨论,将 LLM 多 agent 系统视为混合专家并分析影响力形成机制cs.AI6.0MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning· 💡 MuCRASP 识别 CoT 推理中的 pivot token 并按跨模态激活差异做层级敏感结构化剪枝,30% 压缩下保持推理质量。cs.AI6.0VeriTrace: Evolving Mental Models for Deep Research Agents· 💡 VeriTrace 用认知图谱实现解释更新、偏差反馈、模式修订三个显式调控环路,提升深度研究 agent 的中间表征质量
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考
