当前位置: 首页 > news >正文

Loong:具备观察-行动自适应上下文选择机制的类人长文档翻译智能体

Loong:具备观察-行动自适应上下文选择机制的类人长文档翻译智能体

论文编号:arXiv:2605.30274v1
主题:类人的长文档翻译智能体,具有观察-行动的自适应上下文选择机制。
核心贡献:Loong 是一个推理驱动的文件级机器翻译(DocMT)智能体,通过模拟人类专家翻译工作流程,解决了 LLM 在长文档翻译中因上下文窗口限制导致的全球连贯性(Global Cohesion)问题,并通过直接偏好优化(DPO)进行了训练。
仓库地址:https://github.com/YutongWang1216/LoongDocMT


📌 核心架构与方法论

🔹 3E 记忆模块 (3E Memory Module)

Loong 采用多粒度记忆系统,每翻译一个段落即更新记忆,以模拟人类认知工作流:

  • 本质 (Essence):存储 LLM 生成的先前段落的摘要,以捕捉语义进展和体裁信号(Global)。
  • 示例 (Exemplars):存储双语句子对作为上下文演示,以保持风格一致性(Pattern)。
  • 实体 (Entities):维护结构化的双语实体名称、领域属性和关系数据库(Specific)。

🔹 观察与行动 (Observe-and-Act) 推理机制

智能体执行顺序推理过程,动态过滤并利用上下文:

  1. 观察并选择本质:检索 Top-K 摘要,推理其语义相关性,并选择最佳候选者。
  2. 观察并选择示例:检索 Top-K 句子对,推理其风格匹配度,并选择候选者。
  3. 观察并选择实体:检索实体记录,推理术语精度,并选择候选者。

每一步输出一个复合动作⟨rk,Ck⟩\langle \mathbf{r}_k, \mathcal{C}_k \ranglerk,Ck,包含推理思维和选定的上下文子集。

🔹 训练与对齐策略

  • 偏好数据构建:每动作采样M=7M=7M=7个动作和N=5N=5N=5个翻译,通过 COMET 指标计算效用,生成偏好/非偏好对进行直接偏好优化 (DPO)。
  • Agent 微调:在偏好数据上进行冷启动监督微调 (SFT) → 使用 LoRA 进行偏好优化。
  • 对齐强制推理:通过递归分割,确保源语言和目标语言之间的严格句子级对齐,直到对齐实现或缩减为单个句子。

📊 实验结果与分析

📈 主要结果 (Main Results)

Loong 在多个基准测试中(如 News Commentary V18.1、WMT24++)始终优于基线(Sentence, Segment, Doc2Doc, DelTA):

  • 性能提升:在句子和文档级别指标上实现最高13.0 points的提升。
  • 鲁棒性:在注入伪上下文噪声(30-50 个干扰句子)的情况下保持性能。
  • 跨语言迁移:无需重新训练即可有效泛化到未见语言(CZ, ES, IT, JA, RU, PT)。
  • 超长文档处理:成功翻译《西游记》(51,854 词),上下文不溢出,而基线模型因窗口限制而失败。

🔍 消融实验 (Ablation Study)

变体影响发现
无上下文(w/o Context)↓ 性能仅翻译监督不足;上下文策略至关重要。
无微调(w/o Tuning)↓ 性能偏好优化对于有效推理是必要的。
无本质(w/o Essence)↓↓ 性能全局摘要提供最关键的连贯信号。
无示例(w/o Exemplar)↓ 性能风格模式显著有助于流畅性和一致性。
无实体(w/o Entity)↓ 性能术语精度直接提升准确性。

📝 核心公式与组件

上下文选择的效用计算

U(Aki)=1N∑t^∈Tkiμ(sτ,t^,t∗)U(\mathcal{A}_k^i) = \frac{1}{N}\sum_{\hat{\mathbf{t}} \in \mathcal{T}_k^i} \mu(\mathbf{s}_\tau, \hat{\mathbf{t}}, \mathbf{t}^*)U(Aki)=N1t^Tkiμ(sτ,t^,t)

DPO 目标与优势差异

E(x,y+,y−)∼D[log⁡σ(βΔ(θ,θSFT))]\mathbb{E}_{(\mathbf{x},\mathbf{y}^+,\mathbf{y}^-)\sim\mathcal{D}}\left[\log\sigma\left(\beta\Delta(\theta,\theta_{\text{SFT}})\right)\right]E(x,y+,y)D[logσ(βΔ(θ,θSFT))]
Δ=log⁡πθ(y+∣x)πSFT(y+∣x)−log⁡πθ(y−∣x)πSFT(y−∣x)\Delta = \log\frac{\pi_\theta(\mathbf{y}^+|\mathbf{x})}{\pi_{\text{SFT}}(\mathbf{y}^+|\mathbf{x})} - \log\frac{\pi_\theta(\mathbf{y}^-|\mathbf{x})}{\pi_{\text{SFT}}(\mathbf{y}^-|\mathbf{x})}Δ=logπSFT(y+x)πθ(y+x)logπSFT(yx)πθ(yx)

递归对齐执行

T⁡(ui:j)={LLM⁡(ui:j),if aligned or i=jT⁡(ui:k)⊕T⁡(pk+1:j),otherwise\operatorname{T}(\mathbf{u}_{i:j}) = \begin{cases} \operatorname{LLM}(u_{i:j}), & \text{if aligned or } i=j \\ \operatorname{T}(\mathbf{u}_{i:k}) \oplus \operatorname{T}(\mathbf{p}_{k+1:j}), & \text{otherwise} \end{cases}T(ui:j)={LLM(ui:j),T(ui:k)T(pk+1:j),if aligned ori=jotherwise
(其中k=i−1+⌊j−i+12⌋k = i-1 + \lfloor\frac{j-i+1}{2}\rfloork=i1+2ji+1)


📋 关键发现

  • 全局连贯性:通过“本质”模块捕捉全局语义进展是解决长文档翻译中上下文丢失的关键。
  • 冗余过滤:观察-行动机制有效地过滤了冗余信息,同时保留了关键的语义、风格和术语线索。
  • 递归对齐:递归分割策略确保了翻译过程中跨语言的结构对齐,避免了长文本中的语义漂移。
  • 术语一致性:实体记忆模块显著提高了术语翻译的准确性和一致性。
  • 计算效率:通过 RL 优化,Loong 能够在减少上下文噪声的同时,保持高效推理。

📝 总结 (Summary)

Loong 代表了一种先进的长文档机器翻译方法,通过引入人类启发的记忆机制和自适应推理,显著提升了 LLM 在文档级翻译中的连贯性和准确性。其“观察-行动”框架有效解决了长文本翻译中的“上下文窗口瓶颈”,并在多项基准测试中展现了优异的性能。

http://www.cnnetsun.cn/news/2661240.html

相关文章:

  • 告别自动更新烦恼:手把手教你配置Ubuntu 20.04的APT,实现按需更新
  • KMS智能激活终极方案:一键永久激活Windows与Office全系列
  • Whisper-WebUI:从零开始搭建专业级语音识别系统的完整指南
  • 暗黑破坏神2存档编辑器:免费Web版工具完全指南
  • League Akari 完全指南:如何为英雄联盟玩家构建终极本地化工具箱
  • 基于ESP32与NEO-6M GPS模块自制低成本高精度RC车测速仪
  • 别再让服务器偷偷耗电了!手把手教你用lspci和setpci命令检查与配置PCIe ASPM省电模式
  • 基于ESP8266与WS2812B的物联网彩虹时钟天气显示系统开发实战
  • 乔布斯教会耄耋的事:在《一念成仙》,耄耋如何定义“最好的产品”
  • Unity UI避坑指南:TMPro文本框动态伸缩时,背景图为什么总对不齐?
  • Motrix WebExtension 高效方案:5步实现浏览器下载加速与管理
  • 湖南麒麟3.3-3B系统硬盘救急:紧急模式和单用户模式下的xfs_repair实操指南
  • 手机拍照暗光不糊的秘密:拆解索尼Quad Bayer传感器,从4合1像素到硬件Remosaic
  • 如何快速获取抖音无水印视频:3种简单方法完整指南
  • 3步实现网页到Figma设计稿的无缝转换:HTML To Figma实战指南
  • 揭秘聪明钱交易:3分钟掌握Python量化交易终极武器
  • 别再死记硬背了!用Kettle+MySQL手把手还原一个‘客户忠诚度分级’复杂存储过程
  • 5分钟搞定200+小说网站:novel-downloader离线阅读终极指南
  • UniApp + Painter实战:从‘社交裂变’到‘数据报告’,解锁小程序图片生成的3个高级应用场景
  • 树莓派5复古游戏站搭建全攻略:硬件选型、系统对比与性能调优
  • 综合算法 XXVII | 系统设计基础
  • SViG:基于相似度阈值的动态图构建,提升视觉图神经网络性能
  • PCA9306双向电平转换芯片:解决Arduino与3.3V I2C传感器通信难题
  • Gemini多模态对齐失效诊断与修复(工业级部署避坑指南)
  • Windows电脑装了Git却用不了?手把手教你配置环境变量(附路径查找方法)
  • 如何快速实现Android设备安全检测:4层级完整性验证完整指南
  • 如何在本地安全导出浏览器Cookie:Get cookies.txt LOCALLY完整指南
  • 硬件调试革命:3大技术突破让AMD系统稳定性提升5倍
  • 打卡信奥刷题(3341)用C++实现信奥题 P9414 「NnOI R1-T3」元组
  • 如何快速下载B站4K大会员视频:5分钟完成配置的完整指南