当前位置：首页 > news >正文

Loong：具备观察-行动自适应上下文选择机制的类人长文档翻译智能体

news 2026/5/30 18:12:59

Loong：具备观察-行动自适应上下文选择机制的类人长文档翻译智能体

论文编号：arXiv:2605.30274v1
主题：类人的长文档翻译智能体，具有观察-行动的自适应上下文选择机制。
核心贡献：Loong 是一个推理驱动的文件级机器翻译（DocMT）智能体，通过模拟人类专家翻译工作流程，解决了 LLM 在长文档翻译中因上下文窗口限制导致的全球连贯性（Global Cohesion）问题，并通过直接偏好优化（DPO）进行了训练。
仓库地址：https://github.com/YutongWang1216/LoongDocMT

📌 核心架构与方法论

🔹 3E 记忆模块 (3E Memory Module)

Loong 采用多粒度记忆系统，每翻译一个段落即更新记忆，以模拟人类认知工作流：

本质 (Essence)：存储 LLM 生成的先前段落的摘要，以捕捉语义进展和体裁信号（Global）。
示例 (Exemplars)：存储双语句子对作为上下文演示，以保持风格一致性（Pattern）。
实体 (Entities)：维护结构化的双语实体名称、领域属性和关系数据库（Specific）。

🔹 观察与行动 (Observe-and-Act) 推理机制

智能体执行顺序推理过程，动态过滤并利用上下文：

观察并选择本质：检索 Top-K 摘要，推理其语义相关性，并选择最佳候选者。
观察并选择示例：检索 Top-K 句子对，推理其风格匹配度，并选择候选者。
观察并选择实体：检索实体记录，推理术语精度，并选择候选者。

每一步输出一个复合动作⟨rk,Ck⟩\langle \mathbf{r}_k, \mathcal{C}_k \rangle⟨rk,Ck⟩，包含推理思维和选定的上下文子集。

🔹 训练与对齐策略

偏好数据构建：每动作采样M=7M=7M=7个动作和N=5N=5N=5个翻译，通过 COMET 指标计算效用，生成偏好/非偏好对进行直接偏好优化 (DPO)。
Agent 微调：在偏好数据上进行冷启动监督微调 (SFT) → 使用 LoRA 进行偏好优化。
对齐强制推理：通过递归分割，确保源语言和目标语言之间的严格句子级对齐，直到对齐实现或缩减为单个句子。

📊 实验结果与分析

📈 主要结果 (Main Results)

Loong 在多个基准测试中（如 News Commentary V18.1、WMT24++）始终优于基线（Sentence, Segment, Doc2Doc, DelTA）：

性能提升：在句子和文档级别指标上实现最高13.0 points的提升。
鲁棒性：在注入伪上下文噪声（30-50 个干扰句子）的情况下保持性能。
跨语言迁移：无需重新训练即可有效泛化到未见语言（CZ, ES, IT, JA, RU, PT）。
超长文档处理：成功翻译《西游记》（51,854 词），上下文不溢出，而基线模型因窗口限制而失败。

🔍 消融实验 (Ablation Study)

变体	影响	发现
`无上下文`(w/o Context)	↓ 性能	仅翻译监督不足；上下文策略至关重要。
`无微调`(w/o Tuning)	↓ 性能	偏好优化对于有效推理是必要的。
`无本质`(w/o Essence)	↓↓ 性能	全局摘要提供最关键的连贯信号。
`无示例`(w/o Exemplar)	↓ 性能	风格模式显著有助于流畅性和一致性。
`无实体`(w/o Entity)	↓ 性能	术语精度直接提升准确性。

📝 核心公式与组件

上下文选择的效用计算

U(Aki)=1N∑t^∈Tkiμ(sτ,t^,t∗)U(\mathcal{A}_k^i) = \frac{1}{N}\sum_{\hat{\mathbf{t}} \in \mathcal{T}_k^i} \mu(\mathbf{s}_\tau, \hat{\mathbf{t}}, \mathbf{t}^*)U(Aki)=N1t^∈Tki∑μ(sτ,t^,t∗)

DPO 目标与优势差异

E(x,y+,y−)∼D[log⁡σ(βΔ(θ,θSFT))]\mathbb{E}_{(\mathbf{x},\mathbf{y}^+,\mathbf{y}^-)\sim\mathcal{D}}\left[\log\sigma\left(\beta\Delta(\theta,\theta_{\text{SFT}})\right)\right]E(x,y+,y−)∼D[logσ(βΔ(θ,θSFT))]
Δ=log⁡πθ(y+∣x)πSFT(y+∣x)−log⁡πθ(y−∣x)πSFT(y−∣x)\Delta = \log\frac{\pi_\theta(\mathbf{y}^+|\mathbf{x})}{\pi_{\text{SFT}}(\mathbf{y}^+|\mathbf{x})} - \log\frac{\pi_\theta(\mathbf{y}^-|\mathbf{x})}{\pi_{\text{SFT}}(\mathbf{y}^-|\mathbf{x})}Δ=logπSFT(y+∣x)πθ(y+∣x)−logπSFT(y−∣x)πθ(y−∣x)

递归对齐执行

T⁡(ui:j)={LLM⁡(ui:j),if aligned or i=jT⁡(ui:k)⊕T⁡(pk+1:j),otherwise\operatorname{T}(\mathbf{u}_{i:j}) = \begin{cases} \operatorname{LLM}(u_{i:j}), & \text{if aligned or } i=j \\ \operatorname{T}(\mathbf{u}_{i:k}) \oplus \operatorname{T}(\mathbf{p}_{k+1:j}), & \text{otherwise} \end{cases}T(ui:j)={LLM(ui:j),T(ui:k)⊕T(pk+1:j),if aligned ori=jotherwise
(其中k=i−1+⌊j−i+12⌋k = i-1 + \lfloor\frac{j-i+1}{2}\rfloork=i−1+⌊2j−i+1⌋)