Loong:具备观察-行动自适应上下文选择机制的类人长文档翻译智能体
Loong:具备观察-行动自适应上下文选择机制的类人长文档翻译智能体
论文编号:arXiv:2605.30274v1
主题:类人的长文档翻译智能体,具有观察-行动的自适应上下文选择机制。
核心贡献:Loong 是一个推理驱动的文件级机器翻译(DocMT)智能体,通过模拟人类专家翻译工作流程,解决了 LLM 在长文档翻译中因上下文窗口限制导致的全球连贯性(Global Cohesion)问题,并通过直接偏好优化(DPO)进行了训练。
仓库地址:https://github.com/YutongWang1216/LoongDocMT
📌 核心架构与方法论
🔹 3E 记忆模块 (3E Memory Module)
Loong 采用多粒度记忆系统,每翻译一个段落即更新记忆,以模拟人类认知工作流:
- 本质 (Essence):存储 LLM 生成的先前段落的摘要,以捕捉语义进展和体裁信号(Global)。
- 示例 (Exemplars):存储双语句子对作为上下文演示,以保持风格一致性(Pattern)。
- 实体 (Entities):维护结构化的双语实体名称、领域属性和关系数据库(Specific)。
🔹 观察与行动 (Observe-and-Act) 推理机制
智能体执行顺序推理过程,动态过滤并利用上下文:
- 观察并选择本质:检索 Top-K 摘要,推理其语义相关性,并选择最佳候选者。
- 观察并选择示例:检索 Top-K 句子对,推理其风格匹配度,并选择候选者。
- 观察并选择实体:检索实体记录,推理术语精度,并选择候选者。
每一步输出一个复合动作⟨rk,Ck⟩\langle \mathbf{r}_k, \mathcal{C}_k \rangle⟨rk,Ck⟩,包含推理思维和选定的上下文子集。
🔹 训练与对齐策略
- 偏好数据构建:每动作采样M=7M=7M=7个动作和N=5N=5N=5个翻译,通过 COMET 指标计算效用,生成偏好/非偏好对进行直接偏好优化 (DPO)。
- Agent 微调:在偏好数据上进行冷启动监督微调 (SFT) → 使用 LoRA 进行偏好优化。
- 对齐强制推理:通过递归分割,确保源语言和目标语言之间的严格句子级对齐,直到对齐实现或缩减为单个句子。
📊 实验结果与分析
📈 主要结果 (Main Results)
Loong 在多个基准测试中(如 News Commentary V18.1、WMT24++)始终优于基线(Sentence, Segment, Doc2Doc, DelTA):
- 性能提升:在句子和文档级别指标上实现最高13.0 points的提升。
- 鲁棒性:在注入伪上下文噪声(30-50 个干扰句子)的情况下保持性能。
- 跨语言迁移:无需重新训练即可有效泛化到未见语言(CZ, ES, IT, JA, RU, PT)。
- 超长文档处理:成功翻译《西游记》(51,854 词),上下文不溢出,而基线模型因窗口限制而失败。
🔍 消融实验 (Ablation Study)
| 变体 | 影响 | 发现 |
|---|---|---|
无上下文(w/o Context) | ↓ 性能 | 仅翻译监督不足;上下文策略至关重要。 |
无微调(w/o Tuning) | ↓ 性能 | 偏好优化对于有效推理是必要的。 |
无本质(w/o Essence) | ↓↓ 性能 | 全局摘要提供最关键的连贯信号。 |
无示例(w/o Exemplar) | ↓ 性能 | 风格模式显著有助于流畅性和一致性。 |
无实体(w/o Entity) | ↓ 性能 | 术语精度直接提升准确性。 |
📝 核心公式与组件
上下文选择的效用计算
U(Aki)=1N∑t^∈Tkiμ(sτ,t^,t∗)U(\mathcal{A}_k^i) = \frac{1}{N}\sum_{\hat{\mathbf{t}} \in \mathcal{T}_k^i} \mu(\mathbf{s}_\tau, \hat{\mathbf{t}}, \mathbf{t}^*)U(Aki)=N1t^∈Tki∑μ(sτ,t^,t∗)
DPO 目标与优势差异
E(x,y+,y−)∼D[logσ(βΔ(θ,θSFT))]\mathbb{E}_{(\mathbf{x},\mathbf{y}^+,\mathbf{y}^-)\sim\mathcal{D}}\left[\log\sigma\left(\beta\Delta(\theta,\theta_{\text{SFT}})\right)\right]E(x,y+,y−)∼D[logσ(βΔ(θ,θSFT))]
Δ=logπθ(y+∣x)πSFT(y+∣x)−logπθ(y−∣x)πSFT(y−∣x)\Delta = \log\frac{\pi_\theta(\mathbf{y}^+|\mathbf{x})}{\pi_{\text{SFT}}(\mathbf{y}^+|\mathbf{x})} - \log\frac{\pi_\theta(\mathbf{y}^-|\mathbf{x})}{\pi_{\text{SFT}}(\mathbf{y}^-|\mathbf{x})}Δ=logπSFT(y+∣x)πθ(y+∣x)−logπSFT(y−∣x)πθ(y−∣x)
递归对齐执行
T(ui:j)={LLM(ui:j),if aligned or i=jT(ui:k)⊕T(pk+1:j),otherwise\operatorname{T}(\mathbf{u}_{i:j}) = \begin{cases} \operatorname{LLM}(u_{i:j}), & \text{if aligned or } i=j \\ \operatorname{T}(\mathbf{u}_{i:k}) \oplus \operatorname{T}(\mathbf{p}_{k+1:j}), & \text{otherwise} \end{cases}T(ui:j)={LLM(ui:j),T(ui:k)⊕T(pk+1:j),if aligned ori=jotherwise
(其中k=i−1+⌊j−i+12⌋k = i-1 + \lfloor\frac{j-i+1}{2}\rfloork=i−1+⌊2j−i+1⌋)
📋 关键发现
- 全局连贯性:通过“本质”模块捕捉全局语义进展是解决长文档翻译中上下文丢失的关键。
- 冗余过滤:观察-行动机制有效地过滤了冗余信息,同时保留了关键的语义、风格和术语线索。
- 递归对齐:递归分割策略确保了翻译过程中跨语言的结构对齐,避免了长文本中的语义漂移。
- 术语一致性:实体记忆模块显著提高了术语翻译的准确性和一致性。
- 计算效率:通过 RL 优化,Loong 能够在减少上下文噪声的同时,保持高效推理。
📝 总结 (Summary)
Loong 代表了一种先进的长文档机器翻译方法,通过引入人类启发的记忆机制和自适应推理,显著提升了 LLM 在文档级翻译中的连贯性和准确性。其“观察-行动”框架有效解决了长文本翻译中的“上下文窗口瓶颈”,并在多项基准测试中展现了优异的性能。
