当前位置：首页 > news >正文

Hy-MT1.5-1.8B-1.25bit技术报告深度解读：33种语言支持、1056个翻译方向的底层架构设计

news 2026/6/1 15:57:40

Hy-MT1.5-1.8B-1.25bit技术报告深度解读：33种语言支持、1056个翻译方向的底层架构设计

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit

Hy-MT1.5-1.8B-1.25bit是腾讯混元团队开发的轻量级翻译模型，基于1.8B参数基础模型，通过创新的1.25bit量化技术实现了440MB的极致压缩，同时保持了世界级的翻译质量。该模型原生支持33种语言、5种方言/少数民族语言及1056个翻译方向，为移动设备提供高性能的离线翻译能力。

🌟 核心技术突破：从16bit到1.25bit的飞跃

Sherry量化框架：硬件友好的1.25bit压缩方案

Hy-MT1.5-1.8B-1.25bit采用了荣获ACL 2026收录的Sherry量化算法，这是一种硬件高效的三元量化框架。其核心创新在于3:4细粒度稀疏策略：每4个模型权重中，保留3个最重要的权重并以1bit（{-1, +1}）存储，将剩余1个权重置零。这种设计使4个权重仅占用5bit存储空间，实现了1.25bit的有效位宽，同时保持2的幂次对齐，完美适配移动CPU的SIMD指令集。

通过Sherry技术，原始3.3GB的FP16模型被压缩至仅440MB，压缩率达7.5倍，却几乎没有精度损失。这一突破使得普通智能手机也能流畅运行高质量的离线翻译模型，无需依赖网络连接。

多阶段训练流水线：打造专业翻译能力

基础模型Hy-MT1.5-1.8B通过整合MT导向的预训练、有监督微调、策略蒸馏和强化学习的全流程训练 pipeline 构建而成。这种多阶段训练方法使模型在仅1.8B参数的规模下，全面超越了更大规模的开源模型（如Tower-Plus-72B、Qwen3-32B）和主流商业翻译API（如Microsoft Translator、Doubao Translator）。

🌐 语言支持能力：33种语言与1056个翻译方向

Hy-MT1.5-1.8B-1.25bit支持的33种语言覆盖了全球主要语种，包括但不限于：

中文（简体/繁体）、英语、日语、韩语、法语、西班牙语、德语、俄语、阿拉伯语、葡萄牙语等主流语言
5种方言/少数民族语言支持，增强了对区域语言的覆盖

1056个翻译方向意味着任意两种支持语言之间都能实现双向翻译，满足跨语言沟通的多样化需求。这种全面的语言支持使模型在国际交流、跨境商务、旅行等场景中具有广泛的应用价值。

📊 性能基准：小模型的大能力

在Flores-200汉外互译基准测试中，Hy-MT1.5-1.8B-1.25bit展现出令人印象深刻的性能。与更大规模的模型相比，它在翻译质量和速度之间取得了极佳的平衡。

特别值得注意的是，在Snapdragon 888（8GB RAM）设备上的测试显示，1.25bit模型比FP16版本快8倍，实现了流畅的实时翻译体验。这种性能提升主要得益于：

Sherry量化带来的内存带宽优化
专为移动CPU设计的STQ内核
与SIMD指令集的完美对齐

📱 移动部署：随时随地的离线翻译

Hy-MT1.5-1.8B-1.25bit特别优化了移动设备部署，提供了即开即用的Android演示应用。该应用具有以下特点：

后台取词模式：可在手机任何应用中使用，浏览邮件、网页或聊天消息时无需切换应用即可获得即时翻译
完全离线：一次下载永久使用，无需网络连接
数据安全：所有翻译在本地完成，数据不会离开设备

演示应用可通过项目提供的Hy-MT-demo.apk文件安装体验，支持Snapdragon 865及以上型号处理器的Android设备。

⚙️ 技术架构解析

模型结构参数

Hy-MT1.5-1.8B-1.25bit基于HunYuanDenseV1ForCausalLM架构，关键参数包括：

隐藏层大小：2048
注意力头数：16
隐藏层数：32
中间层大小：6144
词汇表大小：120818
最大位置嵌入：262144

这些参数设计在模型能力和计算效率之间取得了平衡，特别适合资源受限的移动设备环境。

推理配置

generation_config.json中定义了模型的推理参数：

temperature：0.7（控制输出随机性）
top_k：20（采样候选词数量）
top_p：0.8（累积概率阈值）
repetition_penalty：1.05（防止重复生成）

这些配置经过优化，确保翻译结果既准确又流畅自然。

🚀 快速开始

要在本地部署和使用Hy-MT1.5-1.8B-1.25bit，可按照以下步骤操作：

1. 准备环境

首先克隆llama.cpp仓库并切换到支持STQ1_0内核的分支：

git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_0

2. 构建llama.cpp

pip install -r requirements.txt cmake -B build cmake --build build --config Release

3. 下载模型

pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \ --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit

4. 转换并量化模型

python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \ --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf \ --outtype bf16 ./build/bin/llama-quantize \ model_zoo/Hy-MT1.5-1.8B-bf16.gguf \ model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \ STQ1_0

5. 运行翻译示例

./build/bin/llama-completion \ --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \ -p "Translate the following segment into Chinese, without additional explanation. Hello " \ --jinja \ -ngl 0 \ -n 64 -st

📚 参考资源

技术报告：HY-MT1.5 Technical Report (arXiv:2512.24092)
Sherry量化算法：Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification (ACL 2026)
AngelSlim工具包：A more accessible, comprehensive, and efficient toolkit for large model compression