Hy-MT1.5-1.8B-1.25bit技术报告深度解读:33种语言支持、1056个翻译方向的底层架构设计
Hy-MT1.5-1.8B-1.25bit技术报告深度解读:33种语言支持、1056个翻译方向的底层架构设计
【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit
Hy-MT1.5-1.8B-1.25bit是腾讯混元团队开发的轻量级翻译模型,基于1.8B参数基础模型,通过创新的1.25bit量化技术实现了440MB的极致压缩,同时保持了世界级的翻译质量。该模型原生支持33种语言、5种方言/少数民族语言及1056个翻译方向,为移动设备提供高性能的离线翻译能力。
🌟 核心技术突破:从16bit到1.25bit的飞跃
Sherry量化框架:硬件友好的1.25bit压缩方案
Hy-MT1.5-1.8B-1.25bit采用了荣获ACL 2026收录的Sherry量化算法,这是一种硬件高效的三元量化框架。其核心创新在于3:4细粒度稀疏策略:每4个模型权重中,保留3个最重要的权重并以1bit({-1, +1})存储,将剩余1个权重置零。这种设计使4个权重仅占用5bit存储空间,实现了1.25bit的有效位宽,同时保持2的幂次对齐,完美适配移动CPU的SIMD指令集。
通过Sherry技术,原始3.3GB的FP16模型被压缩至仅440MB,压缩率达7.5倍,却几乎没有精度损失。这一突破使得普通智能手机也能流畅运行高质量的离线翻译模型,无需依赖网络连接。
多阶段训练流水线:打造专业翻译能力
基础模型Hy-MT1.5-1.8B通过整合MT导向的预训练、有监督微调、策略蒸馏和强化学习的全流程训练 pipeline 构建而成。这种多阶段训练方法使模型在仅1.8B参数的规模下,全面超越了更大规模的开源模型(如Tower-Plus-72B、Qwen3-32B)和主流商业翻译API(如Microsoft Translator、Doubao Translator)。
🌐 语言支持能力:33种语言与1056个翻译方向
Hy-MT1.5-1.8B-1.25bit支持的33种语言覆盖了全球主要语种,包括但不限于:
- 中文(简体/繁体)、英语、日语、韩语、法语、西班牙语、德语、俄语、阿拉伯语、葡萄牙语等主流语言
- 5种方言/少数民族语言支持,增强了对区域语言的覆盖
1056个翻译方向意味着任意两种支持语言之间都能实现双向翻译,满足跨语言沟通的多样化需求。这种全面的语言支持使模型在国际交流、跨境商务、旅行等场景中具有广泛的应用价值。
📊 性能基准:小模型的大能力
在Flores-200汉外互译基准测试中,Hy-MT1.5-1.8B-1.25bit展现出令人印象深刻的性能。与更大规模的模型相比,它在翻译质量和速度之间取得了极佳的平衡。
特别值得注意的是,在Snapdragon 888(8GB RAM)设备上的测试显示,1.25bit模型比FP16版本快8倍,实现了流畅的实时翻译体验。这种性能提升主要得益于:
- Sherry量化带来的内存带宽优化
- 专为移动CPU设计的STQ内核
- 与SIMD指令集的完美对齐
📱 移动部署:随时随地的离线翻译
Hy-MT1.5-1.8B-1.25bit特别优化了移动设备部署,提供了即开即用的Android演示应用。该应用具有以下特点:
- 后台取词模式:可在手机任何应用中使用,浏览邮件、网页或聊天消息时无需切换应用即可获得即时翻译
- 完全离线:一次下载永久使用,无需网络连接
- 数据安全:所有翻译在本地完成,数据不会离开设备
演示应用可通过项目提供的Hy-MT-demo.apk文件安装体验,支持Snapdragon 865及以上型号处理器的Android设备。
⚙️ 技术架构解析
模型结构参数
Hy-MT1.5-1.8B-1.25bit基于HunYuanDenseV1ForCausalLM架构,关键参数包括:
- 隐藏层大小:2048
- 注意力头数:16
- 隐藏层数:32
- 中间层大小:6144
- 词汇表大小:120818
- 最大位置嵌入:262144
这些参数设计在模型能力和计算效率之间取得了平衡,特别适合资源受限的移动设备环境。
推理配置
generation_config.json中定义了模型的推理参数:
- temperature:0.7(控制输出随机性)
- top_k:20(采样候选词数量)
- top_p:0.8(累积概率阈值)
- repetition_penalty:1.05(防止重复生成)
这些配置经过优化,确保翻译结果既准确又流畅自然。
🚀 快速开始
要在本地部署和使用Hy-MT1.5-1.8B-1.25bit,可按照以下步骤操作:
1. 准备环境
首先克隆llama.cpp仓库并切换到支持STQ1_0内核的分支:
git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_02. 构建llama.cpp
pip install -r requirements.txt cmake -B build cmake --build build --config Release3. 下载模型
pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \ --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit4. 转换并量化模型
python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \ --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf \ --outtype bf16 ./build/bin/llama-quantize \ model_zoo/Hy-MT1.5-1.8B-bf16.gguf \ model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \ STQ1_05. 运行翻译示例
./build/bin/llama-completion \ --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \ -p "Translate the following segment into Chinese, without additional explanation. Hello " \ --jinja \ -ngl 0 \ -n 64 -st📚 参考资源
- 技术报告:HY-MT1.5 Technical Report (arXiv:2512.24092)
- Sherry量化算法:Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification (ACL 2026)
- AngelSlim工具包:A more accessible, comprehensive, and efficient toolkit for large model compression
📄 许可证
项目代码根据License for AngelSlim开源。
Hy-MT1.5-1.8B-1.25bit通过创新的量化技术和优化的模型设计,为移动设备带来了高性能的离线翻译能力,展现了小模型在特定任务上超越大模型的可能性。无论是在网络不稳定的环境中,还是对数据隐私有严格要求的场景下,该模型都能提供可靠、高质量的翻译服务。
【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
