当前位置: 首页 > news >正文

Hy-MT1.5-1.8B-1.25bit技术报告深度解读:33种语言支持、1056个翻译方向的底层架构设计

Hy-MT1.5-1.8B-1.25bit技术报告深度解读:33种语言支持、1056个翻译方向的底层架构设计

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit

Hy-MT1.5-1.8B-1.25bit是腾讯混元团队开发的轻量级翻译模型,基于1.8B参数基础模型,通过创新的1.25bit量化技术实现了440MB的极致压缩,同时保持了世界级的翻译质量。该模型原生支持33种语言、5种方言/少数民族语言及1056个翻译方向,为移动设备提供高性能的离线翻译能力。

🌟 核心技术突破:从16bit到1.25bit的飞跃

Sherry量化框架:硬件友好的1.25bit压缩方案

Hy-MT1.5-1.8B-1.25bit采用了荣获ACL 2026收录的Sherry量化算法,这是一种硬件高效的三元量化框架。其核心创新在于3:4细粒度稀疏策略:每4个模型权重中,保留3个最重要的权重并以1bit({-1, +1})存储,将剩余1个权重置零。这种设计使4个权重仅占用5bit存储空间,实现了1.25bit的有效位宽,同时保持2的幂次对齐,完美适配移动CPU的SIMD指令集。

通过Sherry技术,原始3.3GB的FP16模型被压缩至仅440MB,压缩率达7.5倍,却几乎没有精度损失。这一突破使得普通智能手机也能流畅运行高质量的离线翻译模型,无需依赖网络连接。

多阶段训练流水线:打造专业翻译能力

基础模型Hy-MT1.5-1.8B通过整合MT导向的预训练、有监督微调、策略蒸馏和强化学习的全流程训练 pipeline 构建而成。这种多阶段训练方法使模型在仅1.8B参数的规模下,全面超越了更大规模的开源模型(如Tower-Plus-72B、Qwen3-32B)和主流商业翻译API(如Microsoft Translator、Doubao Translator)。

🌐 语言支持能力:33种语言与1056个翻译方向

Hy-MT1.5-1.8B-1.25bit支持的33种语言覆盖了全球主要语种,包括但不限于:

  • 中文(简体/繁体)、英语、日语、韩语、法语、西班牙语、德语、俄语、阿拉伯语、葡萄牙语等主流语言
  • 5种方言/少数民族语言支持,增强了对区域语言的覆盖

1056个翻译方向意味着任意两种支持语言之间都能实现双向翻译,满足跨语言沟通的多样化需求。这种全面的语言支持使模型在国际交流、跨境商务、旅行等场景中具有广泛的应用价值。

📊 性能基准:小模型的大能力

在Flores-200汉外互译基准测试中,Hy-MT1.5-1.8B-1.25bit展现出令人印象深刻的性能。与更大规模的模型相比,它在翻译质量和速度之间取得了极佳的平衡。

特别值得注意的是,在Snapdragon 888(8GB RAM)设备上的测试显示,1.25bit模型比FP16版本快8倍,实现了流畅的实时翻译体验。这种性能提升主要得益于:

  • Sherry量化带来的内存带宽优化
  • 专为移动CPU设计的STQ内核
  • 与SIMD指令集的完美对齐

📱 移动部署:随时随地的离线翻译

Hy-MT1.5-1.8B-1.25bit特别优化了移动设备部署,提供了即开即用的Android演示应用。该应用具有以下特点:

  • 后台取词模式:可在手机任何应用中使用,浏览邮件、网页或聊天消息时无需切换应用即可获得即时翻译
  • 完全离线:一次下载永久使用,无需网络连接
  • 数据安全:所有翻译在本地完成,数据不会离开设备

演示应用可通过项目提供的Hy-MT-demo.apk文件安装体验,支持Snapdragon 865及以上型号处理器的Android设备。

⚙️ 技术架构解析

模型结构参数

Hy-MT1.5-1.8B-1.25bit基于HunYuanDenseV1ForCausalLM架构,关键参数包括:

  • 隐藏层大小:2048
  • 注意力头数:16
  • 隐藏层数:32
  • 中间层大小:6144
  • 词汇表大小:120818
  • 最大位置嵌入:262144

这些参数设计在模型能力和计算效率之间取得了平衡,特别适合资源受限的移动设备环境。

推理配置

generation_config.json中定义了模型的推理参数:

  • temperature:0.7(控制输出随机性)
  • top_k:20(采样候选词数量)
  • top_p:0.8(累积概率阈值)
  • repetition_penalty:1.05(防止重复生成)

这些配置经过优化,确保翻译结果既准确又流畅自然。

🚀 快速开始

要在本地部署和使用Hy-MT1.5-1.8B-1.25bit,可按照以下步骤操作:

1. 准备环境

首先克隆llama.cpp仓库并切换到支持STQ1_0内核的分支:

git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_0

2. 构建llama.cpp

pip install -r requirements.txt cmake -B build cmake --build build --config Release

3. 下载模型

pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \ --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit

4. 转换并量化模型

python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \ --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf \ --outtype bf16 ./build/bin/llama-quantize \ model_zoo/Hy-MT1.5-1.8B-bf16.gguf \ model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \ STQ1_0

5. 运行翻译示例

./build/bin/llama-completion \ --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \ -p "Translate the following segment into Chinese, without additional explanation. Hello " \ --jinja \ -ngl 0 \ -n 64 -st

📚 参考资源

  • 技术报告:HY-MT1.5 Technical Report (arXiv:2512.24092)
  • Sherry量化算法:Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification (ACL 2026)
  • AngelSlim工具包:A more accessible, comprehensive, and efficient toolkit for large model compression

📄 许可证

项目代码根据License for AngelSlim开源。

Hy-MT1.5-1.8B-1.25bit通过创新的量化技术和优化的模型设计,为移动设备带来了高性能的离线翻译能力,展现了小模型在特定任务上超越大模型的可能性。无论是在网络不稳定的环境中,还是对数据隐私有严格要求的场景下,该模型都能提供可靠、高质量的翻译服务。

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.cnnetsun.cn/news/2615232.html

相关文章:

  • Video2X:用AI技术让模糊视频重获新生,开源视频超分辨率与帧插值框架
  • 基于NemoClaw、Podman与Ollama构建本地优先AI智能体架构
  • 3步搭建京东自动化脚本系统:释放双手,轻松赚取京豆奖励
  • 5步掌握Parsec VDD:为远程桌面和游戏串流创建高性能虚拟显示器
  • Lainux:为AI构建者打造的安全操作系统,开箱即用的AI开发环境
  • 固态硬盘装Ubuntu 20.04,你的/home分区真的够大吗?聊聊分区方案的‘后悔药’
  • 智能解放双手:OK-WW自动化工具如何让鸣潮游戏体验更高效
  • 终极指南:Windows微信/QQ/TIM防撤回补丁完整使用教程
  • 别再乱设采样时间了!Simulink模型跑得慢、结果不准,可能是这3个参数没调对
  • 从8小时到20分钟:我的Hackintosh配置蜕变记
  • 终极指南:AMD Ryzen SDT调试工具如何让硬件调优变得简单快速
  • ChatGPT知识问答的“隐性知识缺口”:当训练数据截止、领域术语错位、上下文坍缩同时发生时…
  • Falcon2-5.5B-Polish未来展望:模型发展路线图与社区支持计划
  • 如何用LibreDWG实现DWG文件自由?开源CAD库完全指南
  • 终极指南:如何在3大操作系统上免费畅玩任天堂3DS游戏?
  • 初创团队如何利用 Taotoken 多模型能力快速进行产品原型验证
  • CVE-2026-44966 高危预警:Prometheus热图XSS可窃取全集群监控数据(附复现+修复+安全体系)
  • 如何让Windows和Linux也能享受苹果平方字体的优雅设计体验?
  • AI专著撰写秘籍!AI写专著工具助力,快速生成20万字高质量专著!
  • 基于MCP协议构建AI开发工具代理:实现成本控制与审计追踪
  • Google Gemma 4 26B A4B Assistant性能优化:内存、速度和准确性的平衡艺术
  • 终极微信聊天记录导出指南:WeChatMsg让你的对话永久留存
  • 2026年质量管理指南:泡泡图(Bubble Drawing)与自动化检验计划实战
  • 当数字记忆悄然流逝:用WeChatMsg为你的微信对话建立永久档案
  • 3步破解设计工具壁垒:Ai2Psd如何实现AI到PSD的无缝矢量转换
  • 每日一书㉚ | 饮食的迷思:为什么你按照“健康建议“吃,却越来越困惑?
  • 百万Token与智能体团队:16小时构建全栈应用的极限工程实践
  • 事件驱动智能体系统:从聊天机器人到主动协作队友的架构演进
  • 你技术大拿,为啥没带好团队
  • 新手村第一关:POJ 1000题A+B Problem保姆级通关攻略(从注册到AC)