当前位置：首页 > news >正文

简单3步集成！MOSS-TTS-Nano-100M-ONNX与MOSS-Audio-Tokenizer的无缝对接指南

news 2026/6/4 11:46:12

简单3步集成！MOSS-TTS-Nano-100M-ONNX与MOSS-Audio-Tokenizer的无缝对接指南

【免费下载链接】MOSS-TTS-Nano-100M-ONNX项目地址: https://ai.gitcode.com/OpenMOSS/MOSS-TTS-Nano-100M-ONNX

MOSS-TTS-Nano-100M-ONNX是一款由MOSI.AI和OpenMOSS团队开发的0.1B多语言微型语音生成模型，专为无torch依赖的轻量级部署设计，可在CPU和浏览器环境中高效运行。本文将详细介绍如何通过3个简单步骤，实现该模型与MOSS-Audio-Tokenizer的无缝集成，让你快速搭建起完整的语音生成 pipeline。

📋 准备工作：环境与依赖

在开始集成前，请确保你的开发环境满足以下要求：

安装onnxruntime（本地CPU推理）或onnxruntime-web（浏览器部署）
系统支持Python 3.8+环境

你可以通过以下命令安装核心依赖：

pip install onnxruntime

🔍 步骤1：获取模型文件

1.1 克隆项目仓库

首先克隆MOSS-TTS-Nano-100M-ONNX项目代码库：

git clone https://gitcode.com/OpenMOSS/MOSS-TTS-Nano-100M-ONNX cd MOSS-TTS-Nano-100M-ONNX

1.2 下载音频Tokenizer

使用huggingface-cli工具下载配套的MOSS-Audio-Tokenizer-Nano-ONNX模型：

huggingface-cli download OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano-ONNX \ --local-dir weights/MOSS-Audio-Tokenizer-Nano-ONNX

下载完成后，你将在项目目录中看到以下核心文件：

MOSS-TTS模型文件：moss_tts_prefill.onnx、moss_tts_decode_step.onnx等
音频Tokenizer文件：位于weights/MOSS-Audio-Tokenizer-Nano-ONNX目录
分词器模型：tokenizer.model

🛠️ 步骤2：初始化模型组件

2.1 加载TTS模型

使用onnxruntime创建推理会话，加载MOSS-TTS-Nano的ONNX模型：

import onnxruntime as ort # 创建推理会话 sess_options = ort.SessionOptions() sess_options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL # 加载预填充模型和解码模型 prefill_session = ort.InferenceSession("moss_tts_prefill.onnx", sess_options) decode_session = ort.InferenceSession("moss_tts_decode_step.onnx", sess_options)

2.2 配置音频Tokenizer

初始化MOSS-Audio-Tokenizer组件，用于音频特征处理：

# 加载音频tokenizer（具体实现需参考官方文档） from moss_audio_tokenizer import AudioTokenizer audio_tokenizer = AudioTokenizer.from_pretrained("weights/MOSS-Audio-Tokenizer-Nano-ONNX")

🚀 步骤3：实现文本到语音的转换

3.1 文本预处理

使用项目提供的tokenizer.model对输入文本进行编码：

# 文本编码（示例代码） text = "欢迎使用MOSS-TTS-Nano语音合成系统" input_ids = tokenizer.encode(text)

3.2 执行语音合成

将编码后的文本输入TTS模型，结合音频Tokenizer生成语音：

# 预填充阶段 prefill_outputs = prefill_session.run(None, {"input_ids": input_ids}) # 解码阶段 audio_features = [] for step in range(num_steps): decode_outputs = decode_session.run(None, {"hidden_states": prefill_outputs[0]}) audio_features.append(decode_outputs[0]) # 音频解码 waveform = audio_tokenizer.decode(audio_features)

3.3 保存或播放语音

将生成的音频数据保存为WAV文件或直接播放：

import soundfile as sf # 保存音频 sf.write("output.wav", waveform, samplerate=24000) # 播放音频（需要安装相应的音频库） import simpleaudio as sa play_obj = sa.play_buffer(waveform, 1, 2, 24000) play_obj.wait_done()

📊 模型组件说明

组件名称	功能描述	文件路径
moss_tts_prefill.onnx	文本预填充模型	项目根目录
moss_tts_decode_step.onnx	解码步骤模型	项目根目录
MOSS-Audio-Tokenizer-Nano-ONNX	音频特征处理组件	weights/MOSS-Audio-Tokenizer-Nano-ONNX
tokenizer.model	文本分词器	项目根目录