当前位置：首页 > news >正文

Qwen Code新特性来袭：终端支持语音对话

news 2026/7/5 14:35:18

如果说AI编程助手是开发者的“第二双手”，那么语音交互的加入，则意味着这双手开始拥有“耳朵”和“嘴巴”。近期Qwen Code的相关动态，尤其是围绕Qwen3.5-Omni全能模型的技术整合，正将这种交互范式从键盘驱动推向声控协同的新阶段。

语音如何“走进”终端

长期以来，编程助手的功能对比表上，“语音模式（Voice Mode）”一栏对Qwen Code而言始终标注着“不支持”。这一局面的改变，并非单纯在终端里塞入一个语音转文字模块，而是源于其后端模型的代际跃迁。Qwen3.5-Omni模型的原生多模态能力，让语音不再是一个外挂的输入法，而是与文本、图像、视频同等的一等公民模态。

该模型在超过1亿小时的多模态音视频数据上训练而成，其混合专家（MoE）架构中设有专门处理音频和视频的专家模块。这种架构设计意味着，模型对语音的理解是在特征提取和推理层面完成的，而非将语音识别结果作为文本“喂”给大模型。由此产生的**“音频-视觉Vibe编码”能力**允许开发者通过语音描述需求，辅以视觉参考（如UI草图），直接生成可运行的前端代码或Python脚本。

qwen code这次支持如下几种方式进行语音对话
/voice hold — 按住空格键说话，松开即停止转录
/voice tap — 单击开始录音，说完一句话或检测到静音后自动停止
/model --voice qwen3-asr-flash-realtime — 选择实时流式转录模型
/voice status — 查看当前语音配置状态
Web Shell：点击麦克风按钮进行语音输入（浏览器端录音，后台守护进程转录）

voice命令

这背后的技术突破在于语义中断（Semantic Interruption）和自适应速率交错对齐（ARIA）。前者让模型能像人一样区分“真正想插话”与“环境杂音”，使对话更自然；后者则同步协调文本生成与语音输出的节奏，避免了机器人朗读般的机械感。

我认为，Qwen Code引入深度语音能力，绝不仅仅是补上了一块功能短板，它代表了AI编程助手从**“被动的指令执行者”向“主动的协作伙伴”**的质变。

传统的“Vibe Coding”被定义为用自然语言写代码，但键盘依然是物理上的隔阂。真正的“Vibe”应包含口述构思、即时反馈、视觉验证的闭环。当我口述“生成一个带渐变背景的登录页，按钮加个微交互动画”时，这种沉浸感远超手打prompt。语音通道的加入解放了双手和注意力，让开发者能在浏览设计稿、架构图时同步“编码”，使得**“说”代码与“看”代码可以并行**。

此外，语音输出的加入（模型能直接生成语音回复）让终端有了“听觉”。在调试或代码审查场景下，模型能口语化地解释复杂逻辑，降低认知负荷。虽然开发者可能更习惯阅读文本，但在原型设计、头脑风暴或教育演示场景中，双向语音交互会极大降低使用门槛。

未来的声音

当然，终端环境的高噪音干扰、团队协作中的声音隐私以及代码片段语音输入的精度问题，仍是待解的工程挑战。但不可否认，Qwen Code这一步将语音从“可选”变为“核心”，预告了**“多模态交互式开发”**时代的加速到来。当模型能同时听懂、看见并说出代码，我们与软件的关系将进入一个更自然、更高效的新维度。

查看全文

http://www.cnnetsun.cn/news/3162205.html