当前位置: 首页 > news >正文

Qwen Code新特性来袭:终端支持语音对话

如果说AI编程助手是开发者的“第二双手”,那么语音交互的加入,则意味着这双手开始拥有“耳朵”和“嘴巴”。近期Qwen Code的相关动态,尤其是围绕Qwen3.5-Omni全能模型的技术整合,正将这种交互范式从键盘驱动推向声控协同的新阶段。

语音如何“走进”终端

长期以来,编程助手的功能对比表上,“语音模式(Voice Mode)”一栏对Qwen Code而言始终标注着“不支持”。这一局面的改变,并非单纯在终端里塞入一个语音转文字模块,而是源于其后端模型的代际跃迁。Qwen3.5-Omni模型的原生多模态能力,让语音不再是一个外挂的输入法,而是与文本、图像、视频同等的一等公民模态

该模型在超过1亿小时的多模态音视频数据上训练而成,其混合专家(MoE)架构中设有专门处理音频和视频的专家模块。这种架构设计意味着,模型对语音的理解是在特征提取和推理层面完成的,而非将语音识别结果作为文本“喂”给大模型。由此产生的**“音频-视觉Vibe编码”能力**允许开发者通过语音描述需求,辅以视觉参考(如UI草图),直接生成可运行的前端代码或Python脚本。

qwen code这次支持如下几种方式进行语音对话
/voice hold​ — 按住空格键说话,松开即停止转录
/voice tap​ — 单击开始录音,说完一句话或检测到静音后自动停止
/model --voice qwen3-asr-flash-realtime​ — 选择实时流式转录模型
/voice status​ — 查看当前语音配置状态
Web Shell:点击麦克风按钮进行语音输入(浏览器端录音,后台守护进程转录)


voice命令

这背后的技术突破在于语义中断(Semantic Interruption)自适应速率交错对齐(ARIA)。前者让模型能像人一样区分“真正想插话”与“环境杂音”,使对话更自然;后者则同步协调文本生成与语音输出的节奏,避免了机器人朗读般的机械感。

我认为,Qwen Code引入深度语音能力,绝不仅仅是补上了一块功能短板,它代表了AI编程助手从**“被动的指令执行者”“主动的协作伙伴”**的质变。

传统的“Vibe Coding”被定义为用自然语言写代码,但键盘依然是物理上的隔阂。真正的“Vibe”应包含口述构思、即时反馈、视觉验证的闭环。当我口述“生成一个带渐变背景的登录页,按钮加个微交互动画”时,这种沉浸感远超手打prompt。语音通道的加入解放了双手和注意力,让开发者能在浏览设计稿、架构图时同步“编码”,使得**“说”代码与“看”代码可以并行**。

此外,语音输出的加入(模型能直接生成语音回复)让终端有了“听觉”。在调试或代码审查场景下,模型能口语化地解释复杂逻辑,降低认知负荷。虽然开发者可能更习惯阅读文本,但在原型设计、头脑风暴或教育演示场景中,双向语音交互会极大降低使用门槛。

未来的声音

当然,终端环境的高噪音干扰、团队协作中的声音隐私以及代码片段语音输入的精度问题,仍是待解的工程挑战。但不可否认,Qwen Code这一步将语音从“可选”变为“核心”,预告了**“多模态交互式开发”**时代的加速到来。当模型能同时听懂、看见并说出代码,我们与软件的关系将进入一个更自然、更高效的新维度。

http://www.cnnetsun.cn/news/3162205.html

相关文章:

  • TVA推动物理AI的具身智能革命(9)
  • Kubernetes 系列【4】基础概念
  • 医学图像分割神器TotalSegmentator:三步掌握100+解剖结构自动识别
  • AI智能体开发指南:从核心概念到实践应用
  • 开源B站视频下载器:轻松获取高清内容的Python解决方案
  • 告别手动对齐!用UvSquares插件3分钟搞定Blender UV网格重塑
  • 百万瓦的电台,几秒钟换一个频率——从Aspidistra到中亚的发射机房,一段高功率短波的快调谐往事
  • 从零开始学AI:小白程序员必备收藏指南,快速掌握大模型实战技能
  • 收藏!小白程序员必看:揭秘AI大模型记忆管理的真相与优化方案
  • 终极便携式Windows C/C++开发工具链:w64devkit完全指南
  • C++语言基础3:用户自定义类型“class”详细讲解
  • 企业级 MCP 网关:统一授权、限流、协议转换与监控的架构与实现
  • WebPShop:Photoshop专业WebP格式支持的终极解决方案
  • 终极指南:如何免费下载大疆无人机历史固件实现完全控制
  • VLC Android电视版完全指南:从零开始打造你的智能电视媒体中心
  • 为什么我的 AI 创课助手不会写糊——SDD 把追问规范长期挂载、TDD 把每一个 JSON 字段都验证
  • Kimi LeetCode 3464. 正方形上的点之间的最大距离 Python3实现
  • 深度学习项目复现实战:从GitHub代码到可运行结果的系统方法论
  • 35B Agent超越万亿参数模型?上海AI Lab开源Agents-A1:scaling the Horizon
  • python语法竟如此简单,str append用法你知道吗?
  • 《图片添加贴纸》四、PhotoViewPicker使用指南
  • 3PEAK思瑞浦 LM339-SO2R SOP14 比较器
  • 山东大学软件学院 2026 年数据库系统期末考试回忆版
  • Burp Suite入门指南:从零掌握Web抓包与安全测试核心功能
  • 多模型统一接入实战:Agent 开发如何用一套 API 搞定 DeepSeek、Qwen、GLM、Llama?
  • redis的aof方式恢复
  • Java安全管理器实战:从零构建OJ判题机安全沙箱
  • Windows EFS加密文件重装系统后恢复全攻略:原理、场景与实操
  • 抖音无水印视频下载终极指南:三步搞定批量下载难题
  • 影刀RPA新手教程:Python协同入门完全指南——不会Python也能在影刀里用Python