当前位置：首页 > news >正文

12500 黄大年茶思屋榜文“难题揭榜”第125期——媒体技术难题第四期完整全题梳理

news 2026/6/11 10:46:07

“难题揭榜”第125期——媒体技术难题第四期完整全题梳理

总公告信息

发布时间：2025-07-07，浏览370次
揭榜说明：欢迎大家毛遂自荐、踊跃揭榜。对于解决难题或提供重大思路的，会给予及时激励并张榜公布。如有任何问题，请直接与接口专家联系；如有其它建议，可与首席科学家李瑞华 liruihua@huawei.com 联系。

难题1：弱网视频通话场景的极低码率AI视频编解码

出题组织

媒体编解码技术实验室、香港理论研究部

接口专家

王晶 wangjing215@huawei.com；孙杰 jsun@huawei.com；余小勇 yuxiaoyong@huawei.com

一、技术背景

弱网视频通话场景信号不稳定、带宽低，需要高清低码视频编解码方案。传统视频编解码在该场景主观体验差。对比视频来自Vimeo-90K数据集。
AI视频编解码近几年发展迅速，压缩效果已显著超越传统方案，在弱网视频通话场景展现了很强的应用潜力。

二、技术挑战

高清低码：如何基于人眼主观感知，在低码率下实现高质量的视频传输
模型轻量化：AI视频编码计算复杂度高，已公开方案均无法在手机部署。如何在保持压缩效率的同时显著降低模型复杂度

三、业界进展

DCVC-RT：微软2025年推出的AI视频编解码，压缩率超越H.266 21%，但复杂度超过200kM ACs/px，无法手机端部署。
DeepRender：宣称AI视频编解码压缩率超越H.265 55%，可在MacBook Pro实时解码，技术细节未公开。

四、技术诉求

面向弱网视频通话场景，研究极低码率AI视频编解码（测试集由华为指定）

1. 基本目标（50kbps）

高清低码：视频分辨率≥540p，帧率≥10fps，解码视频MOS分＞3
低复杂度：编码复杂度不超过30kMACs/px，解码复杂度不超过20kMACs/px

2. 挑战目标（10kbps）

高清低码：视频分辨率≥540p，帧率≥10fps，解码视频MOS分＞3
低复杂度：编码复杂度不超过80kMACs/px，解码复杂度不超过50kMACs/px

说明

① 主观测试方法遵循标准ITU-R BT. 500, ITU-T P.910, ITU-T P.911

参考文献

[1] http://toflow.csail.mit.edu/
[2] Jia, Zhaoyang, et al. “Towards Practical Real-Time Neural Video Compression.” arXiv:2502.20762 (2025)
[3] https://deeprender.ai/

用户评论补充

用户提问：#难题1# 请问允许使用非网络的压缩技术吗？就是运算速度慢一点但是压缩比更好重建效果更好的技术。

难题2：个性化TTS场景下的副信息控制迁移技术（已揭榜）

出题组织

音频工程部

接口专家

黄鼎 huangding2@huawei.com

一、技术背景

语音合成（TTS）在大语言模型的推动下，核心演进逐步迈向高自然度、情感表达、多语言支持和个性化定制。受限于参考语音的音质和数量，当前的合成模型不能有效支持语音翻译场景原始风格保持以及语音助手的自然情感反馈的高表现力要求，探索情感精细控制、口语泛化和零样本复刻，风格、情感和音色的任意组合仍然是业界挑战的难题，对语音合成系统的场景化与个性化体验意义重大。
典型场景：语音助手语音翻译场景，需保留原始说话人的情绪、口音。

二、技术挑战

音色、语义与副信息表征：集外说话人风格/情感的复刻，要将集内语音的音色和情感解耦，现有方案解耦程度不足，信息泄漏导致合成语音风格失真，情感表达不自然。
迁移情感与音色的重组：副信息（情感、语速、停顿、重音等）是语音表达力关键，受限于高表现力情感数据缺失、迁移情感与用户音色匹配度等问题，显式细粒度的情感建模难度大。
跨语言口音问题：语种间声调、重音等表达方式的差异，往往会导致外国腔问题；准确迁移其语音风格和表达习惯，并保证口音标准自然，是一大难点。

三、当前结果

业界主流方案为分级架构，分为韵律建模、音色注入两大部分，LLM负责情感和风格建模，CFM流模型控制音色。依赖于大数据+大模型的泛化能力，个性化场景下音色相似度MOS普遍已经达到4.2分，但是情感反馈能力弱（七分类情感合成准确率约70%），且整体自然度较低（主观mos分约为3.95），不支持跨语言场景下的风格指定能力，无法满足用户需求。

四、技术诉求

场景：支持集外说话人的情感等副信息迁移，涵盖多样化的场景与个性化表达需求（此部分华为会提供对应素人测试集）
指标：
- 主观自然度评分（MOS）≥4.5
- 音色相似度评分（MOS）≥4.5
- 情感标签（常见七类：喜、怒、哀、惊、惧、厌、中性）迁移准确率≥90%
- 副信息标签（语速、停顿、重音等）准确率≥90%
性能：对于集外单人语音时长要求≤30s，910B卡（或同等算力）推理实时率（音频总时长÷音频生成时间）＜1

参考文献

[1] Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens.
[2] Fleespeech: Flexibly Controllable Speech Generation with Various Prompts.

难题3：面向语义和情感认知的语音encoder技术

出题组织

音频工程部

接口专家

杨建宾 yangjianbin3@huawei.com

一、技术背景

在语音交互系统中，语音encoder是至关重要的一环，基于encoder提取的语音表征是语音大模型不可或缺的重要组件，encoder有以下几个重要作用：

对语音信息进行表征学习：encoder的隐藏层可以输出语音的离散或连续表征，这种表征能够捕捉并压缩语音的信息，使得下游模型能够根据这些特征进行语音识别、语音合成、意图理解、说话人识别等任务。
多模态大模型接入：encoder输出的表征可与文本及其他模态进行对齐接入大模型，使多模态大模型具备语义及情感等音频模态信息的理解和生成能力，可用于语音对话、语音识别、语音翻译等业务。

二、技术挑战

声学鲁棒性：实际应用场景中面临噪声、远场等复杂环境，以及方言、口音的多样性，需要保证复杂场景下的一致性体验。
情感&语义认知：基于同一个通用语音encoder，能够同时分别输出准确的语义和情感表征。
流式预训练：流式预训练的效果如何能达到与离线预训练相当，所得模型可以无缝应用于下游流式任务。

三、当前结果

安静、标准普通话场景字准确率达到97%以上，但在复杂场景（SNR=5dB，中等口音强度）字准确率小于87%
SUPERB（语音处理通用性能基准测试榜单）上，情感识别准确率最高为70.62%，ASR字准确率最高为96.64%，分别来自不同系统。

四、技术诉求

语义理解鲁棒性诉求：
- 安静、普通话场景流式识别字准确率达到99%
- 复杂场景（SNR=5dB，中等口音强度）流式识别字准确率95%以上
- 流式识别时延小于500ms
情感认知诉求：在语义表征能力不受影响的情况下使encoder具备情感表征能力，情感识别准确率挑战达到90%以上。
性能诉求：输出音频表征的帧率为12.5~25Hz，encoder推理实时率在910B卡（或同等算力）≤0.1。
验收方法：
- ASR验收测试集为内部测试集，验收指标为字准确率；
- 情感识别验收测试集为SUPERB情感测试集，验收指标为情感识别准确率。

参考文献

[1] Du Z, Chen Q, Zhang S, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407, 2024.
[2] Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]//International conference on machine learning, PMLR, 2023: 28492-28518.

难题4：可控人像重打光技术（已揭榜）

出题组织

图像工程部

接口专家

王钰清 wangyuqing31@huawei.com

一、技术背景

背景：摄影是用光的艺术，专业的光影效果可显著提升照片整体氛围感。面对用户拍摄的各种复杂场景，需要一个支持多要素连续可控和环境光效可控的整体端到端打光模型，通过整体光影重塑提升照片氛围感，当前学界、业界的AI重打光技术存在真实性差、不够美观、ID不一致等问题。
目标：本难题希望提升AI重打光的真实度和美观度，实现多属性光型可控，人景光效和谐自然。

二、技术挑战

可控人像打光技术：要求对光位、光质、光比、色温等因素进行准确控制，且要求皮肤、发丝等材质的光效细腻自然；当前面临高质量打光数据获取困难的问题，业界通常采用LightStage拍摄获取打光数据，但其搭建成本高、周期长；此外，需要研发适配的模型架构支撑多要素联合控制。
人景光效和谐：要求对人物、环境进行和谐统一的打光编辑，整体光效和谐度、真实度挑战大，人物和景物的ID保持困难，且同样面临高质量数据获取困难和模型架构设计的问题。

三、技术诉求

可控人像打光技术：支持光位、光质、光比、色温等因素连续可控，效果真实自然，各种控制因素分别达成惊艳率＞70%，优片率＞90%，劣片率＜2%，由第三方测试主观判定。
人像背景统一打光技术：保持人像与背景环境光效和谐自然，ID一致，整体端到端惊艳率＞70%，优片率＞90%，劣片率＜2%，由第三方测试主观判定。
性能要求：4K分辨率下，910B推理时延＜5s

参考文献

[1] Zhang L, Rao A, Agrawala M. Scaling in-the-wild training for diffusion-based illumination harmonization and editing by imposing consistent light transport[C]//The Thirteenth International Conference on Learning Representations. 2025.
[2] Magar N, Hertz A, Tabellion E, et al. LightLab: Controlling Light Sources in Images with Diffusion Models[J]. arXiv preprint arXiv:2505.09608, 2025.

查看全文

http://www.cnnetsun.cn/news/2871742.html