当前位置: 首页 > news >正文

JVET-AL0106

📄 提案名称:

EE2-2.4: Block-Vector Guided EIP (BV-EIP)
—— 基于块向量引导的外推滤波帧内预测

提案编号:

  • JVET-AL0106-v2
  • 作者单位:未明确(推测为华为或联合团队)
  • 平台基础:ECM-16.1(VVC 实验参考软件)

一、核心思想概述

本提案在现有EIP(Extrapolation filter-based Intra Prediction)模式基础上,引入一种新的子模式:

BV-EIP:Block-Vector guided EIP

该方法通过一个从帧间预测中提取的“块向量”(Block Vector, BV)来指导 EIP 滤波器参数的计算区域选择,从而提升对非局部纹理和运动相关结构的建模能力。

不同于传统 EIP 仅使用当前块邻近的左上角重建像素,BV-EIP 利用历史信息中的空间偏移关系,将参考区域扩展到更远但语义相关的区域。


二、技术背景回顾:什么是 EIP?

在 VVC / ECM 架构中,EIP 是一种高级帧内预测工具,其基本流程如下:

  1. 使用一个 15-tap 的线性外推滤波器:
    pred(x,y)=∑i=014ci⋅t(x−dxi,y−dyi) \text{pred}(x, y) = \sum_{i=0}^{14} c_i \cdot t(x - \text{dx}_i, y - \text{dy}_i)pred(x,y)=i=014cit(xdxi,ydyi)
  2. 滤波器系数cic_ici由最小二乘法拟合得到
  3. 训练样本来自当前编码单元(CU)周围的已重建邻域像素
  4. 预测按对角顺序进行,确保无数据依赖

原始 EIP 的局限在于:它只利用局部邻域(上方 + 左侧),难以捕捉长距离重复纹理或仿射变换类结构。


三、BV-EIP 方法详解

🔧 改进做法:引入“块向量”指导参考区域选择

1.什么是块向量(Block Vector, BV)?
  • 它不是运动矢量(MV),而是来自Intra Translational Motion Prediction (IntraTMP)模块中的一个中间结果。
  • IntraTMP 是一种用于帧内预测的快速搜索机制,尝试在当前图像中寻找与当前块相似的区域(即自相似性匹配)。
  • 在 rough searching 阶段会生成一组候选位移向量,称为“块向量”。

👉 举例:

  • 当前 CU 位于(x=64, y=64)
  • IntraTMP 发现一个高度相似的块位于(x=80, y=48)
  • 则块向量为:BV = (16, -16)

这个向量反映了图像内部的平移对称性。


2.如何利用 BV 来改进 EIP?

提案的核心创新是:

不再使用固定的邻近区域来训练 EIP 滤波器系数,而是根据块向量BV将参考区域“偏移”到另一个位置。

具体步骤如下:
步骤描述
(1)判断是否启用 BV-EIP 子模式:
→ 编码器决定是否为当前 CU 开启 BV-EIP
→ 若开启,则发送标志位bv_eip_flag = 1
(2)获取块向量BV(dx, dy)
→ 直接复用 IntraTMP 粗搜索阶段的结果
→ 无需额外传输 MV 或索引
(3)定义新的参考区域:
→ 原始参考区域 R₀ 为中心在(x-1, y-1)的方形区域
→ 新参考区域 R₁ = R₀ + BV,即整体平移(dx, dy)
(4)在新区域 R₁ 内滑动滤波器模板,构建自相关矩阵R\mathbf{R}R和互相关向量r\mathbf{r}r
→ 同 CCCM 方法求解:c=R−1r\mathbf{c} = \mathbf{R}^{-1} \mathbf{r}c=R1r
(5)使用该组系数进行正常 EIP 预测

✅ 关键点:

  • 滤波器形状仍为 15-tap 方形模板(square shape only)
  • 仅作为 EIP 的一种子模式存在
  • 不改变预测顺序或编解码流程

3. 参考区域示意图还原(Figure 3)

虽然原文中 Figure 3 未能清晰显示,但我们可根据描述准确还原其结构。

文字描述关键句:

“Figure 3 illustrates the reference area in the BV-EIP method.”

并结合上下文可知:

  • 当前 CU 是一个正方形块(如 8×8)
  • 传统 EIP 的参考区域是紧邻左上的一片区域(记作 A)
  • BV-EIP 将此区域沿块向量方向移动到另一位置(记作 B)

🖼 图 3:BV-EIP 参考区域示意图(ASCII 还原版)

+---------------------------------------------------------+ | | | Reference Picture (Same Frame) | | | | +---------------------+ | | | Area A | | | | (Original Ref) | | | | +----+ | | | | | CU | | | | | +----+ | | | +---------------------+ | | ↑ | | (-w, -h) corner | | | | ↓ BV = (+dx, -dy) | | | | +---------------------+ | | | Area B | | | | (Shifted by BV) | | | | +-|-+ | | |O| ← Current CU | | +-|-+ | +-----------------------|-+ | | | Current Coding Unit (CU) | at (x, y) +---------------------------------------------------------+ Legend: CU : Current coding unit being predicted Area A: Traditional EIP reference region near top-left Area B: Proposed BV-EIP reference region shifted by block vector BV O : Position of current CU

🔍 示例说明

假设:

  • 当前 CU 大小为 8×8,位于(x=64, y=64)
  • IntraTMP 粗搜索找到最相似块位于(x=72, y=56)→ 块向量BV = (8, -8)
  • 传统参考区域大小为 16×16,中心位于(63, 63)
  • 则新参考区域中心变为:(63+8, 63-8) = (71, 55)

➡️ 即从(71,55)周围采集样本用于训练 EIP 滤波器系数

这相当于告诉编码器:“你不用只看我身边这些点,可以去那个长得像我的地方学怎么预测我。”


四、语法设计与编解码一致性

✅ 信令机制

  • 引入一个新语法元素:bv_eip_flag
    • 0:关闭 BV-EIP,使用标准 EIP 流程
    • 1:启用 BV-EIP,后续操作基于 BV 导出参考区域
  • 该标志与其他 EIP 子模式共存(如 merge mode)
  • 块向量本身不需编码传输,直接取自 IntraTMP 的中间结果

✅ 解码端如何同步?

由于:

  • IntraTMP 在解码端也可执行(用于其他 intra 预测优化)
  • 块向量可完全复现
  • 滤波器形状固定为 square
  • 移动规则公开透明

因此,解码器可以完全重建相同的参考区域 R₁,无需任何额外比特。

✅ 实现了零信令开销下的性能增益潜力


五、技术优势总结

特性说明
突破局部性限制利用图像自相似性,访问远距离相关区域
复用已有信息块向量来自 IntraTMP,无需新增计算或存储
低复杂度集成仅修改参考区域位置,其余流程不变
保持兼容性仍是 EIP 的子模式,不影响主框架
无需新增语法仅需一个 flag 控制开关

六、完整流程框图(文字描述)

开始 ↓ 判断当前 CU 是否适合 EIP? ↓ 若启用 EIP: ↓ 发送 eip_mode_flag ↓ 是否使用 BV-EIP 子模式? ↓ 是 → 发送 bv_eip_flag = 1 ↓ 从 IntraTMP 获取块向量 BV(dx, dy) ↓ 定义原始参考区域 R₀(如 16×16 邻域) ↓ 平移得到新区域 R₁ = R₀ + BV ↓ 在 R₁ 中滑动 square filter shape ↓ 构建 R 矩阵和 r 向量 ↓ 求解滤波器系数 c₀~c₁₄ ↓ 按对角顺序生成预测值 否 → 使用传统 EIP 方法(基于邻近区域) ↓ 进入残差编码阶段

七、结论

本提案提出的BV-EIP 方法是一种轻量级但富有洞察力的增强型帧内预测技术。其核心做法是:

利用 IntraTMP 中产生的块向量(Block Vector),将 EIP 滤波器的训练区域从传统的左上邻域,平移到一个语义相关的远程区域,从而更好地捕捉图像内部的重复结构与几何相似性。

关键特征包括:

  • ✅ 仅允许方形滤波器形状(square filter shape)
  • ✅ 参考区域由块向量引导偏移
  • ✅ 不增加信令负担(复用已有向量)
  • ✅ 解码端可完全同步重建

这种方法有效拓展了 EIP 的感知范围,使其从“局部外推”进化为“非局部感知 + 局部预测”,为未来 AI 驱动的相似性预测提供了良好接口。


http://www.cnnetsun.cn/news/107601.html

相关文章:

  • EmotiVoice语音合成自动化标注辅助系统开发
  • 数据安全无死角:云服务器筑牢企业数字资产 “防护墙”
  • wgpu性能优化终极指南:实战技巧让渲染性能翻倍
  • LXMusic终极音源系统:免费开源音乐解决方案完全指南
  • EmotiVoice官方Demo体验报告:功能完整度打几分?
  • hasattr()函数和getattr()函数
  • Windows系统清理优化神器!支持Win10/11磁盘空间注册表清理,开机自启动项管理、程序应用安装更新卸载,电脑性能优化设置增强!
  • EmotiVoice语音合成日志记录规范:便于调试与审计
  • EmotiVoice语音合成多区域部署架构设计
  • 不常用但超实用!QSpinBox 九大隐藏技巧
  • ChatGPT 说:豆包手机被微信“拒绝”,背后隐藏的是技术与生态的深层冲突
  • C++基础知识点——5个重要位运算技巧(通俗易懂版)
  • ScriptHookV模组开发实战:从入门到精通的完整指南
  • 重磅!AI应用架构师力推的企业虚拟运营方案_副本
  • pose-search:人体动作分析与姿态搜索终极指南
  • 终极隐私保护方案:用Buzz实现完全离线的语音转文字
  • DTLN实时降噪技术:用AI算法打造纯净语音体验的完整指南
  • 移动端视频录制技术革新:基于MediaRecorder的高性能解决方案
  • EmotiVoice与RVC的区别是什么?一文讲清两者定位差异
  • EmotiVoice语音合成中断怎么办?常见错误排查
  • ComfyUI-SeedVR2视频超分插件完整安装与配置指南
  • 开源TTS新星崛起:EmotiVoice为何备受开发者青睐?
  • 记录Kibana多实例竞争导致的迁移锁
  • PySlowFast混合精度训练终极技巧:快速突破视频模型性能瓶颈的完整解决方案
  • 多肽合成丨HNGS14G CAS号: 330936-70-4
  • 43、Linux 网络安全:防火墙与认证机制深度解析(上)
  • 44、一次性密码与安全外壳:保障系统安全登录的有效手段
  • PostgreSQL pgvector扩展:向量相似性搜索的终极实践指南
  • 50、Linux系统安装与磁盘分区全攻略
  • 27、Linux 路由软件配置指南