当前位置:    新闻动态   2025   用于端到端图像压缩的立方体-棋盘格上下文熵模型

 

用于端到端图像压缩的立方体-棋盘格上下文熵模型


2025年5月

论文信息:

Shiyu Feng, Linwei Zhu#, Yun Zhang, Na Li, and Shiqi Wang, “C-CTX: Cubic-Checkerboard Context Entropy Model for Learned Image Compression”, IEEE Transactions on Multimedia (IEEE T-MM), accepted, to be published, 2025. (SCI, IF=8.4, 中科院一区)


关键词:

图像压缩,端到端,上下文熵模型,棋盘格


作者信息:

第一作者:冯识宇,原中国科学院深圳先进技术研究院高性能计算技术研究中心硕士研究生,现为香港城市大学计算机系在读博士生。

唯一通讯作者:朱林卫,中国科学院深圳先进技术研究院副研究员,研究方向包括多媒体信号处理、视频编解码、机器学习、深度学习等,以第一作者或通讯作者发表IEEE Trans.系列/CCF B类及以上期刊论文10余篇,主持(完成)国家级项目3项、省部级项目2项、市级项目1项和重点实验室开放课题1项,包括国自然青年基金、中国博士后基金特别资助(站中)项目、中国博士后基金面上项目和广东省/深圳市自然科学基金面上项目等,联系方式:lw.zhu@siat.ac.cn。


一:论文简介

端到端图像压缩(LIC)近年来取得了显著的性能提升,其中上下文熵模型是其核心组件之一。然而,现有的上下文熵模型难以有效捕捉通道间相关性及空间相关性,从而限制了性能的提升。本文提出了一种立方体-棋盘格上下文熵模型(C-CTX),能够在通道域实现均匀参考,同时保持空间域的相关性,核心目标是在保持空间依赖的同时,充分挖掘通道间的参考关系,并统一空间-通道信息的建模方式。为了使相邻通道具有更相似的分布,本文采用立方体棋盘格掩码(CCM)结合通道级掩码卷积来实现不同域上的均匀分布,并基于熵准则进行通道重排(CWRA)。在此基础上,C-CTX设计了两个特征解耦模块(FDM),通过子空间投影分别提取空间相关性和通道相关性。实验表明,文章提出的方法在多个基准数据集上实现了较好的压缩性能。


二:论文方法

本文提出的用于端到端图像压缩框架如图1所示,旨在扩展棋盘格上下文模型以捕获通道相关性。

图1. 本文提出的用于端到端图像压缩框架

图2. 不同类型的掩码模块

立方体-棋盘格上下文熵模型C-CTX 包括三个关键组成模块:

1. 立方体棋盘格掩码模块(CCM)

如图2所示,传统串行掩模和棋盘格掩码仅考虑空间维度,整个通道被一刀切地屏蔽,导致非锚点潜在特征无法参考邻近通道信息。CCM将潜在特征图的体积空间整体划分为互斥锚点/非锚点集合,如立方体网格,每一个非锚点潜特征 都能从其空间邻居(如上下左右像素)、通道邻居(如相邻特征图)中获取参考,其优势为可以获取更均衡的参考信息与更强的上下文信息关联,以及支持并行计算,可以保持高解码效率。

图3. 不同棋盘格掩码策略下特征图对比

2. 通道重排列(CWRA)

通道维度上的冗余关系较强,但由于通道排列顺序随机,高相关的通道可能相隔较远,难以建模。CWRA 通过计算每个通道潜在特征的熵,衡量通道分布的复杂度,再根据熵值对通道进行重新排序,使得具有相似统计分布的通道被安排为一起。

(c)通道重排后相邻特征图及熵值

(d)通道重排后相邻特征图及熵值

(e)通道重排后相邻特征图及熵值

图4. 通道重排前后相邻特征图

3. 特征解耦模块(FDM & FDM+)

传统卷积在空间和通道间共享核,难以独立建模空间和通道依赖,会引入噪声。为了解耦这两者,立方体-棋盘格上下文熵模型设计了两种上下文模块,分别为FDM与其增强版FDM+,其结构如图5所示。

图5. 两种特征解耦模块的结构


三.实验结果

图6. 编码率失真性能对比

实验评估在多个公开图像压缩基准数据集上进行,包括Kodak、Tecnick、CLIC 2020、2021、2022 以及JPEG-AI。在PSNR和MS-SSIM两个失真指标下分别统计压缩性能。如图5所示,C-CTX相较于包括ELIC、MLIC、Cheng’20在内的多种先进方法,在各类数据集上均取得了显著的比特率节省,尤其是在高分辨率数据集(如Tecnick和CLIC)上优势更加明显。这说明了CWRA模块对通道信息分布的优化能力,能够在特征分布平缓的数据上提升上下文表达力,图7展示了本文提出方法与其他最先进方法的视觉对比。

图7. 与其他最先进方法的视觉对比

在消融实验中,分别验证了三种 掩码类型(串行、二维棋盘格、立方体棋盘格)和两个子模块对最终性能的贡献。结果表明单独使用任意一种掩码结构时,压缩性能提升有限,但当与FDM模块或CWRA联合使用时,比特率明显降低,尤其是 立方体棋盘格+FDM+CWRA的组合,在Kodak数据集上实现了最高的10.1%码率节省,表明各模块之间具有良好的协同作用。

表1 消融实验结果


高性能中心相关链接:

中国科学院深圳先进技术研究院 粤ICP备09184136号-3             地址: 深圳市南山区西丽深圳大学城学苑大道1068号             邮编: 518055              联系电子邮箱: cx.zeng@siat.ac.cn