当前位置:    新闻动态   2025   基于大模型的多媒体质量评价与取证

 

基于大模型的多媒体质量评价与取证
Multimedia Quality Assessment and Forensics Based on Large Models


2025年4月18日

数字所高性能中心学术讲座4月18日10:00-11:30在F1119会议室举行,本次讲座邀请了香港城市大学王诗淇副教授作题为“基于大模型的多媒体质量评价与取证(Multimedia Quality Assessment and Forensics Based on Large Models)”的报告。本次报告由数字所 朱林卫  副研究员主持。


Biography:

王诗淇,香港城市大学副教授。于2014年1月毕业于北京大学数字视频编解码技术国家工程实验室,获计算机应用技术博士学位。从事多媒体信号质量评价、压缩、处理及分析方面的研究。在国内外期刊和会议上发表/接收论文300余篇,其中包括IEEE Transactions/Journal论文100余篇。目前担任视频编码和处理领域旗舰期刊IEEE-TIP, TMM, TCSVT和TCyber的副主编,并获得IEEE ICME, VCIP, MultiMedia等多个国际会议和期刊的最佳论文奖。王诗淇博士的研究也获得国家自然科学基金委优秀青年科学基金项目(港澳)、香港研究资助局杰出青年学者计划等多项项目资助。

Abstract:

近年来,随着大型多模态预训练模型的迅猛发展,计算机视觉(CV)任务的研究范式正在经历深刻变革。这类模型具备强大的生成能力和跨模态理解能力,但同时也引发了对其感知可靠性、细粒度理解能力以及可用性的质疑。在真实世界应用场景中,尤其是质量评价与内容取证等任务,对模型的稳定性与解释能力提出了更高要求。本次报告将围绕“图像质量评价”与“多媒体内容取证”两个方向,介绍本团队在大模型背景下的最新研究进展与思考。在图像质量评价方面,我们首先评估了通用视觉大模型在感知质量判断方面与人类主观评价的一致性,随后探索了如何融合主观感知机制与视觉基础模型,构建兼具泛化能力与感知一致性的质量预测模型。在多媒体取证方面,我们系统性分析了通用视觉大模型在检测与推理 AI生成图像方面的能力,并进一步提出面向AI合成内容的专家模型。通过构建百万级规模的视觉指令数据集,我们赋予大模型识别 AI生成图像与分析伪造痕迹的能力,并在可解释性与可扩展性两个方面展开深入研究。面向未来,我们期待推动多模态大模型在真实世界视觉任务中的泛化、可解释与可控性协同提升,进一步缩短基础模型研究与实际应用之间的距离。




高性能中心相关链接:

中国科学院深圳先进技术研究院 粤ICP备09184136号-3             地址: 深圳市南山区西丽深圳大学城学苑大道1068号             邮编: 518055              联系电子邮箱: cx.zeng@siat.ac.cn