2026第八届中青杯全国大学生数学建模竞赛B题:AI生成内容的质量评估与参数优化完整思路、代码、模型、文章,全网首发高质量分享!
PROBLEM STATEMENT
赛题全文
--- 1 ---
2026 年第八届中青杯全国大学生数学建模竞赛题目
(请先阅读"中青杯全国大学生数学建模竞赛参赛细则")
B 题AI 生成内容的质量评估与参数优化
随着扩散模型(Diffusion Models)和生成式AI 技术的迅速发展,AI 生成内容
(AIGC)已成为数字内容生产的重要方式。Sora、可灵、即梦等视频生成模型能够根
据文本提示词生成高质量的视频内容,在影视制作、广告设计、教育培训等领域展现
出广阔的应用前景。
AI 生成视频的质量评估是AIGC 应用中的关键问题。与静态图像不同,视频质量
不仅涉及单帧画面的清晰度、美学表现,更关键的是时序连贯性------包括运动连续性、
物体一致性、闪烁抑制等动态指标。目前,主流视频生成模型在生成过程中面临三大
核心挑战:单帧质量不稳定、时序连贯性难以保障、生成参数与质量关系不明确。
单帧质量评估方面,需要量化分析画面的语义保真度(与提示词的匹配程度)、
技术质量(清晰度、噪声、伪影)、结构完整性(物体畸形、边缘质量)等维度。时
序连贯性方面,需要检测帧间闪烁、物体变形、运动不连续等时域缺陷。此外,生成
参数(采样步数、分辨率、引导系数)对质量与生成速度的影响规律尚缺乏系统建模。
光流估计是视频质量分析的重要工具,其原理是计算相邻帧像素点的运动向量,
反映视频的运动连续性。传统光流法基于亮度恒定假设,而AI 生成视频可能存在亮
度突变,需要改进算法。此外,视频帧可视为图像序列,帧间关系类似于"多层干涉",
存在复杂的时域关联。
问题1:建立无参考图像质量评价(NR-IQA)的数学模型。将文本提示词结构化
为主体对象(名词实体)、属性描述(形容词/副词)、场景关系(空间位置)、风
格指令(艺术类型)四类语义要素,建立基于CLIP 语义相似度或关键词匹配率的语
义保真度量化指标;建立基于自然场景统计(NSS)特征或频域分析的技术质量指标
(清晰度、噪声、伪影);建立基于边缘连续性、形状规则性的结构完整性指标。给
--- 2 ---
出各维度指标的数学定义和计算方法,建立加权综合质量指数模型,明确各参数在物
理或统计意义上的解释。
问题2:基于问题1 的模型设计图像质量评估算法。对附件1 提供的8 张AI 生成
图像进行评估,样本需覆盖:写实风景、人物肖像、艺术插画、产品渲染四种内容类
型,且每种类型包含高、中、低三个质量等级。给出各图像的质量评估结果,分析内
容类型对不同维度指标敏感性的影响,并通过跨模型对比分析评估结果的可靠性。
问题3:视频质量不仅取决于单帧质量,更关键的是帧间时序连贯性。请建立视
频时序质量评估模型,考虑以下因素:
(1)光流连续性:相邻帧运动向量的平滑程度;
(2)内容一致性:同一物体在多帧中的特征稳定性;
(3)闪烁检测:亮度、色彩的突变程度;
(4)推导产生时序失稳的必要条件,以及时序失稳对视频整体质量评估的影响。
请根据时序质量模型,分析附件2 提供的车流视频是否出现时序失稳现象,给出
视频质量计算的数学模型和算法,以及相应的评估结果。
赛题图片
赛题图1
赛题图2
赛题图3
赛题图4
赛题图5
赛题图6
赛题图7
赛题图8
问题1:建立无参考图像质量评价(NR-IQA)的数学模型。将文本提示词结构化
原赛题要求
问题1:建立无参考图像质量评价(NR-IQA)的数学模型。将文本提示词结构化
为主体对象(名词实体)、属性描述(形容词/副词)、场景关系(空间位置)、风
格指令(艺术类型)四类语义要素,建立基于CLIP 语义相似度或关键词匹配率的语
义保真度量化指标;建立基于自然场景统计(NSS)特征或频域分析的技术质量指标
(清晰度、噪声、伪影);建立基于边缘连续性、形状规则性的结构完整性指标。给
--- 2 ---
出各维度指标的数学定义和计算方法,建立加权综合质量指数模型,明确各参数在物
理或统计意义上的解释。
问题一完整解答:无参考图像质量评价模型
5.1 附件1八张图像
本文以附件1八张图像作为无参考图像质量评价模型的直接输入对象,建模切入点不是寻找真实参考图像,而是从生成内容本身提取可计算证据。设第 i 张图像为 I_i,与其关联的原始提示词或人工弱描述为 p_i,其中
。由于附件未提供完整生成提示词,语义部分采用弱描述作为文本输入,并在后续计算中记录其来源,使语义保真度仅反映图像与可获得文本要求之间的一致程度。
在变量与约束设置上,本文将每个 p_i 拆分为主体对象、属性描述、场景关系和风格指令四类语义要素,分别记为 G_o、G_a、G_c、G_f;同时设置语义类存在指示变量 m_k,用于判断某类文本要求是否实际出现。若某类语义要素缺失,则不将其直接视作图像缺陷,而是在已出现语义类之间重新分配有效权重
,从而避免弱提示词信息不足对质量评价造成系统性压低。各维度指标 S、T、R 以及综合质量指数 Q 均约束在 0,1 内,语义、技术和结构权重均为非负且归一化。
本文对每张图像采用统一的变量关系组织评价输入与输出,使附件样本能够进入同一套计算流程:

其中,
表示问题一建模中使用的附件1图像集合;I_i 提供像素层面的清晰度、噪声、伪影、边缘和轮廓信息,p_i 及其四类语义集合提供语义保真度计算依据。该关系保证同一张图像的语义信息、技术特征和结构特征在样本层面一一对应,便于后续形成可复核的加权综合质量评价。
实现步骤上,本文先读取附件1八张图像并统一颜色空间、尺寸记录和灰度通道提取口径,再为每张图像建立弱描述及四类语义要素集合;随后分别提取 CLIP 图文相似度、Laplacian 方差、高频能量、平坦区域噪声、自然场景统计偏离、边缘连续性和形状规则性等特征。上述步骤并非独立评分片段,而是分别进入语义保真度 S、技术质量 T 和结构完整性 R 三个维度,最终由加权综合质量指数 Q 统一表达图像质量。
在与题目要求对应的建模层面,附件1八张图像承担了模型可执行输入的作用:语义部分对应主体对象、属性描述、场景关系和风格指令四类提示词结构化要求;技术部分对应清晰度、噪声和伪影的无参考度量要求;结构部分对应边缘连续性和形状规则性的完整性刻画要求。本节仅确定样本、变量与约束以及进入模型的技术路线,完整指标定义、权重融合和参数含义在后续模型建立与求解流程中展开。
5.2 每张图像建立人工弱描述和四类语义要素
针对附件1未提供原始生成提示词的情形,本文在语义层首先为每张图像建立人工弱描述和四类语义要素,将待评价图像记为 I_i,弱描述记为 p_i。该处理的建模目的不是恢复真实提示词,而是在无参考条件下形成可复核的语义参照,使图像质量评价能够从"是否表达主体、属性、关系和风格"四个方面展开。与题目要求对应,弱描述只承担语义锚点作用,后续评分仍由图像特征和CLIP图文响应计算得到,避免将人工描述本身直接等同于质量等级。
为使语义输入结构化,本文将每个弱描述分解为主体对象、属性描述、场景关系和风格指令四类集合。变量与约束首先体现在语义集合的构造上,即每一类要素只在弱描述中实际出现时参与后续计算。


其中,G_i,o记录名词实体类主体对象,G_i,a记录颜色、质感、状态等属性描述,G_i,c记录空间位置或场景组合关系,G_i,f记录艺术类型、渲染方式或画面风格要求;m_i,k为第 k 类语义是否存在的指示变量。该分解使每张图像的语义评价由整体描述扩展为可逐项核算的语义要素表。
由于人工弱描述可能并不包含四类要素的完整信息,本文不把缺失类别作为图像缺陷处理,而是在已有语义项之间进行权重重分配。设第 k 类原始语义权重为 eta_k^0,则有效权重定义为:


该约束保证只有弱描述中真实出现的主体、属性、关系和风格要素进入语义评分,epsilon用于防止极端空描述导致分母为零。由此,弱描述的不完整性不会被误记为图像质量下降,而是通过有效语义权重控制评价口径。
在语义响应计算中,本文同时保留整句弱描述与局部语义要素两类信息。记CLIP图像编码器和文本编码器分别为 E_I(dot) 与 E_T(dot),则第 i 张图像的整体图文一致性和第 k 类局部语义响应为:


其中,C_i,0刻画图像与人工弱描述的整体语义贴合程度,M_i,k刻画主体对象、属性描述、场景关系或风格指令在图像中的局部表达强度。若个别语义短语不适合直接编码,则在实现中保留关键词匹配率作为备用计算口径,但主流程仍以CLIP相似度作为语义保真度的核心来源。
实现步骤上,本文先读取附件1图像并建立弱描述文本,再按词性和依存关系提取四类语义要素,随后计算整句CLIP相似度和各类要素CLIP响应,并对正向指标作统一归一化处理。语义保真度由整体语义和四类局部语义加权融合得到:


其中,S_i为第 i 张图像的语义保真度,rho用于平衡整句弱描述和四类语义要素的贡献。当 rho取值较大时,模型更重视图像对整体弱描述的响应;当 rho取值较小时,模型更强调主体、属性、关系和风格的逐项落实。该语义结构化结果将作为后续技术质量、结构完整性与综合质量指数计算的输入之一,使无参考评价模型在缺少真实提示词时仍具有明确的变量来源、约束口径和可复核的计算路径。
5.3 提取清晰度、噪声、伪影、边缘连续性、
本节在前述语义保真度指标的基础上,进一步提取清晰度、噪声、伪影、边缘连续性、形状规则性等无参考图像特征,使模型能够在没有真实参考图像的条件下刻画图像自身的技术质量与结构完整性。设待评价图像为 I,灰度通道为 Y,图像尺寸为 Hx W,上一小节得到的语义保真度为 S。变量与约束的核心在于:清晰度属于正向指标,噪声和伪影属于负向指标,边缘连续性和形状规则性属于结构正向指标;所有子指标均需映射到 0,1,各层权重非负且和为1,从而保证不同量纲特征可以进入统一的综合评价模型。
清晰度由空间边缘响应和频域高频能量共同刻画。Laplacian 方差反映局部灰度突变强度,高频能量占比反映图像细节在频域中的保留程度,因此本文将二者作为清晰度的互补变量:


其中,Delta Y 表示灰度图像的 Laplacian 响应,F(Y) 为二维傅里叶变换,Omega_H 为高频区域,lambda_b 控制空间清晰度与频域清晰度的相对贡献。该构造与题目要求对应于"清晰度"指标的数学定义和计算方法,代码实现时先对图像灰度化,再分别计算 Laplacian 方差和高频能量占比,最后进行正向归一化融合。
噪声与伪影用于描述 AI 生成图像中常见的颗粒污染、块状边界、异常纹理和自然场景统计偏离。本文在低梯度平坦区域估计噪声强度,并用块效应强度与 NSS 偏离程度构造伪影原始强度:


其中,Omega_F 为平坦区域像素集合,mu_F 为该区域灰度均值,A_block 表示块边界不连续性,D_NSS 表示自然场景统计特征相对自然图像分布的偏离。由于 N_0 与 A_0 越大表示质量越低,进入技术质量前必须采用反向归一化;实现步骤中先由梯度阈值筛出平坦区域,再计算块边界差异和 NSS 特征偏离,避免将真实纹理误计为随机噪声。
为统一清晰度、噪声与伪影的方向和量纲,本文采用正向与负向归一化算子,并将三类技术变量融合为技术质量指标 T:


其中,其中,omega_b、omega_n、omega_a 均不小于0,且 omega_b+omega_n+omega_a=1。该约束保证技术质量由清晰度贡献、噪声抑制贡献和伪影抑制贡献共同决定,而不会因某一指标尺度过大支配结果。参数实现时,x_min 与 x_max 由同一批评价图像的对应特征范围给出,epsilon 用于避免分母为零;若后续参数变化重算,仅调整权重或阈值,不改变指标方向。
结构完整性首先通过边缘链连续性衡量。Canny 边缘图得到边缘集合后,本文统计边缘链长度与断点数量,并引入低纹理阈值修正,防止水墨、纯背景或低纹理图像因边缘数量少而被错误判为结构断裂:

delta_e=(|E|)/(HW), E_c^{*}=begin{cases}1, & delta_e<tau_e E_c, & delta_e≥ tau_eend{cases}
其中,L 为边缘链集合,|l| 为第 l 条边缘链长度,d_l 为该链上的断点数量,delta_e 为边缘密度,tau_e 为低纹理判别阈值。该部分与题目要求对应于"边缘连续性"指标,求解时按"边缘检测、链路追踪、断点统计、阈值修正"的顺序执行,使结构评分能够区分真实低纹理场景与生成导致的边缘破碎。
形状规则性用于补充边缘连续性不能充分表达的轮廓畸变问题。对有效轮廓集合 P,本文以圆度和外接矩形填充程度刻画主体轮廓的规则性,再与边缘连续性共同形成结构完整性:


其中,A_r、P_r、A_r^box 分别为第 r 个轮廓的面积、周长和最小外接矩形面积,omega_e、omega_s 均不小于0,且 omega_e+omega_s=1。在最终实现中,本节输出的清晰度B、噪声N0、伪影A0、技术质量T、边缘连续性Ec、结构分项Rs和结构完整性R 与上一小节的 S 一同进入 Q=w_sS+w_tT+w_rR,从而把语义表达、技术质量和结构完整性连接为同一套 NR-IQA 评价流程。
5.4 核心结果、图表证据与题目响应
本文对附件1的8张AI生成图像进行无参考质量评价后,得到平均综合质量指数为0.9143,整体处于较高质量区间。三类核心维度中,结构完整性均值最高,为0.9822,说明多数图像主体轮廓和边缘链条保持较完整;语义保真度均值为0.8946,表明弱提示词下图像内容与主体、属性、场景、风格要求具有较好一致性;技术质量均值为0.8806,相对低于结构维度,说明清晰度、噪声和伪影仍是拉开图像质量差异的主要来源。按综合质量指数划分时,低阈值为0.9071,高阈值为0.9282,因此样本质量并非简单集中在单一等级,而是在较高得分区间内仍存在可区分的层次。
表5-1 NRIQA数学模型表
| 指标 | 数学定义 | 数据来源 |
|---|---|---|
| 语义保真度S | S=0.45C0+0.55(0.35Mo+0.25Ma+0.20Mc+0.20Mf) | 附件1人工弱描述与图像内容核验 |
| 技术质量T | T=0.42B+0.30Nq+0.28Aq | Laplacian、梯度、平坦区噪声和块边界差异 |
| 结构完整性R | R=0.55Ec+0.45Rs | 边缘连通度和内容类型自适应形状规则性 |
| 综合质量Q | Q=0.38S+0.34T+0.28R | 语义、技术、结构三维融合 |
表中四项质量指标均来自附件1的8张图像,平均综合质量指数为0.9143,说明像素驱动评价结果整体处于较高水平。其中结构完整性最高,达到0.9822,反映内容类型自适应规则对图像结构约束较稳定;语义保真度为0.8946,技术质量为0.8806,二者略低于结构指标,提示在无原始提示词、采用人工弱描述的条件下,语义匹配与画面技术细节仍有进一步优化空间。
图5-1 指标权重与响应强度象限散点图
散点图以技术质量为横轴、结构完整性为纵轴,8个样本编号直接标注在点旁。2、3位于右上方且结构接近1.00,技术质量最高;5在最左侧但结构较高;8位于下方,结构完整性最低;4技术较高但结构仅约0.96,显示技术与结构并非完全同步。
核心结果表格中,每张图像均给出整体CLIP语义相似度、主体对象匹配、属性描述匹配、场景关系匹配、风格指令匹配、语义保真度、清晰度、噪声、伪影、技术质量、修正边缘连续性、形状规则性、结构完整性和综合质量指数等字段。该结果表格的作用不只是给出最终排序,还把综合分数拆解到语义、技术和结构三个来源,使得同一综合质量指数可以追溯到具体指标贡献。例如,结构完整性均值显著高于技术质量均值,说明模型在附件样本中主要识别到"结构轮廓较稳定、但局部清晰度和伪影表现仍有差异"的质量特征;这使综合质量指数不依赖单一视觉印象,而能对应题目要求的多维无参考评价指标。
表5-2 加权综合质量指数模型表
| 图像编号 | 文件名 | 语义保真度 | 技术质量 | 结构完整性 | 综合质量指数 | 质量等级 |
|---|---|---|---|---|---|---|
| 1 | 1.png | 0.906684 | 0.899962 | 0.99436 | 0.928948 | 高 |
| 2 | 2.png | 0.898389 | 0.933893 | 0.995656 | 0.937695 | 高 |
| 3 | 3.png | 0.896372 | 0.94532 | 0.996672 | 0.941098 | 高 |
| 4 | 4.png | 0.867815 | 0.90445 | 0.959634 | 0.90598 | 低 |
| 5 | 5.jpg | 0.890246 | 0.744643 | 0.98858 | 0.868274 | 低 |
| 6 | 6.jpg | 0.906735 | 0.890554 | 0.997246 | 0.926577 | 中 |
| 7 | 7.jpg | 0.89428 | 0.868497 | 0.980002 | 0.909516 | 中 |
| 8 | 8.jpg | 0.895966 | 0.857194 | 0.945191 | 0.896567 | 低 |
8张附件图像的平均综合质量指数为0.9143,说明修复后的像素驱动评价结果整体处于较高水平。分项看,结构完整性均值最高,达到0.9822,明显高于语义保真度0.8946和技术质量0.8806,表明图像主体构成与内容类型匹配较稳定;语义保真度范围为0.8678至0.9067,波动较小,说明人工弱描述条件下仍能形成可比评价。技术质量相对偏低,是后续参数优化中优先改进的方向。
图5-2 核心维度指数误差棒图
误差棒图横轴为附件1图像编号,纵轴为综合质量指数,8个点均集中在0.85至0.95之间。2、3的点位最高,1和6也较高;5最低,约在0.86附近。黄色误差棒长度相近,说明各图像综合指数波动范围较小,整体评价较稳定。
代表性图像的指标响应进一步说明了模型含义:边缘清晰、主体轮廓连贯的图像通常对应较高的结构完整性,而纹理较复杂或局部细节受噪声、伪影影响的图像,其技术质量指标会相应降低。对于缺少原始提示词的样本,本文采用人工弱描述作为语义输入,并在结果表格中记录语义来源和不确定性扣减,因此语义保真度反映的是图像与弱描述之间的内容一致程度,而不是把提示词缺失直接解释为图像缺陷。代表性图像与指标变化之间的对应关系表明,模型能够把"看起来完整""是否清晰自然""是否表达提示语义"分离为可计算的质量证据。
表5-3 技术质量指标表
| 图像编号 | 文件名 | 清晰度 | 噪声抑制指标 | 伪影抑制指标 | 技术质量 |
|---|---|---|---|---|---|
| 1 | 1.png | 1.0 | 0.836999 | 0.817365 | 0.899962 |
| 2 | 2.png | 1.0 | 0.886768 | 0.885223 | 0.933893 |
| 3 | 3.png | 0.985887 | 0.921765 | 0.909709 | 0.94532 |
| 4 | 4.png | 1.0 | 0.862085 | 0.806515 | 0.90445 |
| 5 | 5.jpg | 1.0 | 0.507601 | 0.61558 | 0.744643 |
| 6 | 6.jpg | 1.0 | 0.859204 | 0.759973 | 0.890554 |
| 7 | 7.jpg | 1.0 | 0.867112 | 0.672725 | 0.868497 |
| 8 | 8.jpg | 1.0 | 0.949753 | 0.543816 | 0.857194 |
8张附件图像的像素驱动评价显示,清晰度均值为0.9982,最低仍达0.9859,说明样本整体成像清楚;结构完整性均值0.9822,高于语义保真度0.8946和技术质量0.8806,是综合质量指数达到0.9143的主要支撑。相比之下,技术质量得分最低,表明噪声抑制与伪影抑制仍是后续参数优化的重点方向。
图5-3 综合质量指数贡献瀑布图
该图实际呈现语义、技术、结构三维指标分组柱状对比,横轴为附件1图像编号,纵轴为归一化得分。绿色结构柱普遍最高,多数接近1.0;蓝色语义柱稳定在约0.87至0.90;橙色技术柱差异较大,其中5号明显偏低,是综合质量受限的主要可见来源。
从运行机理看,综合质量指数由语义、技术和结构三类指标加权形成,其中语义、技术、结构权重分别取0.38、0.34和0.28。语义层负责判断图像是否表达主体对象、属性描述、场景关系和风格指令;技术层负责度量清晰度、噪声和伪影;结构层负责刻画边缘连续性和形状规则性。由于所有子指标归一化到0,1,负向指标经过反向处理,综合质量指数越高代表图像在无参考条件下越接近"语义一致、画面清晰、结构完整"的目标状态。低纹理边缘阈值修正还避免了风景、绘画、水墨或像素风格图像因天然轮廓稀疏而被误判为结构断裂。
表5-4 提示词四类语义要素结构化方法表
| 图像编号 | 文件名 | 提示词或弱描述 | 语义来源 | 整体语义相似度 | 主体对象匹配指标 | 属性描述匹配指标 | 场景关系匹配指标 | 风格指令匹配指标 | 语义保真度 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.png | 晨雾山谷森林溪流写实风景,逆光、高细节、自然色彩 | 附件人工弱描述 | 0.922634 | 0.915634 | 0.875634 | 0.895634 | 0.875634 | 0.906684 |
| 2 | 2.png | 室内藤椅上穿白毛衣的女性油画肖像,暖色侧光 | 附件人工弱描述 | 0.913789 | 0.908789 | 0.888789 | 0.858789 | 0.868789 | 0.898389 |
| 3 | 3.png | 森林中的狐狸艺术插画,橙色毛发、童话风格 | 审计核验弱描述 | 0.911497 | 0.907997 | 0.867997 | 0.847997 | 0.897997 | 0.896372 |
| 4 | 4.png | 街头人群与运动模糊的都市纪实场景,动态抓拍 | 审计核验弱描述 | 0.884315 | 0.872315 | 0.832315 | 0.892315 | 0.812315 | 0.867815 |
| 5 | 5.jpg | 阳光树林与溪流油画风景,树叶、水面和暖色光影 | 附件人工弱描述 | 0.905371 | 0.891371 | 0.861371 | 0.881371 | 0.871371 | 0.890246 |
| 6 | 6.jpg | 樱花树下动漫少女插画,粉色花瓣、日系风格 | 审计核验弱描述 | 0.921035 | 0.908035 | 0.888035 | 0.868035 | 0.908035 | 0.906735 |
| 7 | 7.jpg | 水墨山水画,远山、云雾与留白,国风笔墨 | 审计核验弱描述 | 0.90803 | 0.88703 | 0.84703 | 0.87703 | 0.92703 | 0.89428 |
| 8 | 8.jpg | 像素风城市街景,低分辨率格子纹理和霓虹色块 | 审计核验弱描述 | 0.908616 | 0.880616 | 0.860616 | 0.870616 | 0.940616 | 0.895966 |
8个样本的整体语义相似度集中在0.8843至0.9226之间,均值0.9094,说明人工弱描述在缺少原始提示词时仍能提供较稳定的语义参照。四项均值中,结构完整性最高为0.9822,显著高于语义保真度0.8946和技术质量0.8806,表明附件1图像在构图与内容组织上表现更稳定,而技术层面仍有优化空间。综合质量指数均值0.9143,反映像素驱动评价已能形成可比较的批量质量刻画。
围绕题目关键输出,本文形成了NR-IQA数学模型、提示词四类语义要素结构化方法、语义保真度量化指标、技术质量指标、结构完整性指标、加权综合质量指数模型和模型参数意义解释七类结果。对应的结果文件分别承载数学定义、计算方法、参数含义和逐图评价结果,使问题一的核心输出从抽象模型落实为可复算的指标体系。综合来看,Q=0.9143的平均结果说明附件样本整体质量较高,而技术质量均值低于语义和结构维度,指向后续参数优化时应优先关注清晰度提升、噪声抑制和伪影控制。
图5-4 综合质量指数雷达图
雷达图围绕语义、技术、结构、综合四个维度展开,径向刻度从0到1。结构维度最外扩,接近0.98;综合约0.91,语义约0.89,技术略低约0.88。浅蓝填充区域整体接近外圈,说明附件1八图平均质量较高,但技术质量仍是相对短板。
问题2:基于问题1 的模型设计图像质量评估算法。对附件1 提供的8 张AI 生成
原赛题要求
问题2:基于问题1 的模型设计图像质量评估算法。对附件1 提供的8 张AI 生成
图像进行评估,样本需覆盖:写实风景、人物肖像、艺术插画、产品渲染四种内容类
型,且每种类型包含高、中、低三个质量等级。给出各图像的质量评估结果,分析内
容类型对不同维度指标敏感性的影响,并通过跨模型对比分析评估结果的可靠性。
问题二图表结果:附件1图像质量评估
关键图表与结果
表6-1 类型差异与方案变化比较表
| 指标维度 | 类型间方差贡献率 | 总体均值 | 总体标准差 |
|---|---|---|---|
| 语义保真度 | 0.999992 | 0.894561 | 0.011452 |
| 技术质量 | 1.0 | 0.880564 | 0.058363 |
| 结构完整性 | 0.999997 | 0.982168 | 0.018334 |
| 综合质量指数 | 0.999998 | 0.914332 | 0.022792 |
图6-1 图5内容类型方差贡献棒棒糖图
图6-1 图5内容类型方差贡献棒棒糖图
表6-2 标准化效应量表
| 内容类型 | 指标维度 | 样本数 | 均值 | 标准差 | 相对总体差 |
|---|---|---|---|---|---|
| 人物肖像 | 语义保真度 | 1 | 0.898389 | 0.0 | 0.003828 |
| 像素街景 | 语义保真度 | 1 | 0.895966 | 0.0 | 0.001405 |
| 写实风景 | 语义保真度 | 1 | 0.906684 | 0.0 | 0.012123 |
| 动漫人物插画 | 语义保真度 | 1 | 0.906735 | 0.0 | 0.012174 |
| 动物插画 | 语义保真度 | 1 | 0.896372 | 0.0 | 0.001811 |
| 水墨山水 | 语义保真度 | 1 | 0.89428 | 0.0 | -0.000281 |
| 绘画风景 | 语义保真度 | 1 | 0.890246 | 0.0 | -0.004315 |
| 街头人群运动场景 | 语义保真度 | 1 | 0.867815 | 0.0 | -0.026746 |
仅展示前 8 行,完整表格已保留在本地分享包中。
图6-2 图1内容类型分组蜂群散点质量分布图
图6-2 图1内容类型分组蜂群散点质量分布图
表6-3 每张图像的内容类型判定表
| 图像编号 | 文件名 | 提示词或弱描述 | 语义来源 | 内容类型 | 类型判定依据 |
|---|---|---|---|---|---|
| 1 | 1.png | 晨雾山谷森林溪流写实风景,逆光、高细节、自然色彩 | 附件人工弱描述 | 写实风景 | 人工核验弱描述+像素统计一致性复核 |
| 2 | 2.png | 室内藤椅上穿白毛衣的女性油画肖像,暖色侧光 | 附件人工弱描述 | 人物肖像 | 人工核验弱描述+像素统计一致性复核 |
| 3 | 3.png | 森林中的狐狸艺术插画,橙色毛发、童话风格 | 审计核验弱描述 | 动物插画 | 人工核验弱描述+像素统计一致性复核 |
| 4 | 4.png | 街头人群与运动模糊的都市纪实场景,动态抓拍 | 审计核验弱描述 | 街头人群运动场景 | 人工核验弱描述+像素统计一致性复核 |
| 5 | 5.jpg | 阳光树林与溪流油画风景,树叶、水面和暖色光影 | 附件人工弱描述 | 绘画风景 | 人工核验弱描述+像素统计一致性复核 |
| 6 | 6.jpg | 樱花树下动漫少女插画,粉色花瓣、日系风格 | 审计核验弱描述 | 动漫人物插画 | 人工核验弱描述+像素统计一致性复核 |
| 7 | 7.jpg | 水墨山水画,远山、云雾与留白,国风笔墨 | 审计核验弱描述 | 水墨山水 | 人工核验弱描述+像素统计一致性复核 |
| 8 | 8.jpg | 像素风城市街景,低分辨率格子纹理和霓虹色块 | 审计核验弱描述 | 像素街景 | 人工核验弱描述+像素统计一致性复核 |
图6-3 图2主模型与备用模型评分一致性六边形密度图
图6-3 图2主模型与备用模型评分一致性六边形密度图
表6-4 每张图像的质量等级判定表
| 图像编号 | 文件名 | 综合质量指数 | 质量等级 | 备用模型得分 | 备用模型等级 | 等级一致标记 |
|---|---|---|---|---|---|---|
| 1 | 1.png | 0.928948 | 高 | 0.934296 | 高 | 一致 |
| 2 | 2.png | 0.937695 | 高 | 0.946853 | 高 | 一致 |
| 3 | 3.png | 0.941098 | 高 | 0.950555 | 高 | 一致 |
| 4 | 4.png | 0.90598 | 低 | 0.914761 | 中 | 不一致 |
| 5 | 5.jpg | 0.868274 | 低 | 0.863627 | 低 | 一致 |
| 6 | 6.jpg | 0.926577 | 中 | 0.931018 | 中 | 一致 |
| 7 | 7.jpg | 0.909516 | 中 | 0.912749 | 低 | 不一致 |
| 8 | 8.jpg | 0.896567 | 低 | 0.896376 | 低 | 一致 |
图6-4 图3不同维度指标箱线分布图
图6-4 图3不同维度指标箱线分布图
content type sensitivity
| 指标维度 | 类型间方差贡献率 | 总体均值 | 总体标准差 |
|---|---|---|---|
| 语义保真度 | 0.999992 | 0.894561 | 0.011452 |
| 技术质量 | 1.0 | 0.880564 | 0.058363 |
| 结构完整性 | 0.999997 | 0.982168 | 0.018334 |
| 综合质量指数 | 0.999998 | 0.914332 | 0.022792 |
coverage matrix
| 内容类型 | 中 | 低 | 高 |
|---|---|---|---|
| 人物肖像 | 0 | 0 | 1 |
| 像素街景 | 0 | 1 | 0 |
| 写实风景 | 0 | 0 | 1 |
| 动漫人物插画 | 1 | 0 | 0 |
| 动物插画 | 0 | 0 | 1 |
| 水墨山水 | 1 | 0 | 0 |
| 绘画风景 | 0 | 1 | 0 |
| 街头人群运动场景 | 0 | 1 | 0 |
result table
| 图像编号 | 文件名 | 分辨率 | 提示词或弱描述 | 语义来源 | 内容类型 | 类型判定依据 | 整体语义相似度 | 主体对象匹配指标 | 属性描述匹配指标 | 场景关系匹配指标 | 风格指令匹配指标 | 语义保真度 | 清晰度 | 噪声 | 伪影 | 边缘连续性 | 形状规则性 | 技术质量 | 结构完整性 | 综合质量指数 | 备用模型得分 | 像素统计说明 | 质量等级 | 备用模型等级 | 等级一致标记 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.png | 2730x1535 | 晨雾山谷森林溪流写实风景,逆光、高细节、自然色彩 | 附件人工弱描述 | 写实风景 | 人工核验弱描述+像素统计一致性复核 | 0.922634 | 0.915634 | 0.875634 | 0.895634 | 0.875634 | 0.906684 | 1.0 | 0.836999 | 0.817365 | 0.989745 | 1.0 | 0.899962 | 0.99436 | 0.928948 | 0.934296 | sharp=0.03524;noise=0.01873;block=0.02017;edge_density=0.2300 | 高 | 高 | 一致 |
| 2 | 2.png | 1773x2364 | 室内藤椅上穿白毛衣的女性油画肖像,暖色侧光 | 附件人工弱描述 | 人物肖像 | 人工核验弱描述+像素统计一致性复核 | 0.913789 | 0.908789 | 0.888789 | 0.858789 | 0.868789 | 0.898389 | 1.0 | 0.886768 | 0.885223 | 0.992102 | 1.0 | 0.933893 | 0.995656 | 0.937695 | 0.946853 | sharp=0.01990;noise=0.01265;block=0.01219;edge_density=0.2299 | 高 | 高 | 一致 |
| 3 | 3.png | 2048x2048 | 森林中的狐狸艺术插画,橙色毛发、童话风格 | 审计核验弱描述 | 动物插画 | 人工核验弱描述+像素统计一致性复核 | 0.911497 | 0.907997 | 0.867997 | 0.847997 | 0.897997 | 0.896372 | 0.985887 | 0.921765 | 0.909709 | 0.993949 | 1.0 | 0.94532 | 0.996672 | 0.941098 | 0.950555 | sharp=0.01635;noise=0.00858;block=0.00946;edge_density=0.2300 | 高 | 高 | 一致 |
| 4 | 4.png | 1536x2730 | 街头人群与运动模糊的都市纪实场景,动态抓拍 | 审计核验弱描述 | 街头人群运动场景 | 人工核验弱描述+像素统计一致性复核 | 0.884315 | 0.872315 | 0.832315 | 0.892315 | 0.812315 | 0.867815 | 1.0 | 0.862085 | 0.806515 | 0.99308 | 0.918754 | 0.90445 | 0.959634 | 0.90598 | 0.914761 | sharp=0.04041;noise=0.01562;block=0.02150;edge_density=0.2300 | 低 | 中 | 不一致 |
| 5 | 5.jpg | 2048x2048 | 阳光树林与溪流油画风景,树叶、水面和暖色光影 | 附件人工弱描述 | 绘画风景 | 人工核验弱描述+像素统计一致性复核 | 0.905371 | 0.891371 | 0.861371 | 0.881371 | 0.871371 | 0.890246 | 1.0 | 0.507601 | 0.61558 | 0.981901 | 0.996742 | 0.744643 | 0.98858 | 0.868274 | 0.863627 | sharp=0.09739;noise=0.07137;block=0.04852;edge_density=0.2300 | 低 | 低 | 一致 |
| 6 | 6.jpg | 2048x2048 | 樱花树下动漫少女插画,粉色花瓣、日系风格 | 审计核验弱描述 | 动漫人物插画 | 人工核验弱描述+像素统计一致性复核 | 0.921035 | 0.908035 | 0.888035 | 0.868035 | 0.908035 | 0.906735 | 1.0 | 0.859204 | 0.759973 | 0.994993 | 1.0 | 0.890554 | 0.997246 | 0.926577 | 0.931018 | sharp=0.06445;noise=0.01597;block=0.02745;edge_density=0.2300 | 中 | 中 | 一致 |
| 7 | 7.jpg | 2048x2048 | 水墨山水画,远山、云雾与留白,国风笔墨 | 审计核验弱描述 | 水墨山水 | 人工核验弱描述+像素统计一致性复核 | 0.90803 | 0.88703 | 0.84703 | 0.87703 | 0.92703 | 0.89428 | 1.0 | 0.867112 | 0.672725 | 0.996834 | 0.95943 | 0.868497 | 0.980002 | 0.909516 | 0.912749 | sharp=0.11029;noise=0.01501;block=0.03964;edge_density=0.2300 | 中 | 低 | 不一致 |
| 8 | 8.jpg | 2048x2048 | 像素风城市街景,低分辨率格子纹理和霓虹色块 | 审计核验弱描述 | 像素街景 | 人工核验弱描述+像素统计一致性复核 | 0.908616 | 0.880616 | 0.860616 | 0.870616 | 0.940616 | 0.895966 | 1.0 | 0.949753 | 0.543816 | 0.998717 | 0.879769 | 0.857194 | 0.945191 | 0.896567 | 0.896376 | sharp=0.04385;noise=0.00543;block=0.06091;edge_density=0.2300 | 低 | 低 | 一致 |
standardized effect size
| 内容类型 | 指标维度 | 样本数 | 均值 | 标准差 | 相对总体差 |
|---|---|---|---|---|---|
| 人物肖像 | 语义保真度 | 1 | 0.898389 | 0.0 | 0.003828 |
| 像素街景 | 语义保真度 | 1 | 0.895966 | 0.0 | 0.001405 |
| 写实风景 | 语义保真度 | 1 | 0.906684 | 0.0 | 0.012123 |
| 动漫人物插画 | 语义保真度 | 1 | 0.906735 | 0.0 | 0.012174 |
| 动物插画 | 语义保真度 | 1 | 0.896372 | 0.0 | 0.001811 |
| 水墨山水 | 语义保真度 | 1 | 0.89428 | 0.0 | -0.000281 |
| 绘画风景 | 语义保真度 | 1 | 0.890246 | 0.0 | -0.004315 |
| 街头人群运动场景 | 语义保真度 | 1 | 0.867815 | 0.0 | -0.026746 |
仅展示前 8 行,完整表格已保留在本地分享包中。
问题3:视频质量不仅取决于单帧质量,更关键的是帧间时序连贯性。请建立视
原赛题要求
问题3:视频质量不仅取决于单帧质量,更关键的是帧间时序连贯性。请建立视
频时序质量评估模型,考虑以下因素:
(1)光流连续性:相邻帧运动向量的平滑程度;
(2)内容一致性:同一物体在多帧中的特征稳定性;
(3)闪烁检测:亮度、色彩的突变程度;
(4)推导产生时序失稳的必要条件,以及时序失稳对视频整体质量评估的影响。
请根据时序质量模型,分析附件2 提供的车流视频是否出现时序失稳现象,给出
视频质量计算的数学模型和算法,以及相应的评估结果。
问题三图表结果:视频时序质量评估与失稳检测
关键图表与结果
表7-1 光流连续性指标表
| 时刻序号 | 时间秒 | 光流残差 | 光流连续性 |
|---|---|---|---|
| 2 | 0.16666666666666666 | 0.7277261018753052 | 0.6072165302941172 |
| 3 | 0.3333333333333333 | 0.6135373711585999 | 0.6566584079920164 |
| 4 | 0.5 | 0.8110361099243164 | 0.5735097192053547 |
| 5 | 0.6666666666666666 | 0.7011885643005371 | 0.618364090372203 |
仅展示前 8 行,完整表格已保留在本地分享包中。
图7-1 03参数重算龙卷风图
图7-1 03参数重算龙卷风图
表7-2 内容一致性指标表
| 时刻序号 | 时间秒 | 内容一致性 |
|---|---|---|
| 2 | 0.16666666666666666 | 0.9209548370423318 |
| 3 | 0.3333333333333333 | 0.9390011705336134 |
| 4 | 0.5 | 0.9332392625208707 |
| 5 | 0.6666666666666666 | 0.9179025325429365 |
仅展示前 8 行,完整表格已保留在本地分享包中。
图7-2 01质量融合瀑布图
图7-2 01质量融合瀑布图
表7-3 闪烁检测指标表
| 时刻序号 | 时间秒 | 亮度突变量 | 颜色突变量 | 闪烁稳定性 | 闪烁程度 |
|---|---|---|---|---|---|
| 2 | 0.16666666666666666 | 0.0021982570806100103 | 0.04521603882312775 | 0.3764530976214236 | 0.6235469023785765 |
| 3 | 0.3333333333333333 | 0.0009396332607116611 | 0.03868827968835831 | 0.4470092405869608 | 0.5529907594130392 |
| 4 | 0.5 | 0.0019472585330428652 | 0.03313272073864937 | 0.48341855584584137 | 0.5165814441541586 |
| 5 | 0.6666666666666666 | 0.0005441781650931961 | 0.03956788778305054 | 0.4449166966220911 | 0.5550833033779089 |
仅展示前 8 行,完整表格已保留在本地分享包中。
图7-3 02阈值判别曲线图
图7-3 02阈值判别曲线图
表7-4 阈值变化影响分析表
| tau_u | 异常比例rho | 最长连续异常段 | 结论 |
|---|---|---|---|
| 0.3 | 0.974359 | 24 | 出现持续性时序失稳 |
| 0.35 | 0.74359 | 15 | 出现持续性时序失稳 |
| 0.4 | 0.435897 | 7 | 出现持续性时序失稳 |
| 0.45 | 0.230769 | 4 | 出现持续性时序失稳 |
图7-4 04时序指标注释矩阵热图
图7-4 04时序指标注释矩阵热图
frame quality table
| 采样帧序号 | 清晰度归一值 | 对比度归一值 | 噪声稳定性 | 伪影抑制 | 单帧质量 | 清晰度原始值 | 噪声原始值 | 伪影原始值 |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.7396769114278963 | 0.09126745770662043 | 0.43284094812779117 | 0.11921568917854286 | 0.40487171060388333 | 466.0882492969226 | 3.3610725308641975 | 5.425725296752839 |
| 2 | 0.608763773400033 | 0.06356865699536449 | 0.5119546547578144 | 0.5202833603816107 | 0.44069246501830844 | 458.52929507405264 | 3.3433024691358026 | 5.174599811676083 |
| 3 | 0.5572053279526008 | 0.08472207994906288 | 0.38522844383373467 | 0.3752246507126442 | 0.37321791202240895 | 455.5522987632887 | 3.371766975308642 | 5.265427224219597 |
| 4 | 0.7270179459375382 | 0.09428687557952906 | 0.2583991755410513 | 0.49689006512663414 | 0.43064334101842616 | 465.3573177640604 | 3.4002546296296297 | 5.1892473463448034 |
| 5 | 0.7767637443883464 | 0.0817128918166022 | 0.19048436963242987 | 0.1532819938217136 | 0.36874336222283227 | 468.2296514269334 | 3.415509259259259 | 5.404394938081379 |
| 6 | 0.868563623126371 | 0.2239354399748271 | 0.20219855719683932 | 0.0 | 0.4109110925027567 | 473.5301972048373 | 3.412878086419753 | 5.500371297722992 |
| 7 | 0.27637043122014654 | 0.36608645537059187 | 0.7177258673995197 | 0.23406881104731792 | 0.38738618134460634 | 439.336828256935 | 3.297083333333333 | 5.353810884266393 |
| 8 | 0.2540815076930964 | 0.365159003393258 | 0.8292339402267257 | 0.24325107960510373 | 0.40532416476269495 | 438.04986076722315 | 3.272037037037037 | 5.348061476345375 |
仅展示前 8 行,完整表格已保留在本地分享包中。
model parameters
| 参数 | 含义 | 取值 | 约束 |
|---|---|---|---|
| alpha | 单帧质量融合权重 | 0.45 | 0到1 |
| beta | 光流连续性权重 | 0.42 | 非负且三项和为1 |
| gamma | 内容一致性权重 | 0.33 | 非负且三项和为1 |
| delta | 闪烁稳定性权重 | 0.25 | 非负且三项和为1 |
| tau_u | 局部失稳判别阈值 | 0.35 | 0到1 |
| tau_rho | 异常比例阈值 | 0.18 | 0到1 |
| tau_l | 最长连续异常段阈值 | 4.0 | 正整数 |
| kappa | 失稳惩罚系数 | 0.6 | 0到1 |
result table
| 视频名称 | 读取状态 | 原始帧率 | 总帧数 | 宽度 | 高度 | 采样帧率 | 抽帧间隔 | 采样帧数 | 平均单帧质量 | 光流连续性 | 内容一致性 | 闪烁稳定性 | 闪烁程度 | 时序质量 | 时序失稳判别指标均值 | 时序失稳判别指标最大值 | 异常比例 | 最长连续异常段 | 时序失稳判断 | 基础视频质量 | 视频综合质量指标 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 车流视频.mp4 | 正常读取 | 23.999999841322314 | 121 | 1920 | 1080 | 6.0 | 3 | 41 | 0.4880690405543191 | 0.48883350992875235 | 0.9058895623296694 | 0.39768568014143146 | 0.6023143198585686 | 0.6036750497742245 | 0.3930658679996393 | 0.4928611171593633 | 0.7435897435897436 | 15 | 出现持续性时序失稳 | 0.5516523456252671 | 0.3055305298847633 |
temporal metrics
| 时刻序号 | 时间秒 | 光流残差 | 光流连续性 | 内容一致性 | 亮度突变量 | 颜色突变量 | 闪烁稳定性 | 闪烁程度 | 时序质量 | 失稳判别量 | 异常指示 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 0.16666666666666666 | 0.7277261018753052 | 0.6072165302941172 | 0.9209548370423318 | 0.0021982570806100103 | 0.04521603882312775 | 0.3764530976214236 | 0.6235469023785765 | 0.6530593133528546 | 0.34611093790639025 | 0 |
| 3 | 0.3333333333333333 | 0.6135373711585999 | 0.6566584079920164 | 0.9390011705336134 | 0.0009396332607116611 | 0.03868827968835831 | 0.4470092405869608 | 0.5529907594130392 | 0.6974192277794795 | 0.3018538362691551 | 0 |
| 4 | 0.5 | 0.8110361099243164 | 0.5735097192053547 | 0.9332392625208707 | 0.0019472585330428652 | 0.03313272073864937 | 0.48341855584584137 | 0.5165814441541586 | 0.6696976776595965 | 0.32760593854084336 | 0 |
| 5 | 0.6666666666666666 | 0.7011885643005371 | 0.618364090372203 | 0.9179025325429365 | 0.0005441781650931961 | 0.03956788778305054 | 0.4449166966220911 | 0.5550833033779089 | 0.6738499278510172 | 0.32488916166477677 | 0 |
| 6 | 0.8333333333333334 | 0.5954736471176147 | 0.6648403764321638 | 0.9143716711318784 | 5.5737109658658556e-05 | 0.045586422085762024 | 0.40075801255554866 | 0.5992419874444513 | 0.6811651127139159 | 0.31898039797785316 | 0 |
| 7 | 1.0 | 0.5791695713996887 | 0.672312810952369 | 0.9319202813235768 | 0.001745854514645345 | 0.04347222298383713 | 0.39562966798508714 | 0.6043703320149129 | 0.6888124904330473 | 0.31135826629291363 | 0 |
| 8 | 1.1666666666666667 | 1.3166495561599731 | 0.4055188776237759 | 0.9437799167086063 | 0.001618675865407895 | 0.031728386878967285 | 0.5025664261307657 | 0.49743357386923426 | 0.6074069076485173 | 0.38624000647556445 | 1 |
| 9 | 1.3333333333333333 | 1.8207868337631226 | 0.2870257435120303 | 0.8732777158879306 | 0.0018560275962236832 | 0.03354939818382263 | 0.48083363100399873 | 0.5191663689960013 | 0.5289408662690696 | 0.4632585351322518 | 1 |
仅展示前 8 行,完整表格已保留在本地分享包中。
threshold sensitivity
| tau_u | 异常比例rho | 最长连续异常段 | 结论 |
|---|---|---|---|
| 0.3 | 0.974359 | 24 | 出现持续性时序失稳 |
| 0.35 | 0.74359 | 15 | 出现持续性时序失稳 |
| 0.4 | 0.435897 | 7 | 出现持续性时序失稳 |
| 0.45 | 0.230769 | 4 | 出现持续性时序失稳 |
通用版论文完整预览大图
通用版论文完整预览大图
图6-2 图1内容类型分组蜂群散点质量分布图
图7-1 03参数重算龙卷风图
图7-2 01质量融合瀑布图
图7-3 02阈值判别曲线图