机器学习周报三十八

摘要本周阅读了论文GCPO，针对当前实验出现的预测目标稀疏、全局建模困难的问题进行简单的梳理，从GCPO找到解决办法。 ## Abstract This week, I read the paper GCPO and briefly reviewed the issues of sparse prediction targets and difficulties in global modeling that have arisen in current experiments, aiming to find solutions from GCPO.

残差

img1与img2之间只有文本区域不同，residual=img2-img1得到的就是图片大致需要编辑的区域，将残差作为模型需要预测的目标，输入 $rec2(新文本),img1_latent(原图)$ ，模型从rec2和img1_latent中学习预测这个对应的残residual。

自回归模型是从零生成的，如果重新生成一个图片，就会引入伪影和漂移导致效果不好，只对残差进行预测，就可以只编辑部分区域。

1、稀疏

复制代码

残差作为目标稀疏性太高，输入的原图经过处理后是32*128的，需要从大的图片编辑文本这个较小的区域，稀疏的目标不适合预测。

2、伪影

复制代码

低分辨率导致的边缘模糊，上采样层把特征上采样到图片尺寸，会导致字体的边缘模糊。

原图

生成图

效果图

全图生成

输入 $rec2(新文本),img1_latent(原图)$ 到模型，然后学习图片的KV特征，拼接查询 $txt_query,img_query$ 得到生成的图片img2和对img1的识别。将目标文本和图片在第一阶段融合，第二阶段可以从零生成目标图片。

1、损失目标不一致

识别损失(rec_loss)与生成损失(mse_loss)的目标不一致，rec_loss希望kv特征中保留足够识别rec1的信息。生成损失(img_mse_loss)希望可以从kv特征重建出img2，而img2的文字是rec2，与rec1不同。

2、没有显式空间建模

缺少图片mask来计算注意力损失，让注意力更多关注文本区域，没有空间对齐；

Group Critical-token Policy Optimization for Autoregressive Image Generation

由于AR模型的自注意力机制，早期生成的token持续影响后续所有token，对图像整体结构起到决定性作用。实验显示，对前10%的图像token添加扰动会导致图像全局结构发生明显变化，而对中间token的扰动仅影响有限的局部细节。

研究发现，token熵的梯度图能够稳定地标识出图像中的结构区域。高熵梯度token通常对应于主体结构或视觉区域间的过渡区域，这些区域随着RL训练变得更加明显，显示出对RL训练的敏感性。熵梯度反映的是图像中结构边界和视觉区域连接处的变化强度，是识别图像结构关键 token 的稳定指标。