机器学习周报四十三

文章目录

摘要

本周主要的工作是,寻找到一个无监督或者自监督的方法,解决模型的域泛化的问题,探索了幅度损失和方向损失等函数的思路和局限性。

Abstract

The main work this week was to find an unsupervised or self-supervised method to address the model's domain generalization problem, and to explore the ideas and limitations of functions such as magnitude loss and direction loss.


内容一致性

循环一致性微调的流程:

第一步生成任务的目标是用target_glyph的内容替换img1原来的内容source_glyph得到img2_pred;第二步的目标是用source_glyph替换img2_pred的内容得到img1_pred,最后计算img1_pred与img1的损失。

问题:

1、模型会走捷径,将img1复制到img2_pred,再把img2_pred复制到img1_pred,过程忽略掉了target_glyph,模型什么都没有学到。

由此,尝试了几种方法

方向向量损失:

方向向量delta=source_glyph-target_glyph和alpha=img1-img2的方向应该是一致的,cos_sim = F.cosine_similarity(delta,alpha)应该接近1,即角度为0,实际上这个更要求域的不变性,例如字形域将字形图片source_glyph映射到(1,2)、target_glyph映射到(2,1),由于背景的影响可能会导致img1映射到(3,5),img2映射到(1,3)

向量图

可以看到两个向量的方向完全不一致,所以方向损失的一致性会出问题。

其实好的监督项就是图片的内容,文本内容就是限制了img2_pred的内容要和target_glyph一样,避免图片的复制,但是如果引入OCR,就需要多语言字典,加入其他语言就需要重新训练一个识别多语言的OCR模型。

不使用OCR,避免复制的一些方法:

幅度损失:

1、两个字形target_glyph和random_glyph,两个字形输入模型得到两个结果target_img、random_img,target_img和random_img在隐空间latent之间计算相对于source_img的变化量

\\alpha_1 = I_t - I_s \\ \\alpha_2 = I_r - I_s

\\delta_1 = G_t - G_s \\ \\delta_2 = G_r - G_s

如果字形空间的 δ 1 > δ 2 \delta_1>\delta_2 δ1>δ2,那么也应该 α 1 > α 2 \alpha_1 > \alpha_2 α1>α2,比如原始的字形是'Hello',目标的字形是'World',随机的字形是'am',那么am和Hello的差异比World和Hello的差异幅度更大,生成的图片也应该遵循这个关系,就避免模型直接复制原图,如果是走复制捷径,那么两个隐空间张量做差,幅度应该是很小的,不会体现出差异性。

自相似性,都是用一个内容,借助一个余弦相似度损失,target_glyph和忽略了背景的target_img应该是相似的。

问题:

1、隐空间可能会把所有的字形映射到同一个向量,然后所有的风格图片也是映射固定向量,然后幅值损失就是固定的。计算两个字形之间的差异,两个字形是不同的,那么就强调这两个字形的方向应该不一致,所以不会映射到固定的向量。 F . c o s i n e _ s i m i l a r i t y ( G t , G r ) F.cosine\_similarity(G_t,G_r) F.cosine_similarity(Gt,Gr)让这个相似度更接近1.

2、模型可能会随机加入噪声,来适应这种要求,不改变应该改变的文本内容,而是在背景加入噪声,引起这种幅度的差异。需要忽略背景的差异,因为字形图片的背景都是灰色,相互之间就只存在内容之间的变量。而风格图片之间由于背景的差异,相互之间的差异有背景和内容的差异,所以应该忽略背景的变化幅度,应该更关注内容的变化幅度。

总结

本周还是没有找到除了OCR之外更好的内容一致性损失,幅度损失和方向损失都不能抑制模型走捷径,还需要更多的思考。

相关推荐
2zcode1 小时前
基于MATLAB深度学习与传统机器学习的脑肿瘤MRI图像分类系统(GUI界面+数据集+训练代码)
深度学习·机器学习·matlab
AI科技星2 小时前
全域数学·数术本源·第四卷《分析原本》【乖乖数学】
人工智能·机器学习·数学建模·数据挖掘·agi
绛橘色的日落(。・∀・)ノ2 小时前
机器学习 梯度下降
人工智能·机器学习
小何code2 小时前
人工智能【第11篇】K近邻算法KNN:简单有效的分类方法(长文+代码实现)
人工智能·机器学习·knn
AI木马人3 小时前
18.人工智能实战:LoRA 微调后效果不升反降?从数据清洗到训练参数的完整排查方案
人工智能·深度学习·机器学习
淡海水3 小时前
【AI模型】核心概念解析
人工智能·机器学习
薛定e的猫咪4 小时前
OOD 感知决策与可信强化学习:从置信度评估到安全回退
人工智能·安全·机器学习·开源
MediaTea4 小时前
ML:逻辑回归的基本原理与实现
人工智能·算法·机器学习·数据挖掘·逻辑回归
索木木4 小时前
Flash Attention反向梯度优化显存
人工智能·机器学习·大模型·attention·训练·显存优化·aiinfra