文章目录
摘要
本周阅读了两篇论文Zero-Shot Styled Text Image Generation, but Make It Autoregressive和Exploring Stroke-Level Modifications for Scene Text Editing,都是关于风格文本的合成,二者之间有着类似的合成路径。
Abstract
This week, I read two papers, "Zero-Shot Styled Text Image Generation, but Make It Autoregressive" and "Exploring Stroke-Level Modifications for Scene Text Editing," both of which focus on the synthesis of styled text, sharing similar generation pathways.

这是一篇关于自回归风格文本图片生成的论文,模型的结构如下图:

模型结构
- (a) VAE Training:首先训练了一个VAE来提取完整图片中的风格文本部分,强调模型忽略掉背景。
- (b) Emuru Training: Encoder-Decoder架构,目标文本 T o u t T_{out} Tout经过分词器输入Encoder转换成一系列特征向量S,对于风格参考图片 I s I_s Is经过(a)训练得到的VAE提取风格文本token,在token上加入噪声,然后计算掩码自回归(teacher-forcing)得到query,query和编码器得到的特征向量S计算交叉注意力得到生成的图片。加入噪声是为了避免自回归时数据泄露
- © Emuru Inference: 输入一个参考风格图片文本和语义文本,前缀部分要相同,在风格字体之后续写相同风格的文本。

结果

这是一篇关于场景文本编辑的论文,模型的结构如下图:

模型结构
-
黄色部分:采用编码器-解码器架构,风格图片 I s I_s Is输入编码器得到token,PSP Module是特征增强模块,用来增强编码器的多尺度特征,SLM模块用于显式引导编辑,非文本区域直接从原图复制,最大化背景完整性, O s = G u i d e s × O s ^ + ( 1 − G u i d e s ) × I s O_s=Guide_s\times \hat{O_s}+(1-Guide_s)\times I_s Os=Guides×Os^+(1−Guides)×Is.
-
蓝色部分: TPS模块:将空间几何属性(旋转、透视、弯曲)从其他风格(字体、颜色、大小)中解耦,降低风格迁移难度。BackFill,利用 G u i d e s Guide_s Guides去掉 I s I_s Is的背景干扰,得到单独的风格文本,之后进行风格增强,随机旋转角度来增强风格。 O t = G u i d e t × O t ^ + ( 1 − G u i d e s ) × O s O_t=Guide_t\times \hat{O_t}+(1-Guide_s)\times O_s Ot=Guidet×Ot^+(1−Guides)×Os去掉 O t ^ \hat{O_t} Ot^的背景,保留文本区域;去掉 O s O_s Os的文本区域保留背景。
总结
二者都是将背景任务独立出来不处理或者单独提取背景,另一个部分对文本进行操作,带给我的其实就是将任务独立出来,而不是全由一个模型来解决。