机器学习周报四十一

文章目录

- 摘要
- Abstract
- 总结

摘要

本周阅读了两篇论文Zero-Shot Styled Text Image Generation, but Make It Autoregressive和Exploring Stroke-Level Modifications for Scene Text Editing，都是关于风格文本的合成，二者之间有着类似的合成路径。

Abstract

This week, I read two papers, "Zero-Shot Styled Text Image Generation, but Make It Autoregressive" and "Exploring Stroke-Level Modifications for Scene Text Editing," both of which focus on the synthesis of styled text, sharing similar generation pathways.

这是一篇关于自回归风格文本图片生成的论文，模型的结构如下图：

模型结构

(a) VAE Training：首先训练了一个VAE来提取完整图片中的风格文本部分，强调模型忽略掉背景。
(b) Emuru Training: Encoder-Decoder架构，目标文本 T o u t T_{out} Tout经过分词器输入Encoder转换成一系列特征向量S，对于风格参考图片 I s I_s Is经过(a)训练得到的VAE提取风格文本token，在token上加入噪声，然后计算掩码自回归(teacher-forcing)得到query，query和编码器得到的特征向量S计算交叉注意力得到生成的图片。加入噪声是为了避免自回归时数据泄露
© Emuru Inference: 输入一个参考风格图片文本和语义文本，前缀部分要相同，在风格字体之后续写相同风格的文本。

结果

这是一篇关于场景文本编辑的论文，模型的结构如下图：

模型结构

黄色部分：采用编码器-解码器架构，风格图片 I s I_s Is输入编码器得到token，PSP Module是特征增强模块，用来增强编码器的多尺度特征，SLM模块用于显式引导编辑，非文本区域直接从原图复制，最大化背景完整性， O s = G u i d e s × O s ^ + ( 1 − G u i d e s ) × I s O_s=Guide_s\times \hat{O_s}+(1-Guide_s)\times I_s Os=Guides×Os^+(1−Guides)×Is.
蓝色部分： TPS模块：将空间几何属性（旋转、透视、弯曲）从其他风格（字体、颜色、大小）中解耦，降低风格迁移难度。BackFill，利用 G u i d e s Guide_s Guides去掉 I s I_s Is的背景干扰，得到单独的风格文本，之后进行风格增强，随机旋转角度来增强风格。 O t = G u i d e t × O t ^ + ( 1 − G u i d e s ) × O s O_t=Guide_t\times \hat{O_t}+(1-Guide_s)\times O_s Ot=Guidet×Ot^+(1−Guides)×Os去掉 O t ^ \hat{O_t} Ot^的背景，保留文本区域；去掉 O s O_s Os的文本区域保留背景。

总结

二者都是将背景任务独立出来不处理或者单独提取背景，另一个部分对文本进行操作，带给我的其实就是将任务独立出来，而不是全由一个模型来解决。