机器学习周报四十一

文章目录

摘要

本周阅读了两篇论文Zero-Shot Styled Text Image Generation, but Make It Autoregressive和Exploring Stroke-Level Modifications for Scene Text Editing,都是关于风格文本的合成,二者之间有着类似的合成路径。

Abstract

This week, I read two papers, "Zero-Shot Styled Text Image Generation, but Make It Autoregressive" and "Exploring Stroke-Level Modifications for Scene Text Editing," both of which focus on the synthesis of styled text, sharing similar generation pathways.


这是一篇关于自回归风格文本图片生成的论文,模型的结构如下图:

模型结构

  • (a) VAE Training:首先训练了一个VAE来提取完整图片中的风格文本部分,强调模型忽略掉背景。
  • (b) Emuru Training: Encoder-Decoder架构,目标文本 T o u t T_{out} Tout经过分词器输入Encoder转换成一系列特征向量S,对于风格参考图片 I s I_s Is经过(a)训练得到的VAE提取风格文本token,在token上加入噪声,然后计算掩码自回归(teacher-forcing)得到query,query和编码器得到的特征向量S计算交叉注意力得到生成的图片。加入噪声是为了避免自回归时数据泄露
  • © Emuru Inference: 输入一个参考风格图片文本和语义文本,前缀部分要相同,在风格字体之后续写相同风格的文本。


结果


这是一篇关于场景文本编辑的论文,模型的结构如下图:

模型结构

  • 黄色部分:采用编码器-解码器架构,风格图片 I s I_s Is输入编码器得到token,PSP Module是特征增强模块,用来增强编码器的多尺度特征,SLM模块用于显式引导编辑,非文本区域直接从原图复制,最大化背景完整性, O s = G u i d e s × O s ^ + ( 1 − G u i d e s ) × I s O_s=Guide_s\times \hat{O_s}+(1-Guide_s)\times I_s Os=Guides×Os^+(1−Guides)×Is.

  • 蓝色部分: TPS模块:将空间几何属性(旋转、透视、弯曲)从其他风格(字体、颜色、大小)中解耦,降低风格迁移难度。BackFill,利用 G u i d e s Guide_s Guides去掉 I s I_s Is的背景干扰,得到单独的风格文本,之后进行风格增强,随机旋转角度来增强风格。 O t = G u i d e t × O t ^ + ( 1 − G u i d e s ) × O s O_t=Guide_t\times \hat{O_t}+(1-Guide_s)\times O_s Ot=Guidet×Ot^+(1−Guides)×Os去掉 O t ^ \hat{O_t} Ot^的背景,保留文本区域;去掉 O s O_s Os的文本区域保留背景。

总结

二者都是将背景任务独立出来不处理或者单独提取背景,另一个部分对文本进行操作,带给我的其实就是将任务独立出来,而不是全由一个模型来解决。

相关推荐
Black蜡笔小新9 小时前
企业私有化AI训练推理一体工作站DLTM企业级AI模型工作站助力企业AI落地常态化
人工智能
apcipot_rain9 小时前
计科八股20260530——文本输入模型步骤、CNN权重共享、Resnet、Transformer、RNN
人工智能·深度学习·神经网络·数学建模·自然语言处理
Mikowoo0079 小时前
神经网络 替代 线性模型_进行模型学习
人工智能·神经网络·学习
53AI9 小时前
AI赋能企业合规审查:从信息过载到智能闭环
人工智能·智能审核·合同审核·合规审查
搬砖的小码农_Sky9 小时前
macOS Sequoia OpenClaw + Ollama 本地离线部署(免API、Apple Silicon金属加速)
人工智能·macos·ai·人机交互
程序猿阿伟9 小时前
《OpenClaw边缘轻量化部署的核心技术与实践》
人工智能
Ajie'Blog9 小时前
Claude 大模型深度评测:从参数架构到实战边界
大数据·人工智能·架构
苏奇伦9 小时前
链式提示——把复杂任务拆成多步对话
人工智能
qq_365320609 小时前
AI使用心得3
人工智能
tedcloud12310 小时前
ai-engineering-from-scratch部署教程:从零搭建AI应用环境
服务器·前端·人工智能·系统架构·edge