AnyText | 广告营销文本生成

⚡ AnyText | 广告营销文本生成

本文介绍AnyText文本生成和文本编辑，适合广告电商图片生成，降本增效。

paper arxiv.org/pdf/2311.03...

TOC

1️⃣ 论文摘要

这篇论文介绍了一个名为AnyText的新型扩散模型，专注于生成准确且连贯的图像中的视觉文本。AnyText是一个基于扩散的多语言视觉文本生成和编辑模型，它通过两个主要组件来实现这一目标：辅助潜在模块（auxiliary latent module）和文本嵌入模块（text embedding module）。

辅助潜在模块：这个模块使用文本字形、位置和遮蔽图像等输入来生成用于文本生成或编辑的潜在特征。它通过将这些信息编码到潜在空间中，帮助模型在图像中生成或修改文本。
文本嵌入模块：这个模块使用光学字符识别（OCR）模型将笔画数据编码为嵌入，然后与来自分词器的图像标题嵌入融合，以生成与背景无缝融合的文本。

为了进一步提高书写准确性，AnyText在训练过程中采用了文本控制扩散损失（text-control diffusion loss）和文本感知损失（text perceptual loss）。AnyText能够生成多种语言的字符，据作者所知，这是第一个解决多语言视觉文本生成的工作。

此外，论文还贡献了一个大规模的多语言文本图像数据集AnyWord-3M，包含300万对图像-文本对，以及多种语言的OCR注释。基于AnyWord-3M数据集，作者提出了AnyText-benchmark，用于评估视觉文本生成的准确性和质量。

论文还提到，AnyText可以轻松地集成到现有的扩散模型中，以准确渲染或编辑文本。经过广泛的评估实验，AnyText在性能上显著优于其他方法。

2️⃣ 核心原理

本文中的AnyText模型通过两个主要模块来实现准确和连贯的视觉文本生成：辅助潜在模块（auxiliary latent module）和文本嵌入模块（text embedding module）。

辅助潜在模块：
- 该模块使用文本字形（glyph）、位置（position）和遮蔽图像（masked image）作为输入，生成用于文本生成或编辑的潜在特征。
- 文本字形（glyph）是通过使用统一的字体样式（例如"Arial Unicode"）在图像上渲染文本来生成的，这样可以简化在曲线或不规则区域准确渲染字符的过程。
- 位置（position）信息是通过在图像上标记文本位置来生成的，这允许文本感知损失精确地定位文本区域。
- 遮蔽图像（masked image）指示在扩散过程中应保留图像的哪些区域。在文本到图像模式下，遮蔽图像被设置为完全遮蔽，而在文本编辑模式下，遮蔽图像用于遮蔽文本区域。
文本嵌入模块：
- 该模块使用光学字符识别（OCR）模型将笔画数据编码为嵌入，这些嵌入与分词器生成的图像标题嵌入融合，以生成与背景无缝融合的文本。
- 文本嵌入模块不按字符逐个学习，而是利用预训练的视觉模型（特别是PP-OCRv3）来提取字形信息。
- 这些提取的嵌入随后被用作标记，输入到基于Transformer的文本编码器中，以获得融合的中间表示，然后通过交叉注意力机制映射到UNet的中间层。

通过这两个模块的结合，AnyText能够生成多种语言的文本，并且在训练过程中采用了文本控制扩散损失（text-control diffusion loss）和文本感知损失（text perceptual loss）来进一步提高书写准确性。此外，AnyText可以轻松地集成到现有的扩散模型中，赋予它们准确生成文本的能力。

3️⃣ 应用场景

这篇论文提出的AnyText模型具有广泛的应用场景，特别是在需要高质量视觉文本生成的领域。以下是一些具体的应用实例：

广告和营销：AnyText可以用于创建包含定制文本的广告图像，例如在产品包装、横幅、海报或社交媒体广告中添加吸引人的标语或品牌信息。
数字艺术和设计：艺术家和设计师可以使用AnyText来生成具有特定文本元素的数字艺术作品，或者在设计中无缝地融入文本，如在插图、图形设计和网站布局中。
电影和视频制作：在电影和视频制作中，AnyText可以用来生成带有特定文本的道具、场景背景或者后期特效，比如在电影中添加逼真的新闻标题、路牌或书籍封面。
游戏开发：游戏开发者可以使用AnyText来创建具有动态文本元素的游戏环境，如在游戏界面、游戏内物品或虚拟世界中的标识牌上添加文本。
教育和培训材料：AnyText可以帮助创建包含互动文本的教育内容，例如在电子教科书、培训手册或在线课程中添加可编辑的文本元素。
个性化礼物和纪念品：AnyText可以用于定制个性化礼物，如在照片上添加个性化的文本信息，或者在纪念品上创建独特的设计。
社交媒体和内容创作：内容创作者可以使用AnyText来制作包含定制文本的图像和视频，用于社交媒体帖子、博客文章或YouTube视频。
语言学习和文化交流：AnyText的多语言文本生成能力可以用于创建多语言学习材料，促进不同语言和文化之间的交流。
虚拟现实和增强现实：在VR和AR应用中，AnyText可以用来生成与虚拟环境互动的文本，提供沉浸式体验。
电子商务：在线零售商可以使用AnyText来创建带有动态促销信息的图像，或者在产品图片上添加客户评价和推荐。

这些应用场景展示了AnyText在不同行业中的潜力，它能够提高创意工作的效率，同时也为用户和观众提供更加丰富和个性化的视觉体验。

4️⃣ 对比实验

5️⃣ 免费试用

网站 github.com/tyxsspa/any...
说明

运行示例

AnyText有两种运行模式：文字生成和文字编辑，每种模式下提供了丰富的示例，选择一个，点击 $Run!$ 即可。

请注意，运行示例前确保手绘位置区域是空的，防止影响示例结果，另外不同示例使用不同的参数（如分辨率，种子数等），如果要自行生成时，请留意参数变化，或刷新页面恢复到默认参数。

文字生成

在Prompt中输入描述提示词（支持中英文），需要生成的每一行文字用双引号包裹，然后依次手绘指定每行文字的位置，生成图片。文字位置的绘制对成图质量很关键, 请不要画的太随意或太小，位置的数量要与文字行数量一致，每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。如果手绘（Manual-draw）不方便，可以尝试拖框矩形（Manual-rect）或随机生成（Auto-rand）。

多行生成时，每个位置按照一定规则排序后与文字行做对应，Sort Position选项用于确定排序时优先从上到下还是从左到右。可以在参数设置中打开Show Debug选项，在结果图像中观察文字位置和字形图。也可以勾选Revise Position选项，这样会用渲染文字的外接矩形作为修正后的位置，不过偶尔发现这样生成的文字创造性略低。

文字编辑

请上传一张待编辑的图片作为参考图(Ref)，然后调整笔触大小后，在参考图上涂抹要编辑的位置，在Prompt中输入描述提示词和要修改的文字内容，生成图片。

文本生成
文本编辑

样例

输入文本：

一张户外雪地靴的电商广告，上面写着 "双12大促！"，"立减50"，"加绒加厚"，"穿脱方便"，"温暖24小时送达"， "包邮"，高级设计感，精美构图

输出图像：

输入文本：

一张户外雪地靴的电商广告，上面写着 "240103大促！"，"立减5万"，"加绒加厚"，"穿脱方便"，"温暖24小时送达"， "包邮"，高级设计感，精美构图

输出图像：

🤝 Thank you

❤️ 每周免费分享AIGC相关最新资讯，感兴趣可以关注，喜欢动动小手点个赞，谢谢支持！