AnyText | 广告营销文本生成

⚡ AnyText | 广告营销文本生成

本文介绍AnyText文本生成和文本编辑,适合广告电商图片生成,降本增效。

[TOC]

1️⃣ 论文摘要

这篇论文介绍了一个名为AnyText的新型扩散模型,专注于生成准确且连贯的图像中的视觉文本。AnyText是一个基于扩散的多语言视觉文本生成和编辑模型,它通过两个主要组件来实现这一目标:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。

  1. 辅助潜在模块:这个模块使用文本字形、位置和遮蔽图像等输入来生成用于文本生成或编辑的潜在特征。它通过将这些信息编码到潜在空间中,帮助模型在图像中生成或修改文本。

  2. 文本嵌入模块:这个模块使用光学字符识别(OCR)模型将笔画数据编码为嵌入,然后与来自分词器的图像标题嵌入融合,以生成与背景无缝融合的文本。

为了进一步提高书写准确性,AnyText在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)。AnyText能够生成多种语言的字符,据作者所知,这是第一个解决多语言视觉文本生成的工作。

此外,论文还贡献了一个大规模的多语言文本图像数据集AnyWord-3M,包含300万对图像-文本对,以及多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成的准确性和质量。

论文还提到,AnyText可以轻松地集成到现有的扩散模型中,以准确渲染或编辑文本。经过广泛的评估实验,AnyText在性能上显著优于其他方法。

2️⃣ 核心原理

本文中的AnyText模型通过两个主要模块来实现准确和连贯的视觉文本生成:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。

  1. 辅助潜在模块

    • 该模块使用文本字形(glyph)、位置(position)和遮蔽图像(masked image)作为输入,生成用于文本生成或编辑的潜在特征。
    • 文本字形(glyph)是通过使用统一的字体样式(例如"Arial Unicode")在图像上渲染文本来生成的,这样可以简化在曲线或不规则区域准确渲染字符的过程。
    • 位置(position)信息是通过在图像上标记文本位置来生成的,这允许文本感知损失精确地定位文本区域。
    • 遮蔽图像(masked image)指示在扩散过程中应保留图像的哪些区域。在文本到图像模式下,遮蔽图像被设置为完全遮蔽,而在文本编辑模式下,遮蔽图像用于遮蔽文本区域。
  2. 文本嵌入模块

    • 该模块使用光学字符识别(OCR)模型将笔画数据编码为嵌入,这些嵌入与分词器生成的图像标题嵌入融合,以生成与背景无缝融合的文本。
    • 文本嵌入模块不按字符逐个学习,而是利用预训练的视觉模型(特别是PP-OCRv3)来提取字形信息。
    • 这些提取的嵌入随后被用作标记,输入到基于Transformer的文本编码器中,以获得融合的中间表示,然后通过交叉注意力机制映射到UNet的中间层。

通过这两个模块的结合,AnyText能够生成多种语言的文本,并且在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)来进一步提高书写准确性。此外,AnyText可以轻松地集成到现有的扩散模型中,赋予它们准确生成文本的能力。

3️⃣ 应用场景

这篇论文提出的AnyText模型具有广泛的应用场景,特别是在需要高质量视觉文本生成的领域。以下是一些具体的应用实例:

  1. 广告和营销:AnyText可以用于创建包含定制文本的广告图像,例如在产品包装、横幅、海报或社交媒体广告中添加吸引人的标语或品牌信息。

  2. 数字艺术和设计:艺术家和设计师可以使用AnyText来生成具有特定文本元素的数字艺术作品,或者在设计中无缝地融入文本,如在插图、图形设计和网站布局中。

  3. 电影和视频制作:在电影和视频制作中,AnyText可以用来生成带有特定文本的道具、场景背景或者后期特效,比如在电影中添加逼真的新闻标题、路牌或书籍封面。

  4. 游戏开发:游戏开发者可以使用AnyText来创建具有动态文本元素的游戏环境,如在游戏界面、游戏内物品或虚拟世界中的标识牌上添加文本。

  5. 教育和培训材料:AnyText可以帮助创建包含互动文本的教育内容,例如在电子教科书、培训手册或在线课程中添加可编辑的文本元素。

  6. 个性化礼物和纪念品:AnyText可以用于定制个性化礼物,如在照片上添加个性化的文本信息,或者在纪念品上创建独特的设计。

  7. 社交媒体和内容创作:内容创作者可以使用AnyText来制作包含定制文本的图像和视频,用于社交媒体帖子、博客文章或YouTube视频。

  8. 语言学习和文化交流:AnyText的多语言文本生成能力可以用于创建多语言学习材料,促进不同语言和文化之间的交流。

  9. 虚拟现实和增强现实:在VR和AR应用中,AnyText可以用来生成与虚拟环境互动的文本,提供沉浸式体验。

  10. 电子商务:在线零售商可以使用AnyText来创建带有动态促销信息的图像,或者在产品图片上添加客户评价和推荐。

这些应用场景展示了AnyText在不同行业中的潜力,它能够提高创意工作的效率,同时也为用户和观众提供更加丰富和个性化的视觉体验。

4️⃣ 对比实验

5️⃣ 免费试用

运行示例

AnyText有两种运行模式:文字生成和文字编辑,每种模式下提供了丰富的示例,选择一个,点击[Run!]即可。

请注意,运行示例前确保手绘位置区域是空的,防止影响示例结果,另外不同示例使用不同的参数(如分辨率,种子数等),如果要自行生成时,请留意参数变化,或刷新页面恢复到默认参数。

文字生成

在Prompt中输入描述提示词(支持中英文),需要生成的每一行文字用双引号包裹,然后依次手绘指定每行文字的位置,生成图片。 文字位置的绘制对成图质量很关键, 请不要画的太随意或太小,位置的数量要与文字行数量一致,每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。如果手绘(Manual-draw)不方便, 可以尝试拖框矩形(Manual-rect)或随机生成(Auto-rand)。

多行生成时,每个位置按照一定规则排序后与文字行做对应,Sort Position选项用于确定排序时优先从上到下还是从左到右。 可以在参数设置中打开Show Debug选项,在结果图像中观察文字位置和字形图。也可以勾选Revise Position选项,这样会用渲染文字的外接矩形作为修正后的位置,不过偶尔发现这样生成的文字创造性略低。

文字编辑

请上传一张待编辑的图片作为参考图(Ref),然后调整笔触大小后,在参考图上涂抹要编辑的位置,在Prompt中输入描述提示词和要修改的文字内容,生成图片。

  • 文本生成

  • 文本编辑


样例

输入文本:

一张户外雪地靴的电商广告,上面写着 "双12大促!","立减50","加绒加厚","穿脱方便","温暖24小时送达", "包邮",高级设计感,精美构图

输出图像:

输入文本:

一张户外雪地靴的电商广告,上面写着 "240103大促!","立减5万","加绒加厚","穿脱方便","温暖24小时送达", "包邮",高级设计感,精美构图

输出图像:

🤝 Thank you

❤️ 每周免费分享AIGC相关最新资讯,感兴趣可以关注,喜欢动动小手点个赞,谢谢支持!

相关推荐
糕冷小美n1 小时前
jeecgbootvue2重新整理数组数据或者添加合并数组并遍历背景图片或者背景颜色
数据结构·算法
CV万花筒2 小时前
点云欧式聚类,条件欧式聚类算法原理及推导
算法·数据挖掘·聚类
ZZZ_O^O2 小时前
【贪心算法-第三弹——Leetcode-179.最大数】
c++·学习·算法·leetcode·贪心算法
Matlab程序猿小助手3 小时前
【MATLAB源码-第228期】基于matlab的鼠群优化算法(RSO)无人机三维路径规划,输出做短路径图和适应度曲线.
开发语言·算法·matlab·机器人·无人机
z千鑫3 小时前
【C/C++】深入解析 Stack 与 Queue 数据结构(详解):实现原理、应用场景与性能优化
c语言·开发语言·数据结构·c++·深度学习·算法·排序算法
Y编程小白3 小时前
Leecode经典题2--移除元素
数据结构·算法·leetcode
Wils0nEdwards3 小时前
Leetcode 颠倒二进制位
算法·leetcode·职场和发展
醇醛酸醚酮酯3 小时前
两数之和--leetcode100题
数据结构·算法·leetcode
xiaoshiguang33 小时前
LeetCode:19.删除链表倒数第N个节点
算法·leetcode·链表
m0_675988233 小时前
Leetcode3208:交替组 II
c语言·数据结构·算法·leetcode