⚡ AnyText | 广告营销文本生成
本文介绍AnyText文本生成和文本编辑,适合广告电商图片生成,降本增效。
- paper arxiv.org/pdf/2311.03...
[TOC]
1️⃣ 论文摘要
这篇论文介绍了一个名为AnyText的新型扩散模型,专注于生成准确且连贯的图像中的视觉文本。AnyText是一个基于扩散的多语言视觉文本生成和编辑模型,它通过两个主要组件来实现这一目标:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。
-
辅助潜在模块:这个模块使用文本字形、位置和遮蔽图像等输入来生成用于文本生成或编辑的潜在特征。它通过将这些信息编码到潜在空间中,帮助模型在图像中生成或修改文本。
-
文本嵌入模块:这个模块使用光学字符识别(OCR)模型将笔画数据编码为嵌入,然后与来自分词器的图像标题嵌入融合,以生成与背景无缝融合的文本。
为了进一步提高书写准确性,AnyText在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)。AnyText能够生成多种语言的字符,据作者所知,这是第一个解决多语言视觉文本生成的工作。
此外,论文还贡献了一个大规模的多语言文本图像数据集AnyWord-3M,包含300万对图像-文本对,以及多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成的准确性和质量。
论文还提到,AnyText可以轻松地集成到现有的扩散模型中,以准确渲染或编辑文本。经过广泛的评估实验,AnyText在性能上显著优于其他方法。
2️⃣ 核心原理
本文中的AnyText模型通过两个主要模块来实现准确和连贯的视觉文本生成:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。
-
辅助潜在模块:
- 该模块使用文本字形(glyph)、位置(position)和遮蔽图像(masked image)作为输入,生成用于文本生成或编辑的潜在特征。
- 文本字形(glyph)是通过使用统一的字体样式(例如"Arial Unicode")在图像上渲染文本来生成的,这样可以简化在曲线或不规则区域准确渲染字符的过程。
- 位置(position)信息是通过在图像上标记文本位置来生成的,这允许文本感知损失精确地定位文本区域。
- 遮蔽图像(masked image)指示在扩散过程中应保留图像的哪些区域。在文本到图像模式下,遮蔽图像被设置为完全遮蔽,而在文本编辑模式下,遮蔽图像用于遮蔽文本区域。
-
文本嵌入模块:
- 该模块使用光学字符识别(OCR)模型将笔画数据编码为嵌入,这些嵌入与分词器生成的图像标题嵌入融合,以生成与背景无缝融合的文本。
- 文本嵌入模块不按字符逐个学习,而是利用预训练的视觉模型(特别是PP-OCRv3)来提取字形信息。
- 这些提取的嵌入随后被用作标记,输入到基于Transformer的文本编码器中,以获得融合的中间表示,然后通过交叉注意力机制映射到UNet的中间层。
通过这两个模块的结合,AnyText能够生成多种语言的文本,并且在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)来进一步提高书写准确性。此外,AnyText可以轻松地集成到现有的扩散模型中,赋予它们准确生成文本的能力。
3️⃣ 应用场景
这篇论文提出的AnyText模型具有广泛的应用场景,特别是在需要高质量视觉文本生成的领域。以下是一些具体的应用实例:
-
广告和营销:AnyText可以用于创建包含定制文本的广告图像,例如在产品包装、横幅、海报或社交媒体广告中添加吸引人的标语或品牌信息。
-
数字艺术和设计:艺术家和设计师可以使用AnyText来生成具有特定文本元素的数字艺术作品,或者在设计中无缝地融入文本,如在插图、图形设计和网站布局中。
-
电影和视频制作:在电影和视频制作中,AnyText可以用来生成带有特定文本的道具、场景背景或者后期特效,比如在电影中添加逼真的新闻标题、路牌或书籍封面。
-
游戏开发:游戏开发者可以使用AnyText来创建具有动态文本元素的游戏环境,如在游戏界面、游戏内物品或虚拟世界中的标识牌上添加文本。
-
教育和培训材料:AnyText可以帮助创建包含互动文本的教育内容,例如在电子教科书、培训手册或在线课程中添加可编辑的文本元素。
-
个性化礼物和纪念品:AnyText可以用于定制个性化礼物,如在照片上添加个性化的文本信息,或者在纪念品上创建独特的设计。
-
社交媒体和内容创作:内容创作者可以使用AnyText来制作包含定制文本的图像和视频,用于社交媒体帖子、博客文章或YouTube视频。
-
语言学习和文化交流:AnyText的多语言文本生成能力可以用于创建多语言学习材料,促进不同语言和文化之间的交流。
-
虚拟现实和增强现实:在VR和AR应用中,AnyText可以用来生成与虚拟环境互动的文本,提供沉浸式体验。
-
电子商务:在线零售商可以使用AnyText来创建带有动态促销信息的图像,或者在产品图片上添加客户评价和推荐。
这些应用场景展示了AnyText在不同行业中的潜力,它能够提高创意工作的效率,同时也为用户和观众提供更加丰富和个性化的视觉体验。
4️⃣ 对比实验
5️⃣ 免费试用
运行示例
AnyText有两种运行模式:文字生成和文字编辑,每种模式下提供了丰富的示例,选择一个,点击[Run!]即可。
请注意,运行示例前确保手绘位置区域是空的,防止影响示例结果,另外不同示例使用不同的参数(如分辨率,种子数等),如果要自行生成时,请留意参数变化,或刷新页面恢复到默认参数。
文字生成
在Prompt中输入描述提示词(支持中英文),需要生成的每一行文字用双引号包裹,然后依次手绘指定每行文字的位置,生成图片。 文字位置的绘制对成图质量很关键, 请不要画的太随意或太小,位置的数量要与文字行数量一致,每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。如果手绘(Manual-draw)不方便, 可以尝试拖框矩形(Manual-rect)或随机生成(Auto-rand)。
多行生成时,每个位置按照一定规则排序后与文字行做对应,Sort Position选项用于确定排序时优先从上到下还是从左到右。 可以在参数设置中打开Show Debug选项,在结果图像中观察文字位置和字形图。也可以勾选Revise Position选项,这样会用渲染文字的外接矩形作为修正后的位置,不过偶尔发现这样生成的文字创造性略低。
文字编辑
请上传一张待编辑的图片作为参考图(Ref),然后调整笔触大小后,在参考图上涂抹要编辑的位置,在Prompt中输入描述提示词和要修改的文字内容,生成图片。
-
文本生成
-
文本编辑
样例
输入文本:
一张户外雪地靴的电商广告,上面写着 "双12大促!","立减50","加绒加厚","穿脱方便","温暖24小时送达", "包邮",高级设计感,精美构图
输出图像:
输入文本:
一张户外雪地靴的电商广告,上面写着 "240103大促!","立减5万","加绒加厚","穿脱方便","温暖24小时送达", "包邮",高级设计感,精美构图
输出图像:
🤝 Thank you
❤️ 每周免费分享AIGC相关最新资讯,感兴趣可以关注,喜欢动动小手点个赞,谢谢支持!