EmoAva:首个大规模、高质量的文本到3D表情映射数据集。

2024-12-03，由哈尔滨工业大学（深圳）的计算机科学系联合澳门大学、新加坡南洋理工大学等机构创建了EmoAva数据集，这是首个大规模、高质量的文本到3D表情映射数据集，对于推动情感丰富的3D头像生成技术的发展具有重要意义。

数据集地址：EmoAva|情感计算数据集|3D虚拟形象生成数据集

一、研究背景：

在人工智能领域，尤其是情感计算社区，生成能够反映人类面部情感的头像一直是一个重要研究方向。这种技术在虚拟客户支持、在线治疗等多个实际场景中有着广泛的应用前景。

目前遇到困难和挑战：

1、表情多样性。同一情感文本可以对应多种不同的面部表情，模型需要能够捕捉这种多样性。

2、情感内容一致性。生成的头像表情需要与输入文本的情感基调保持一致。

3、表情流畅性。在对话中，头像的面部表情变化应该是连续和流畅的，这意味着情感状态之间的过渡应该是自然无缝的。

数据集地址：EmoAva|情感计算数据集|3D虚拟形象生成数据集

二、让我们一起来看一下EmoAva数据集

EmoAva是一个包含15,000个文本到3D表情映射实例的大规模、高质量数据集，专为情感丰富的3D头像生成而设计。

EmoAva数据集包含了从电影和电视剧中提取的对话视频片段，通过先进的3D面部跟踪技术提取出3D表情代码和网格。

数据集构建：

包括从视频剪辑中提取音频和视频、使用WhisperX进行音频转录、切割视频以匹配文本、使用FaceNet进行初步筛选和手动细化以获取头部视频，最后使用EMOCA-v2提取3D表情向量。

数据集特点：

1、大规模和高质量，包含15,000个文本-3D表情实例和782,471个FLAME框架。

2、表情多样性，超过15%的实例展现了1到N的关系。

3、情感多样性，包括快乐、悲伤、中性等多种情感。

数据集使用方法：数据集可以用于训练和评估文本到3D表情映射模型，以及3D头像渲染模型，通过提供文本输入生成具有丰富情感的3D头像。

基准测试：

文章提出了一系列评估指标，包括表情多样性、表情流畅性和情感内容一致性，以有效评估模型在这些挑战中的表现。

Emo3D生成分解为两个连续的步骤：文本到3D表情映射（T3DEM）和3D头像渲染（3DAR）。

其中T3DEM是决定Emo3D生成质量的关键步骤，面临表情多样性、情感内容一致性和表情流畅性三个挑战。

1、文本到3D表情映射（T3DEM）：确定Emo3D生成质量的关键步骤，包括表情多样性、情感内容一致性和表情流畅性三个挑战。

2、3D化身渲染（3DAR）：渲染更高质量的微妙表情。

CTEG模型（连续文本到表情生成器）

T3DEM（文本到3D表情映射）：CTEG模型正是针对这一步骤设计的。它负责将给定的文本转换成一系列的表情向量。这些表情向量需要满足三个挑战：表情多样性、情感内容一致性和表情流畅性。CTEG模型通过自回归条件变分自编码器（CVAE）和增强的注意力机制来生成丰富、一致和流畅的表情序列。

GiGA模型（全局信息高斯头像）

3DAR（3D头像渲染）：一旦CTEG模型生成了表情向量，GiGA模型就接管这些向量，将它们用于3D头像的渲染和动画制作。GiGA模型通过在3D高斯表示中整合全局信息机制，能够捕捉微妙的微表情和情感状态之间的无缝过渡，从而使得从视频中重建的3D头像能够展现出丰富的情感表达。

两个模型的关系：

连续性：CTEG模型和GiGA模型在Emo3D生成过程中是连续工作的。CTEG模型的输出（表情向量）直接作为GiGA模型的输入，确保了从文本到3D头像生成的流畅性和一致性。

互补性：CTEG模型专注于文本到表情向量的转换，而GiGA模型专注于将这些表情向量转化为视觉上的3D头像。两者共同实现了从文本到具有丰富情感表达的3D头像的完整生成过程。

总结来说，CTEG模型负责理解和转换文本中的情感信息，生成表情向量，而GiGA模型则负责将这些表情向量转化为3D头像的动态表情，两者协同工作，完成了Emo3D生成的全过程。

这项工作的符号和标记。

来自EmoAva数据集的样本。每个实例包括一个演员所说的文本、相应的头部视频以及一系列3D表情向量（这里以3D网格的形式可视化）。

a:表情序列长度的分布。b:主要面部情感类别的分布

连续文本到表情生成器（CTEG）的架构。给定一段文本，该模型自回归地生成一系列表情向量。绿色块和粉色块分别代表表情感知注意力（EwA）模块和条件变分自回归解码器（CVAD）模块。

GiGA动机的说明。与GaussianAvatars（顶部）相比，GiGA中的3D高斯不仅受绑定网格三角形的影响，还受到其他区域（三角形）的影响。这种设计考虑了肌肉单元的连接，使得对微妙表情变化的建模更加精确。

全局信息高斯头像（GiGA）模型的框架。

CTEG模型生成的多样性的可视化展示。从相同的文本中使用不同的随机种子生成了四个表情序列。CTEG展现了出色的生成多样性。

三、让我们一起展望EmoAva数据集的应用

案例名称：Nora- 虚拟情感治疗助手

在快节奏的现代生活中，许多人面临着心理压力和情感问题。传统的面对面心理治疗受限于地理位置、时间安排和个人隐私顾虑。为了解决这些问题，一家名为"心灵绿洲"的远程心理健康服务公司开发了一个名为"EmoTherapist"的虚拟治疗师平台，利用EmoAva数据集提供逼真的情感支持和治疗。

比如，小k是一位忙碌的都市白领，由于工作压力大，他经常感到焦虑和孤独。他决定尝试"心灵绿洲"提供的"Nora"服务。在一个风和日丽的周六早晨，小k打开了"Nora"应用程序，开始了他的心理治疗之旅。

治疗过程：

1、初始设置：

小k选择了一个舒适的环境，戴上VR头盔，进入了虚拟治疗室。房间布置温馨，阳光透过窗户洒在柔软的沙发上。

2、遇见虚拟治疗师：

随着一阵轻柔的音乐，一位名叫"艾米"的虚拟治疗师出现在小k面前。艾米有着温和的眼神和温暖的微笑，她的面部表情和肢体语言都是基于EmoAva数据集生成的，能够模拟真实人类治疗师的情感反应。

3、情感识别与同步：

在对话开始时，艾米通过语音识别和面部表情分析技术，捕捉小k的情绪状态。她的3D面部表情与小k的情绪同步变化，显示出同理心和关注。

4、情感表达与反馈：

当小k分享工作压力时，艾米的表情变得严肃而关切。她轻轻地点头，眼神中流露出理解和支持。这种情感的反馈让李明感到被听见和理解。

5、情感调节练习：

艾米引导小k进行深呼吸练习和正念冥想，以减轻焦虑。在练习过程中，艾米的表情和语调都与练习的节奏相匹配，帮助小k更好地放松和集中注意力。

6、情感故事分享：

艾米邀请小k分享一个他感到特别焦虑的工作经历。在讲述过程中，艾米的表情随着故事的情绪起伏而变化，她的眉头紧锁，表现出担忧，然后又逐渐放松，鼓励小k找到解决问题的方法。

7、治疗结束与总结：

治疗结束时，艾米总结了小k的进步，并给予了积极的反馈。她的笑容温暖而鼓励，让小k感到轻松和希望。

8、后续行动计划：

艾米为小k制定了一个个性化的行动计划，包括日常的放松技巧和情绪管理策略，帮助他在日常生活中应对压力。

经过几次治疗，小k感到自己的情绪得到了显著改善。他发现与艾米的互动不仅减轻了他的焦虑，还提高了他的情绪管理能力。小k对"Nora"服务感到满意，并推荐给了他的朋友和同事。这种创新的服务模式不仅拓宽了心理健康服务的可及性，也为那些需要情感支持的人们提供了新的选择。

更多免费的数据集，请打开：遇见数据集

遇见数据集-让每个数据集都被发现，让每一次遇见都有价值遇见数据集，国内领先的百万级数据集搜索引擎，实时追踪全球数据集市场，助力把握数字经济时代机遇。https://www.selectdataset.com/