AudioSet 是由 Google 研究团队开发的一个大规模的音频事件识别数据集,它定义了一个层级化的本体(ontology),用于对音频事件进行分类。它包含了丰富的音频类别,每个类别都有其唯一的标识符(ID)。 这些标识符通常基于知识图谱中的,特别是与 Freebase 和 Wikidata 这样的知识库相关联。
1. AudioSet 本体的定义
文件 ontology.json 包含了当前 AudioSet 本体的定义,它是一组音频事件类别的层级结构。
该 JSON 文件描述了一系列声音实体对象的列表。每个对象包含以下字段:
id:此类别的机器标识符,像 /m/0dgw9r 这样的短序列。尽可能地,这些基于知识图谱 ID,最初在 Freebase 中使用。
name:指代此类别的显示名称。应该是独特且明确的。几个类别在其显示名称中包含了一个或多个同义词,例如 "Male speech, man speaking"(男性语音,男人说话)。
description:用几行字描述此类别的描述。
citation_uri:指向用作描述基础的任何文本的指针。通常指向维基百科页面。
positive_examples:YouTube 文件中片段的紧凑 URL 列表,这些片段提供了此类别的确认示例。每个条目都是 youtu.be/8uI9H5jGRV8?start=30&end=40 这样的形式,意味着示例是 YouTube 视频中 ID 为 8uI9H5jGRV8 的视频从第 30 秒开始的 10 秒段。
child_ids:此类别在类别层级中子类别的 id 字段列表。
restrictions:可能包含以下值的列表:
abstract 用于主要作为层级结构中的容器的类别,但本身不会有任何明确的示例。"Human voice"(人类语音)是一个抽象类别。抽象类别总会有子类别。
blacklist 用于暂时被排除在评级之外的类别。这些是我们发现对于评估者来说标记不够可靠,或者我们难以找到候选者,或者我们决定出于其他原因从标记中删除的类别。
该本体由 Google Inc. 在创作共用署名-相同方式共享 4.0 国际 (CC BY-SA 4.0) 许可下提供。
2. 声音实体对象
在 AudioSet 数据集中,声音实体对象是指具有特定属性和标签的音频片段。每个声音实体对象通常包含以下信息:
-
ID :这是音频片段的唯一标识符,通常是一个简短的序列,如
"/m/0dgw9r"
。这个 ID 基于知识图谱的 ID,可能来源于像 Freebase 这样的数据库。 -
Name :这是音频类别的显示名称,它应该是独特且明确的,以便用户能够容易地识别和引用。有些类别可能有多个同义词,这些同义词可能会包含在显示名称中,例如
"Male speech, man speaking"
(男性语音,男人说话)。 -
Description:这是对音频类别的简短描述,用几行文字描述该类别的特点。
-
Citation URI:这是一个指向描述基础文本的指针,通常指向维基百科或其他可靠来源的页面。
-
Positive Examples :这是一组紧凑的 URL 列表,指向 YouTube 视频中的特定片段,这些片段提供了该音频类别的确认示例。每个条目都采用
youtu.be/8uI9H5jGRV8?start=30&end=40
的形式,意味着示例是 YouTube 视频 ID 为8uI9H5jGRV8
的视频中从第 30 秒开始的 10 秒段。 -
Child IDs:如果该类别在层级结构中有子类别,这个字段将列出子类别的 ID。
-
Restrictions:这可能包括一些限制条件,例如:
- Abstract:表示该类别主要是层级结构中的一个容器,但本身不会有任何明确的示例。"Human voice"(人类语音)可能是一个抽象类别。抽象类别总会有子类别。
- Blacklist:表示该类别暂时被排除在评级之外,这些类别可能因为对评估者来说标记不够可靠,或者难以找到候选者,或者由于其他原因被决定从标记中删除。
这些声音实体对象的定义和属性有助于构建一个层级化和有组织的音频事件本体,这在音频识别和声音分析的研究中非常重要。通过这些详细的信息,研究人员可以更好地理解和分类不同的音频事件,并在他们的模型中使用这些数据。
3.AudioSet 本体与声音实体对象
AudioSet 本体是一个层次化的声音事件分类系统,它提供了一个结构化的框架来描述和分类各种声音事件。声音实体对象则是这个本体中的个体成员或实例,每个对象对应一个具体的声音类别。它们之间的关系可以这样理解:
-
本体作为框架:AudioSet 本体定义了一个分类体系,其中包括了不同层级的声音类别。这个体系类似于一个树状结构,其中每个节点代表一个声音类别,而节点之间的连接表示类别之间的层级关系。
-
声音实体对象作为实例:在 AudioSet 本体中,每个声音实体对象代表一个特定的声音类别,例如"鸟鸣"或"汽车引擎声"。这些对象是本体分类体系中的具体实例。
-
层次化关系:声音实体对象在本体中按照层次化结构组织。一些对象可能是更广泛类别的子类别(例如,"人类语音"下可能有"男性语音"和"女性语音"等子类别)。
-
属性和标签:每个声音实体对象都有一组属性,如 ID、名称、描述、示例链接等,这些属性提供了关于声音类别的详细信息。本体则通过这些属性来定义和区分不同的实体对象。
-
抽象与具体:在本体中,某些声音实体对象可能被标记为抽象类别,这意味着它们作为分类体系中的容器存在,不一定有直接的音频示例,而是用于组织更具体的子类别。
-
分类和检索:本体提供了一种方法来分类和检索声音实体对象。研究人员可以使用本体的结构来查找特定类型的声音事件,或者根据声音实体对象的属性来筛选和分析数据。
-
数据集构建:AudioSet 数据集的构建基于这个本体结构。数据集中的音频片段被标注为属于某个声音实体对象,从而将实际的音频数据与本体中的分类体系相连接。
总之,AudioSet 本体提供了一个全面的分类体系,而声音实体对象是这个体系中的具体声音类别。通过本体的结构,研究人员可以系统地研究、分类和分析各种声音事件。
4.唯一标识符(ID)
唯一标识符(ID)在 AudioSet 本体中为每个音频事件类别和子类别提供了一种独特和一致的识别方式。以下是关于这些唯一标识符的详细说明:
-
格式:
唯一标识符通常采用类似于
/m/0dgw9r
的格式,其中m
可能代表"类别(multiple)",而后面的0dgw9r
是一个简短的、系统生成的代码。 -
基于知识图谱:
这些 ID 通常基于知识图谱中的 ID,这意味着它们与更广泛的知识体系相连,如 Google 的 Knowledge Graph 或 Freebase。
-
唯一性:
每个音频事件类别和子类别都有一个独一无二的 ID,这有助于在数据集中准确地引用和识别特定的音频类别。
-
层级结构:
ID 可以反映类别之间的层级关系,其中更广泛的类别可能有更简单的 ID,而子类别则有更具体的 ID。
-
标准化:
使用标准化的 ID 有助于确保数据的一致性,这对于大型数据集和本体尤其重要。
-
易于集成:
基于知识图谱的 ID 易于与其他系统和数据库集成,便于数据共享和分析。
-
搜索和过滤:
唯一标识符使得研究人员和开发者能够轻松地搜索和过滤特定的音频类别,从而在数据分析和机器学习模型训练中使用。
-
更新和维护:
当本体中的类别需要更新或维护时,唯一标识符有助于跟踪变更并确保数据的准确性。
-
社区和研究:
唯一标识符为研究社区提供了一个共同的语言和参考框架,便于学术交流和协作。
-
示例:
例如,
/m/05r5c
可能代表"钢琴声音",而/m/09x0r
可能代表"男性语音"。
这些唯一标识符是 AudioSet 本体组织结构的核心部分,它们使得音频事件的分类和识别在研究和应用中更加高效和精确。
5.知识图谱中的 ID
AudioSet 中的类别 ID 通常基于知识图谱中的 ID,这样的设计有若干重要的含义和好处:
-
互操作性:基于知识图谱的 ID 允许 AudioSet 与其它使用相同知识图谱的数据集或系统进行互操作。这意味着 AudioSet 的数据可以轻松地与其他领域的数据集成和关联。
-
标准化:使用知识图谱 ID 为 AudioSet 提供了一种标准化的方法来标识和分类音频事件,这有助于保持数据的一致性和准确性。
-
扩展性:知识图谱的结构允许新的声音类别和子类别被添加到 AudioSet 本体中,随着时间的推移和技术的发展,本体可以不断扩展和更新。
-
丰富的元数据:知识图谱中的每个实体通常都有丰富的元数据,包括定义、属性、关系等。这意味着 AudioSet 中的每个类别 ID 背后都有详细的背景信息。
-
语义网络:知识图谱构建了一个庞大的语义网络,其中的节点代表实体,边代表实体间的关系。AudioSet 的类别 ID 可以与这个网络中的其他实体相关联,提供更广泛的上下文信息。
-
易于理解和使用:知识图谱中的 ID 通常设计得易于人类理解和使用,同时也可以被机器以标准化的方式解析和处理。
-
搜索和发现:基于知识图谱的 ID 使得通过搜索引擎和其他工具发现和检索 AudioSet 中的音频事件变得更加容易。
-
链接到 Freebase:Freebase 是一个由 Google 支持的协作知识图谱项目,它包含了大量的实体和关系。AudioSet 的类别 ID 链接到 Freebase,可以访问到丰富的相关信息和属性。
通过使用基于知识图谱的 ID,AudioSet 能够融入更广泛的数据生态系统中,这为音频事件的分类、检索和分析提供了强大的支持。
6.Freebase与Wikidata
Freebase 是一个由 Google 支持的项目,它曾经是一个庞大的协作知识图谱,包含了来自各个领域数以百万计的实体(如人物、地点、事物)和它们之间的关系。Freebase 旨在创建一个可扩展的、结构化的在线百科全书,任何人都可以编辑和贡献内容。
当说到 AudioSet 的类别 ID 链接到 Freebase,这意味着:
-
丰富的信息:每个 AudioSet 中的声音类别 ID 可以对应到 Freebase 中的一个实体,这个实体拥有详细的描述、属性和与其他实体的关系。
-
上下文关联:通过链接,AudioSet 的声音类别可以与 Freebase 中的其它实体建立联系,比如一个声音类别可以与特定的事件、地点或人物相关联。
-
数据整合:研究人员和开发者可以利用这些链接,将 AudioSet 数据集与 Freebase 中的数据进行整合,以获取更全面的视角。
-
易于发现:Freebase 提供了一种方式,使得用户可以通过搜索和浏览来发现 AudioSet 中的声音类别。
-
知识共享:Freebase 的协作性质意味着知识是共享的,AudioSet 的用户可以受益于社区贡献的内容。
-
多模态数据:Freebase 不仅包含文本信息,还可能包含图片、视频等多媒体内容,这为 AudioSet 提供了丰富的多模态上下文。
-
持续更新:Freebase 是动态更新的,这意味着链接到 Freebase 的 AudioSet 可以随着 Freebase 的更新而获得最新的信息。
-
研究和应用:链接到 Freebase 的 AudioSet 类别 ID 可以为研究人员提供更深入的上下文信息,有助于音频识别、分类和检索的研究和应用。
虽然 Freebase 在 2016 年停止了服务,但是 Google 将 Freebase 的数据迁移到了 Wikidata,一个由维基媒体基金会运营的免费、协作的多语言知识库。因此,即使 Freebase 不再可用,其精神和数据仍然可以在 Wikidata 中找到。
Wikidata 是一个自由开放的知识库,可以同时被人和机器阅读、编辑。它为其他维基媒体(Wikimedia)项目提供支撑,包括维基百科(Wikipedia)、维基导游(Wikivoyage)、维基字典(Wiktionary)、维基文库(Wikisource)等。
通过将 AudioSet 链接到 Wikidata,研究人员和开发者可以利用 Wikidata 中的结构化数据来增强音频分析和识别任务。例如,通过 Wikidata 的数据,可以更准确地识别和分类 AudioSet 中的声音实体,因为这些实体在 Wikidata 中可能有详细的描述、属性和关系信息。
此外,由于 Wikidata 支持多语言和自由协作编辑,它为 AudioSet 提供了一个动态更新和扩展的平台,有助于丰富和完善音频事件的分类体系。通过这种链接,AudioSet 的数据可以与 Wikidata 中的其它数据集进行整合,为音频识别和声音分析的研究提供更广泛的上下文信息和支持。