百度“文心•跨模态大模型”又有新动态，支持内容分析时输出自定义标签库

ZNNRZNNR2024-07-16 9:11

大模型真正的价值在于应用。

一、基本概念

AI大模型具有强大的表征学习能力，能够在海量数据中提取有用的特征，为各种复杂任务提供解决方案。例如GPT-4o、BERT等模型的出现，不仅展示了大规模参数和复杂计算结构的优势，还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时，多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。

1.跨模态大模型

跨模态大模型（Cross-Modal Large Models），是一种能够处理和理解来自不同模态（如文本、图像、音频、视频等）的数据，并在这些模态之间进行转换、关联和推理的深度学习模型。为了捕捉和表示各种模态数据中的丰富信息，这些模型通常具有庞大的参数规模和复杂的网络结构。

随着深度学习技术的不断发展和计算能力的提升，跨模态大模型的性能和效果越来越好，已经被广泛地投入使用。跨模态大模型可以实现图像描述生成、视觉问答、图像检索等任务，有效地关联和融合信息，为用户提供更加灵活便捷的检索方式。除此之外，跨模态大模型经常用于分析多媒体内容，如视频、音频等，提取其中的关键信息和特征。

2.内容分析

本文介绍的是"媒体内容分析"。它主要利用视觉、语音、知识图谱等AI技术，对视频和图片进行结构化分析，帮助平台实现个性化内容推荐，提升用户检索体验，促使业务有效转化。

百度的媒体内容分析MCA（Media Content Analysis）借助百度积累的海量级数据，针对视频场景进行声音、人脸、图像、文字多维度分析，输出内容的泛标签，可以达到最优的识别效果。

3.结构化标签

结构化标签是一种用于明确标识和分类内容的标记形式。它不仅能帮助人类更好地理解内容，还可以让机器（如搜索引擎、自动化工具等）解析和索引信息，更准确地理解文本含义和上下文信息，提高任务处理效率，从而提高内容的可访问性，改善观众的搜索体验。

结构化标签通常遵循某种标准或规范，如HTML5的语义化标签（如<header>, <footer>, <article>, <section>等）、微数据（Microdata）、RDFa（Resource Description Framework in Attributes）或JSON-LD（JavaScript Object Notation for Linked Data）等。

4.自定义文心标签

当系统中已有的标签无法满足实际需求时，只需在文心标签库里输入"标签名称＋提示词"的文本，系统就能为视频、图片打上对应的标签。这个能力的实现，使用了百度"文心•跨模态大模型"，因此通过这种方式打出的标签，被称为"文心标签"。

百度的内容分析系统，支持"系统内置文心标签"和"自定义文心标签"。前者由内容分析产品官方团队维护，用户可在模板中配置是否开启；后者由用户自主维护，需要用户手动创建标签库，并将其绑定在模板上。

二、超详细实操指南

登录百度智能云官网、进入产品页面后，点击分析管理>自定义库管理>自定义文心标签库，进入自定义文心标签库页。

Step 1 确定标签内容

根据自身的业务需求，梳理好期望系统输出的标签。我们推荐在以下场景内，使用自定义文心标签功能：

自然场景标签：如"暴雪天""森林""冰川""极光""星空"等自然场景。
人文场景标签：如"演出活动""博物馆""握手""龙舟比赛"等社会文化生活中常见的场景、活动、动作。
常见实体标签：如"滑板""蛋糕""飞机""二维码""长城"等物体、地标。

Step 2 创建文心标签库

进入自定义库管理>文心标签库页面，点击**"创建文心标签库"**按钮，创建库。每个用户最多可创建3个库，单个库最多支持300个标签。

Step 3 添加标签与提示词

创建完自定义文心标签库后，进入标签库编辑页。点击**"添加标签"**，即可添加标签与提示词。

3.1 什么是提示词

标签是用户期望系统为图片、视频内容打上的标签，提示词是系统打标签的参考依据。

例如，"冬季运动"为标签，"滑冰、滑雪、冰壶、雪车"为提示词。系统在进行内容分析的过程中，如果发现某个图片或视频的画面内容与提示词一致，就会为其打上对应的标签。

3.2 怎么写提示词

如果标签可以概括提示词内涵，可以直接使用标签作为"提示词"，如"极光"。为了保证召回的效果，也可以使用近义词撰写多个提示词，如"舞台"。

如果标签涵盖的场景较为复杂，提示词要细化不同的场景。如标签"救援""婚纱照"。

3.3 标签验证

为每个标签添加提示词后，可使用"标签验证"功能，检验提示词是否合适，以确保系统根据提示词匹配的图片与提示词表达的内涵一致。如遇到不一致的情况，可对提示词进行调整。

如"红包"这个标签，本意是想召回在线的各类红包营销活动、红包提示，但进行"标签验证"后发现，系统召回了"红色的手提包"。为了避免系统对红包产生歧义、以至在后续使用过程中，给很多图片错误打上"红包"标签，可以将提示词改写为"电子红包画面""电子红包""电子红包弹窗"。

修改提示词前的标签验证结果，如下图：

修改提示词后的标签验证结果，如下图：

类似的例子还有标签"平板"，本意是指平板电脑，提示词只写"平板"，召回的内容不符合预期，改为"平板电脑"后，与预期一致。

修改提示词前的标签验证结果，如下图：

修改提示词后的标签验证结果，如下图：

3.4 标签阈值

系统支持输入0.26-0.35之间的两位小数作为标签阈值，默认阈值为"0.32"。只有"置信度"大于阈值的标签，才会被输出。阈值将直接影响图片打标签的严格程度。

阈值较低（如0.26或0.27）：意味着打标签规则相对宽松，图片更容易被打上当前标签。
阈值较高（如0.34或0.35）：意味着打标签规则更加严格，只有高度符合提示词描述的图片才会被打上当前标签，因此被打上标签的图片数量可能会减少。

当阈值设定好之后，在"标签验证"时，也只有"置信度"大于阈值的图片，才会被召回，且最多可以召回20张图片。

Step 4 将标签库绑定至模板

编辑好标签和提示词后，可以在视频分析模板、图片分析模板的"自定义文心标签"项下，绑定对应的标签库。

视频分析模板：

图片分析模板：

Step 5 开始使用

通过API接口或内容分析产品控制台，选择已经绑定好文心标签库的模板，发起**"图片内容分析"** 或**"视频内容分析"**，验证内容打标结果是否符合预期。如与预期不符，可增加或修改提示词。

图片内容分析：

视频内容分析：

三、总结

人工智能"百模大战"已经开启，借助大模型能力满足业务的自定义需求，已经成为大势所趋。文心跨模态大模型和自定义文心标签，突破了应用场景、产业生态、技术成本的限制，呈现出了蓬勃的生机与活力。

上一篇：视频号矩阵系统，AI自动生成文案，实现批量上传视频和定时发布

下一篇：【常见开源库的二次开发】基于openssl的加密与解密——Base的编解码（二进制转ascll）（二）

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03OpenClaw Chrome扩展使用教程 - 浏览器中继控制 04Linux下V2Ray安装配置指南 05UV安装并设置国内源 06openclaw配置教程（linux+局域网ollama）07Vue-skills的中文文档 08让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南 09Claude Code Skills 实用使用手册 10使用 1panel面板部署 php网站