AI_09_Coze_多模态和循环结构

学习目标

  • 了解多模态数据常见的处理方式
  • 掌握多模态数据处理插件的使用
  • 掌握循环结构的使用

一、概述

实际在使用Coze解决业务问题的时候,除了文本以外,还有其他类型的数据(图像、音频、视频等)需要进行处理,也会有需要在工作流批量处理的需求。在本章节,我们学习如何处理不同类型的数据,以及如何使用循环进行批处理。

二、多模态数据处理

在使用coze实现agent的时候,经常会处理一些文字以外的输入类型,比如图片、音频、视频。在coze中,图片、音频、视频处理的方式大是通过自带的音视频数据处理节点或插件完成,这些插件大多数都是由各个大模型供应商企业提供,通过调用其他大模型实现。接下来,我们将介绍一些常见的多模态数据的厂家处理方式,在实际工作中用到时,可以快速找到对应的解决方案。

除了处理输入的不同类型的数据以外,在实际工作中,还有一些场景会基于coze生产一些音视频等数据。比较典型的就是电商业务场景,会经常使用coze实现AIGC(基于人工智能生成内容),包括:

  • 文案:基于产品介绍和LLM,生成风格化的文案(比如小红书文案)
  • 商品图片:基于文生图、图生图等功能,生成商品图。还可以结合一些图像编辑类的模型,一件替换模特的衣服、首饰等,节省模特成本。
  • 广告语音:基于文案生成广告配音
  • 广告视频:基于文案,商品图片等生成广告视频,节省 广告拍摄成本

综上所述,接下来我们将通过一些案例介绍一些比较常用的多模态数据的处理工具。

1 图像类型[¶](#1 图像类型¶)

在Coze平台基础使用章节中,我们已经学习过了图片理解功能,但是在Coze平台中,图片类型相关的处理能力不仅只有这一种。还包括:

1.1 文生图[¶](#1.1 文生图¶)

在流水线中添加图像生成节点,选择模型、设置好分辨率等信息:

输入提示词:

复制代码
帮我生成一张宠物狗的图片,品种是金毛,背景是在雪地里,正在玩雪。

以下是生成结果,因为我们这里使用的是字节当前最强的图片生成模型Seedream 4.0。可以看到,图片生成的效果非常逼真,光影效果好,并且还有景深,就像使用微单相机拍摄的。

1.2 图像画质提升[¶](#1.2 图像画质提升¶)

在工作流中添加一个图片清晰度提升节点,并把原图传入

图片提升前(素材 05-低分辨率图片.jpg):

提升后(这里为节省页面空间,做了缩小,可以右键查看原图片):

可以看到图像的分辨率得到了提升,但由于本身的素材就只能这样了。

除此以外,图像相关的还有其他的插件,比如:一键换脸、抠图等,可根据业务需求自行选择。有兴趣的同学也可以在插件商店中筛选"图像"相关的,尝试使用其他处理方式。

2 音频类型[¶](#2 音频类型¶)

2.1 语音识别(ASR)[¶](#2.1 语音识别(ASR)¶)

语音识别(ASR, Automatic Speech Recognition)就是把语音转化成文字的算法, 在coze中使用插件即可实现。 在插件商店中搜索 "语音识别",包含两个版本。一个是小模型的语音识别,一个是大模型的语音识别。 区别在于识别准确率和资费上。

在工作流中添加一个"语音识别"节点:

试运行,并上传我们的素材 06-音频片段.wav

可以看到,这里输出了素材中的内容。文字识别都是对的,但是这里的问题在于没有标点符号,可以在语音识别节点后追加一个LLM节点,用于输出润色。过程略,同学们可自行优化。

2.2 语音合成(TTS)[¶](#2.2 语音合成(TTS)¶)

语音合成(Text-to-Speech)是将文本信息转化为语音信息的人工智能技术,在coze中同样可通过插件实现。在插件中搜索"语音合成"。分为两个版本

  • 语音合成:使用扣子的模型实现语音合成
  • 语音合成火山版:使用火山引擎上的更加专业的模型实现语音合成在工作流中创建一个语音合成节点:

除了文本是必填项以外,其他的都是可选项。具体可根据coze官方手册使用。可以指定情绪、语种、播报人、音色等。 接下来,我们试运行工作流,输入以下提示词:

复制代码
广袤的草原上,晨曦微露,成群的斑马在悠闲地散步,非洲狮正趴在巨石上享受阳光的沐浴,万物复苏,又到了动物们活跃的季节

生成音频如下(词性解说男声):

3 视频类型[¶](#3 视频类型¶)

视频类型的处理这里我们主要介绍视频生成。视频生成是多模态大模型近期比较新型的场景,能够根据用户输入的文字、图片,以及各类设置(如分辨率、时长等),生成视频。

在工作流中增加一个"视频生成节点",传入数据,设置使用的模型,并设置参数,如下图:

试运行工作流,传入提示词:

复制代码
核心主题与风格​​:拍摄一个用于电商平台的、展现奢华与时尚感的足金手镯短视频。视频整体质感高级,凸显金手镯的精致工艺与佩戴时的优雅气质
。
​​场景与布景​​:
​​主场景​​:一个光线柔和、布置现代的室内空间,可能包含简约的梳妆台或铺有浅色丝绸的桌面
。背景简洁,以突出手镯本身。
​​细节​​:可有少量高端饰品(如香水瓶、珠宝盒)作为点缀,但遵循"少即是多"的原则,避免分散注意力
。
​​光线​​:利用从窗户透进的柔和自然光,或在影棚内使用扩散照明,确保手镯光泽得到最佳呈现,减少金属表面的强烈反光
。
​​主体与画面​​:
​​主角​​:一款设计精美的足金手镯。
​​关键画面​​:
​​开场特写​​:镜头对手镯进行极致特写,清晰展现其精细花纹、质感与璀璨光泽
。
​​佩戴展示​​:一只优雅的手缓缓拿起并佩戴上手镯,展示佩戴的便捷性与上手效果
。
​​动态光泽​​:手腕轻轻转动,展示手镯在不同角度下流动的光泽
。
​​组合搭配​​(可选):可与其他简约手链或手表叠戴,展示其搭配可能性。
​​运镜与节奏​​:
​​镜头一(开场)​​:​​缓慢推近​​的特写镜头,聚焦于手镯最精美的雕刻或纹理部分,瞬间抓住眼球。
​​镜头二(展示)​​:​​平稳跟随​​镜头,从手镯被拿起至佩戴上手腕的过程,保持画面稳定。
​​镜头三(动态)​​:​​环绕运动​​或​​轻微旋转​​拍摄佩戴手镯的手腕,多角度展现手镯形态与光泽变化。
​​镜头四(收尾)​​:​​缓慢拉远​​,展示手镯作为整体造型一部分的完整效果,画面定格于优雅的姿势。
​​节奏​​:整体节奏舒缓,突出高级感和品质感。
​​情感与氛围​​:通过光影和运镜,传递金手镯所代表的"富贵象征"、"永恒承诺"或"圈住幸福"的美好寓意,营造轻奢、愉悦的情感氛围
。

点击运行,并等待。结果如下图。 这里在执行的时候时间会比较长,且消耗的token比较高。

生成的效果视频如下:

二、 循环结构[¶](#二、 循环结构¶)

1 什么是循环结构[¶](#1 什么是循环结构¶)

循环是一种常见的控制机制,用于重复执行一系列任务,直到满足某个条件为止。扣子工作流提供循环节点,当需要重复执行一些操作,或循环处理一组数据时,可以使用循环节点实现。在实际开发中,一般用于相同任务的批量处理,比如批量生成内容、批量执行订单数据等场景。

2 循环结构的使用[¶](#2 循环结构的使用¶)

接下来我们将通过一个"小红书电商营销文案批量生成工作流"案例,学习如何使用循环结构。业务流程如下图:

完整的工作流如下图

首先,用户输入一个自然语言语句,描述一下要生成哪些主体的营销文案。接下来,使用大模型提取出来主题,并生成数组格式返回

对应提示词如下:

复制代码
你是一个小红书电商文案批量生成工作流主体提取助手,能够根据用户输入的内容提取出来里面包含的主体,并以数组格式返回

接下来,通过循环结构对每个主题进行逐个处理:基于LLM+联网搜索功能生成对应主体的文案。首先设置循环节点

循环体中设置大模型的输入与输出, 这里输入需要选择:item(in topics)。 类似python代码的for item in list中的iterm一样,这个iteam就是数据的每一条元素。

大模型的提示词如下

复制代码
你是一个小红书文案生成专家,能够根据用输入的主题进行互联网检索,并生成小红书文风的爆款文案,作为软广内容,提升产品销售的转化率。请注意

1. 文案不少于500个字
2. 文案需要严格按照小红书的文风输出

接下来,试运行流水线,并输入内容:

复制代码
请我帮我生成:始祖鸟Alpha SV冲锋衣、凯乐石Mont-X冲锋衣、拓路者雪鹰2.0冲锋衣的文案

调用过程略,我们查看循环体的执行结果,如下图。可以看到,这里根据输入的3个主题,生成了3个对应的内容

最终,我们预览一下生成的文案内容,可以看到,它的文案遵从了小红书常见的:

这里为什么不让大模型一次性处理输入的主体,而是通过循环一条一条处理? 这是因为随着输入的内容变多,模型要处理的数据变得很多以后,效果就会有较大的下降,这就好比让一个人去写一个2万字的文章一定比2百字的质量会下降一个道理。所以我们在这里把一个处理3个主题的任务拆成了3个一次处理1个主题的任务机,减少了模型需要处理的数据量,从而保证效果。请同学们在实际工作中遵从该原则。

相关推荐
郑寿昌7 小时前
国产信创环境下OpenClaw热更新与权限校验改造方案
人工智能
Black蜡笔小新7 小时前
企业私有化AI训练推理一体工作站/企业级AI模型工作站DLTM训推一体工作站助力智慧医疗智能化转型
人工智能·机器学习
科研前沿7 小时前
像素即坐标・室外无边界:2026 最新无感定位技术,驱动数字孪生实景可控—— 镜像视界技术白皮书
大数据·人工智能·算法·重构·空间计算
十铭忘7 小时前
构建一个自己的论文阅读器1——pdf论文转markdown
人工智能
byzh_rc7 小时前
[AI工具从入门到入土] 命令行
网络·人工智能·python·深度学习·matplotlib
AI_Auto7 小时前
【智能制造】- AI智能体助力晶圆厂良率提升
人工智能·制造
SmartBrain7 小时前
AI 赋能企业数字化转型:以华为实践引领
人工智能·华为
Elastic 中国社区官方博客7 小时前
2026 年金融服务可观测性现状:从实施到业务影响
大数据·运维·人工智能·elasticsearch·搜索引擎·金融·自动化
夜郎king8 小时前
Trae IDE SpringAI 开发环境配置及入门实战
人工智能·springai·trae实战