ComfyUI 子工作流功能：一次编辑全局更新

ComfyUI 即将推出革命性的子工作流功能，让复杂的工作流管理变得前所未有的简单。

通过将常用工作流封装为可重复使用的节点，实现一次编辑即可全局更新的高效操作。

据官方透露，该功能测试版将于下周发布，完整技术细节可查阅官方博客 $6$ 。

Higgsfield Speak：一键生成口型同步的数字人视频

Higgsfield 最新推出 Speak 功能，用户只需选择预设动作、上传自定义角色并输入语音文本，系统就能自动生成动作驱动的数字人视频。

该功能支持精准的口型同步技术，并内置 16 种不同场景类型，为内容创作者提供丰富选择。

需要注意的是，Speak 功能目前仅对 Pro 和 Ultimate 订阅用户开放，佬们可以在官方推文查看完整功能介绍 $7$ 。

谷歌 Veo 3 视频生成模型登陆 Replicate 和 FAL 平台

谷歌最新推出的Veo 3 视频生成模型现已登陆 FAL 平台 $1$ 和 Replicate 平台 $2$ 。

Veo 3 是目前最好的视频生成模型，若你因为谷歌锁 ip 还没体验过，值得一试。

bash 复制代码

FAL 平台 Veo 3 模型页面: https://fal.ai/models/fal-ai/veo3/playground
Replicate 平台 Veo 3 模型页面: https://replicate.com/google/veo-3

谷歌 Gemini 2.5 Pro 预览版性能再升级

谷歌 Gemini 2.5 Pro $3$ 再次更新，最新版本为 Gemini 2.5 Pro preview-06-05。此次更新带来了显著性能提升：在 LMArena 语言模型评测平台上的 Elo 得分提升 24 分至 1470 分，继续保持领先地位；在 WebDevArena 开发能力评测中得分提升 35 分至 1443 分。

该版本在高难度编码任务（如 AIME、AIDER）、科学推理（GPQA）和复杂逻辑（HLE）等基准测试中表现尤为出色。

目前佬们已经可以在 Google AI Studio 中抢先体验这个版本，不得不说谷歌还在发力。

阿里 Qwen3 Embedding 模型发布：多语言文本表征新标杆

阿里 Qwen 团队正式推出 Qwen3 Embedding 系列模型，这是基于 Qwen3 基础模型训练的专业文本表征工具。该系列模型专为文本检索与排序任务优化，在多语言理解能力上表现出色。

性能方面，Qwen3 Embedding 在多项基准测试中展现了卓越表现，特别是在跨语言文本表征任务中优势明显。

目前模型已基于 Apache 2.0 协议在 Hugging Face 和 ModelScope 开源，技术报告和代码也在 GitHub 同步公开，完整技术细节可查阅官方博客 $4$ 。

微软 GUI-Actor 革新 GUI 定位：告别坐标依赖，引入视觉块令牌

GUI-Actor $5$ 通过引入令牌，指向原生视觉块，实现了坐标无关的 GUI 定位。该方法以取代传统的基于文本坐标预测的方式，为 GUI 代理（GUI agents）提供了更稳定可靠的定位解决方案。