【AIGC工具箱】AIGC重塑生活神器

- （一）数字人
- - （1）Sonic（腾讯）
  - （2）HUMVA
- （二）视频生成
- - （1）HumanDiT（字节跳动）
  - [（2）Animate Anyone2（阿里巴巴）](#（2）Animate Anyone2（阿里巴巴）)
  - （3）Recraft
  - （4）MIMO（阿里巴巴）
- （三）代码辅助
- （四）语音合成
- - （1）CosyVoice2（阿里巴巴）
  - （2）InspireMusic
- （五）图文理解
- - （1）GLM-Edge（智谱华章）
- [（六）移动端 Agent](#（六）移动端 Agent)
- - [（1）OmniParser V2（微软）](#（1）OmniParser V2（微软）)
  - （2）AutoGLM（智谱华章）
  - [（3）Mobile Agent V2（阿里巴巴）](#（3）Mobile Agent V2（阿里巴巴）)

（一）数字人

（1）Sonic（腾讯）

官网地址：Sonic: Shifting Focus to Global Audio Perception in Audio-driven Portrait Animation

项目地址：https://github.com/jixiaozhong/Sonic

论文地址：arxiv.org/pdf/2411.16331

体验地址：

Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具，核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号，仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动，生成流畅自然的视频。

技术亮点

1.上下文增强音频学习：捕捉长时间音频中的音调、语速等细节，生成更自然的唇形和表情。

2.运动解耦控制器：将头部运动与表情分开控制，避免动作僵硬，让数字人更接近真人。

3.时间感知位置移位融合：通过全局音频信息融合，生成长时间稳定的动画视频，告别"鬼畜"画面。

（2）HUMVA

官网地址 ：https://humva.ai/

Humva是一款注重虚拟形象生成的工具，提供丰富的模板和自定义选项，用户可轻松创建符合需求的虚拟形象。产品主要面向需要虚拟形象进行内容创作、社交互动或商业展示的用户。

Humva用户群体

适合需要虚拟形象进行内容创作、社交互动或商业展示的用户。例如，内容创作者可使用Humva快速生成虚拟形象用于视频制作或直播；社交用户可创建个性化的虚拟形象用于在线社交平台；商业用户可利用虚拟形象进行品牌推广或客户服务。

内容创作者使用Humva创建虚拟形象用于视频制作，增加视频的趣味性和吸引力。社交用户通过Humva生成个性化虚拟形象，用于社交媒体的个人资料图片。商业品牌利用Humva设计虚拟形象作为品牌代言人，用于线上广告和客户服务。

Humva的核心功能

提供多种风格的虚拟形象模板，如卡通、写实、虚拟等；支持自定义虚拟形象的外观特征，包括发型、服装、肤色等；允许用户根据需求调整虚拟形象的姿势和动作；提供虚拟形象的导出功能，方便用户在不同场景中使用；具备虚拟形象的社交分享功能，便于用户展示创作。

（二）视频生成

（1）HumanDiT（字节跳动）

论文地址 ：https://arxiv.org/pdf/2311.17117

项目地址 ：https://humanaigc.github.io/animate-anyone/

HumanDIT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器（Diffusion Transformer，DIT），能在大规模数据集上训练，生成具有精细身体渲染的长序列人体运动视频。HumanDIT 的核心优势在于姿态引导机制，通过关键点扩散变换器（Keypoint-DIT）生成后续姿态序列，保证视频中人体动作的连贯性和自然性。引入了前缀落在参考策略，在长序列中保持个性化特征。HumanDIT 支持多种视频分辨率和可变序列长度，适合长序列视频生成。基于姿态适配器实现给定序列的姿态转移，进一步提升了姿态对齐的准确性。

HumanDIT的主要功能

姿态引导的视频生成: HumanDIT 基于关键点扩散变换器（Keypoint-DIT）生成后续姿态序列，确保视频中人体动作的连贯性和自然性。
长序列视频生成: 支持多种视频分辨率和可变序列长度，适合生成长序列的高质量视频。
个性化特征保持: 通过前缀潜在参考策略，在长序列中保持个性化特征。
灵活的输入与输出: 能从静态图像或现有视频中继续生成视频，适用于多种应用场景。
姿态适配与细化: 基于姿态适配器实现给定序列的姿态转移，通过姿态细化模块增强面部和手部特征与参考图像的对齐效果。

HumanDIT的技术原理

姿态引导与扩散变换器: HumanDIT 通过姿态引导的方式生成视频，基于关键点扩散变换器（Keypoint-DIT）在推理阶段生成后续的姿态序列。确保了视频中人体动作的连贯性和自然性，同时扩散变换器能够处理不同分辨率和序列长度的视频。
前缀潜在参考策略: 为了在长序列视频生成中保持个性化特征，HumanDIT 引入了前缀潜在参考策略。策略通过将视频的第一帧作为无噪声的前缀潜在向量，供模型在生成过程中参考，保持视觉一致性。
姿态适配器与姿态细化模块: HumanDIT 使用姿态适配器来实现给定序列的姿态转移，通过姿态细化模块进一步优化生成的姿态序列。有助于提高面部和手部等细节部位的生成质量，确保与参考图像的对齐效果。
大规模数据集训练: HumanDIT 在包含 14000 小时高质量视频的大型数据集上进行训练，数据通过结构化的数据处理流程收集，涵盖了多种人类动作场景。使模型能够学习到丰富的运动先验，在推理过程中表现出强大的泛化能力。

（2）Animate Anyone2（阿里巴巴）

项目地址 ：Animate Anyone 2

阿里的Animate Anyone 2发布：与环境相适应的高保真角色视频，提出了一种全新的角色图视频生成方法。

背景：与仅使用运动信号进行角色视频化的传统方法不同，"Animate Anyone 2"引入了从驱动视频中提取环境表示的概念，使角色视频能够表现出对环境的适应性。
方法：该框架通过捕获源视频中的环境信息，将无角色的区域作为模型输入，实现了角色与环境融合的端到端学习。为了保持物体交互的连贯性，引入了一个轻量级的物体指导器来提取与角色互动的物体特征，并通过空间混合将这些特征融入去噪过程。同时，提出了一种姿态调制方法以更好地表示身体肢体之间的空间关系。
结果：该方法在生成与环境上下文保持一致性的角色视频方面展示了显著的能力，特别是在角色-场景集成、角色-物体交互以及处理多样化和复杂运动方面的能力。
与其他方法的比较：与Viggle和MIMO等相关方法相比，"Animate Anyone 2"在角色与环境交互的自然性、运动的自然流畅度以及保持细节方面表现出了更高的保真度和鲁棒性。

这项研究不仅提高了角色视频的质量，而且通过考虑角色与环境之间的交互，为未来的AI视频生成开辟了新的可能性。

（3）Recraft

官网地址 ：https://id.recraft.ai/

Recraft是一款由Recraft AI推出的多功能人工智能图像生成与编辑工具。它集成了AI绘画、矢量图生成和设计工具，是一款强大的AI图像生成与编辑工具。

主要功能：

图片生成（Image）：可以通过文本生成图片
海报生成（Frame）：根据框选的大小，通过文字生成图片，可给图片里面加上文字（目前不支持中文）
图片集（Image set）：图片集，可以一次生成风格一致的多张图像
模型（Mockup）：以一张图片为底图，在这种图片的基础上融合上另一种图片，可以将logo等品牌标识贴在产品上

（4）MIMO（阿里巴巴）

项目地址 ：https://menyifang.github.io/projects/MIMO/index.html

Github地址 ：https://github.com/menyifang/MIMO

论文地址 ：https://arxiv.org/pdf/2409.16160

体验地址 ：MIMO视频角色编辑 · 创空间

MIMO是阿里推出的具有对象交互能力的可控视频生成通用模型。

1、技术原理

2D转3D与空间分解：利用单目深度估计器将二维帧像素提升到三维，基于三维深度把视频片段分解为主要人物、底层场景和浮动遮挡三个空间分量。

组件编码：将上述三个空间分量进一步编码为规范身份代码、结构化运动代码和完整场景代码，作为合成过程的控制信号。
属性控制：用户输入角色单幅图像、运动姿势序列、场景单幅视频或图像等信息，模型把目标属性嵌入潜在空间构建目标代码，用空间感知分解将驱动视频编码为空间代码，通过自由集成潜在代码实现对合成的属性控制。

2、主要功能

任意角色控制：可对单幅图像中的人类、卡通角色或拟人化角色进行动画化处理。
新颖3D运动控制：能从现实视频中生成复杂动作，实现对新颖3D运动的控制。
交互式场景控制：可处理复杂的现实场景，包括物体之间的互动和遮挡效果，实现场景交互的3D感知合成。

3、应用场景

影视制作与特效：能创建逼真虚拟演员替代传统演员拍摄危险特技或大型场面，还可数字复生已故演员。
游戏开发：帮助开发者生成具有复杂动作的游戏角色，玩家也能上传自己的动作或视频生成相似角色，增强游戏沉浸感和个性化体验。
增强现实与虚拟现实：在AR/VR环境中，用户可通过MIMO与虚拟人物自然交互，也可模拟复杂现实情境用于虚拟培训。
展览与博物馆体验：博物馆利用它创造互动展览体验，让访客与历史人物对话或观看故事再现，提升展览的教育效果。

（三）代码辅助

（1）Cursor

官网地址 ：Cursor - The AI Code Editor

Cursor工作流仓库 ：https://cursor.directory/

Cursor 是一款专为开发者设计的智能代码编辑器，它集成了先进的 AI 技术，旨在提升编程效率和代码质量。以下是 Cursor 的主要特点和功能：

AI 驱动的代码补全
- 智能提示：Cursor 能够根据上下文提供精准的代码补全建议，帮助开发者快速编写代码。
- 代码片段生成：通过简单的自然语言描述，Cursor 可以生成复杂的代码片段，减少重复劳动。
实时错误检测与修复
- 即时反馈：Cursor 能够在编写代码时实时检测错误，并提供修复建议，确保代码的准确性和可靠性。
- 自动修复：对于一些常见的错误，Cursor 可以自动修复，节省调试时间。
代码优化建议
- 性能优化：Cursor 能够分析代码并提供性能优化建议，帮助开发者编写更高效的代码。
- 代码风格检查：Cursor 支持多种编程语言的代码风格检查，确保代码风格一致。
多语言支持
- 广泛的语言支持：Cursor 支持多种编程语言，包括 Python、JavaScript、Java、C++ 等，满足不同开发者的需求。
- 跨平台兼容：Cursor 可以在 Windows、macOS 和 Linux 上运行，提供一致的开发体验。
集成开发环境（IDE）功能
- 版本控制集成：Cursor 集成了 Git 等版本控制工具，方便开发者进行代码管理。
- 调试工具：Cursor 提供了强大的调试工具，支持断点设置、变量查看等功能，帮助开发者快速定位和解决问题。
协作与分享
- 实时协作：Cursor 支持多人实时协作编辑，团队成员可以同时编辑同一份代码，提高团队协作效率。
- 代码分享：开发者可以轻松分享代码片段或整个项目，方便知识传递和代码复用。
个性化设置
- 主题定制：Cursor 提供了多种主题和配色方案，开发者可以根据个人喜好进行定制。
- 插件扩展：Cursor 支持插件扩展，开发者可以根据需要安装各种插件，增强编辑器的功能。
学习与成长
- 学习资源：Cursor 内置了丰富的学习资源，包括教程、文档和示例代码，帮助开发者不断提升编程技能。
- 社区支持：Cursor 拥有活跃的开发者社区，开发者可以在这里交流经验、解决问题。

（2）Trae（字节跳动）

官方网址 ：Trae - Ship Faster with Trae

Windows版本已发布，目前支持Mac和Windows系统，Linux系统适配中。

字节跳动于2023年1月推出了一款革命性的AI编程工具Trae，最初只有Mac版本。如今，这款工具终于迎来了Windows版的正式上线，支持Windows 10和Windows 11系统，为更多开发者提供了便利。Trae是一个功能强大的AI中文IDE工具，由字节跳动旗下的新加坡公司SPRINGPTE提供服务。它的目标是简化程序员的开发流程，提高工作效率，使编程变得更加智能化。

具体来说，Trae具备多项实用功能，包括AI问答、代码自动补全和基于Agent的AI编程等。用户只需在输入框中提问，该工具即可为其提供详细的代码示例和解决方案。例如，当你在开发某个复杂项目时，想要实现某个功能，可以通过Trae的问答功能获得一段完整的代码，它不仅能节省时间，还能确保代码的准确性。在此基础上，Trae还支持自动化任务，帮助用户高效完成任务，让他们从繁琐的手动操作中解放出来。

根据用户反馈，Trae在实现端到端开发时表现得尤为出色。用户只需输入项目的需求，Trae便能够生成完整的代码项目，大大减轻了开发者的工作压力。这一功能特别适合初学者和中小型团队，他们通常缺乏足够的技术支持和人力资源。而Trae的多语言支持，既能提供简体中文也能提供英文，确保不同背景的开发者都能无障碍使用。

为了解决开发者在学习和使用中的难点，字节跳动还在Trae内置了最新的AI模型，包括GPT-4o和Claude-3.5-Sonnet模型。这些模型为用户提供了更为强大的智能交互能力，让编程不再是孤军奋战的过程。用户能够更加轻松地理解复杂代码，同时还能与AI进行实时交流，极大提高了学习效率。

那么，面对如此强大的AI工具，如何开始使用Trae呢？首先，用户需前往字节跳动的官方网站下载软件，安装完成后即可创建账户并登录。在主界面中，用户可以选择简体中文或英文进行操作，非常友好。接下来，用户可以直接在IDE环境中进行提问，无论是简单的代码片段，还是复杂的编程任务，Trae都能提供实时反馈与帮助。

使用Trae的过程简洁流畅：

下载与安装：访问字节跳动官网，免费下载适用于Windows 10/11的Trae软件。
登录与设置：创建账户后，进入设置选择语言。
提问与编程：在IDE中直接提问，享受AI的代码生成、补全与调试服务。
项目管理：通过端到端开发功能，高效管理与完成项目。

（3）Qwen2.5-Coder(32B)（阿里巴巴）

论文地址 ：https://arxiv.org/pdf/2409.12186

体验地址：

魔搭社区 ：https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-Artifacts
Huggingface ：https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-Artifacts

Qwen2.5-Coder系列模型是基于Qwen2.5基础大模型进行初始化的，具备「强大」、「多样」和「实用」等优点。该系列模型通过持续的训练，结合了源代码、文本代码混合数据以及合成数据，总计使用了5.5T tokens的数据，从而在代码生成、代码推理和代码修复等核心任务上实现了显著的性能提升。

Qwen2.5-Coder-32B-Instruct模型在多个代码生成基准测试（EvalPlus、LiveCodeBench和BigCodeBench）中，超越大多数开源竞争对手，并能够与GPT-4o进行有效对比。

在编程大模型主要关注的5个方面上，它都实现了对GPT-4o的超越：

代码生成
代码修复
代码推理
多编程语言
人类偏好对齐

（4）Roo-Cline

GitHub仓库 ：https://github.com/RooVetGit/Roo-Code

Cursor 的开源替代品------Roo-Cline，不仅保留了 Cursor 的所有功能，还增加了命令行交互能力，甚至能打开浏览器，完成基于 AI 的自动化测试！

Roo Cline 免费工具Token收费、功能丰富、易用性好，是一个融合了 Cline、Roo Cline 和 Bao Cline 最佳特性的主动式编程助手。它能与你的命令行界面和编辑器无缝协作，带来最强大的 AI 开发体验。

Roo Cline亮点功能：

增强的聊天功能: 支持图片拖拽、消息删除等功能，使开发者与 AI 的交互更加便捷。
改进的 UI/UX: 提供反馈音效、可调节浏览器窗口大小等功能，提升用户体验。
更丰富的模型支持: 支持更多种类的 LLM 模型，为开发者提供更多选择。
多语言支持: 支持多种语言的交互，方便不同国家的开发者使用。
模型兼容性: 增加了对 Glama 等新模型的支持。
允许任何API与大模型，同时支持一些免费模型

（5）Windsurf（Codeium）

官网地址 ：Windsurf Editor by Codeium

Codeium 团队推出的一款侧重于文档管理和团队协作的工具，同时提供代码生成支持，专注于知识共享和实时协作

Windsurf亮点功能：

Write/Chat 模式

Cascade 具有两种模式：Write 和 Chat。

Write 模式允许 Cascade 创建并修改您的代码库，而 Chat 模式则专为解答您关于代码库的问题或一般编程原则的疑问而优化。

Windsurf 实时协作

Windsurf 和 Cascade 的一大独特功能是能够感知您的实时操作，从而实现前所未有的协作效果。

您无需再通过上下文提示 AI 了解先前操作，因为 Cascade 和 Windsurf 已经有所感知。

Windsurf 直接访问工具和终端

Cascade 可以检测您正在使用的包和工具，识别需要安装的项，甚至可以为您进行安装。只需向 Cascade 询问如何运行您的项目并点击"接受"。

（6）Autodesigner（产品经理必备）

官网地址 ：UI Design Made Easy, Powered By AI | Uizard

Autodesigner是Uizard公司最新推出的AI设计功能，工作原理和ChatGPT类似，都是基于Open AI，但输出的是图像。你只需要简单描述一下想要的界面、主要功能和设计风格，Autodesigner就能快速生成带流程的设计原型。

速度惊人
速度真的很快，大概一分钟就能搞定。不过有时候也会出错，不满意的话还可以重新生成。
每次生成的界面和数量都不同
每次输入相同的text prompt，生成的界面设计和数量都会不同。可以边试边调整，反正没有次数限制。不过我还没搞清楚怎么控制数量，感觉Autodesigner有点不听话。
支持编辑
生成的界面支持编辑，可以进一步细化和调整。Uizard提供了很多组件，直接调用就行。不过目前编辑只能在平台上操作，不知道后续会不会支持导出Figma或者Sketch。这点算是目前唯一不太满意的。
可交互原型
Autodesigner会创建hotspots，直接生成可交互原型。不过AI设计的流程不一定合理且完整，这些都需要后期设计师基于对用户的了解和对业务的理解去进行调整。
Magic工具
Magic工具里有一个选项，能一键转换成线框图，真是黑魔法！
Focus Predictor
还有一个Focus Predictor功能，提供该页面的热图，帮助预测用户的视觉焦点主要集中在哪些区域。

总结

整体来看，Autodesigner确实能有效提升设计效率，尤其适合前期概念的产出或者紧急项目。但模版类工具比较中规中矩，创意的发挥和细节的刻画还得需要Sketch/Figma完成，倒是可以作为辅助快速开启一个项目。

（四）语音合成

（1）CosyVoice2（阿里巴巴）

参考博客 ：多模态语音合成-CosyVoicev2实战

（2）InspireMusic

Github地址 ： https://github.com/FunAudioLLM/InspireMusic/

体验地址 ：InspireMusic音乐生成模型 · 创空间

（五）图文理解

（1）GLM-Edge（智谱华章）

参考博客 ：多模态图文理解-GLM-Edge实战

（六）移动端 Agent

（1）OmniParser V2（微软）

参考博客 ：OmniParser V2 安装与使用教程

GitHub仓库 ：https://github.com/microsoft/OmniParser

官方文档 ：https://huggingface.co/microsoft/OmniParser

OmniParser V2.0是一款基于纯视觉的GUI智能体解析和识别屏幕上可交互图标的AI工具。它通过大规模的交互元素检测数据和图标功能标题数据的训练，在检测较小的可交互UI元素时准确率更高、推理速度更快，延迟降低了60%。在高分辨率Agent基准测试ScreenSpotPro中，V2+GPT-4o的准确率达到了39.6%，这一成绩无疑证明了OmniParser的强大实力。

微软发布OmniParser V2.0的举动，无疑在办公领域掀起了一场革命。这款AI工具将传统的人工操作工作转化为由AI智能体完成，大大提高了工作效率，降低了错误率。而这一切，都得益于微软对AI技术的深入研究和广泛应用。

OmniParser V2.0的强大功能并非偶然。微软在官网发布的最新版本V2.0中，将OpenAI（4o/o1/o3-mini）、DeepSeek（R1）、Qwen（2.5VL）和Anthropic（Sonnet）等模型变成可以操控计算机的AI智能体。这一举措充分展示了微软在AI领域的深厚积累和领先地位。

此外，OmniParser V2.0的高分辨率Agent基准测试ScreenSpot Pro中准确率达到39.6%的优异表现，更是证明了微软在AI智能体领域的前瞻性视野和强大实力。这种准确率的提升不仅彰显了微软在AI技术研发上的执着和创新精神，也预示着AI智能体将在未来的办公领域发挥越来越重要的作用。

总的来说，微软发布的OmniParser V2.0以其强大的功能和广泛的应用前景，无疑将颠覆传统的办公模式。它将人工操作工作转化为由AI智能体完成，大大提高了工作效率，降低了错误率。这一创新性的举措，无疑将引领我们进入一个全新的办公时代。

在这个时代，我们将看到AI智能体在各种办公场景中发挥越来越重要的作用。无论是简单的数据录入，还是复杂的策略制定，AI智能体都能以其卓越的效率和准确性，为我们带来前所未有的便利。而这一切，都要归功于像OmniParser V2.0这样的先进AI工具的出现。微软的这一举动，无疑将为我们打开一扇全新的大门，让我们期待未来更多的可能性。

（2）AutoGLM（智谱华章）

官网地址 ：https://agent.aminer.cn/?utm_source=aihub.cn

AutoGLM是智谱推出的AI智能体应用，清言app的"自动驾驶"模式，它能帮你用自然语言完成手机上的各种任务，就像有个小助手在帮你操作一样。它适合所有需要提高效率、想要轻松管理手机任务的人群。无论是网购、订餐还是处理工作，AutoGLM都能帮你轻松搞定！

AutoGLM的功能特性

自然语言交互：你可以像和朋友聊天一样给AutoGLM发指令，它就能帮你完成各种手机任务。
任务规划能力：AutoGLM能理解复杂指令，并规划出最佳执行步骤。
自我纠错与适应：在执行任务过程中，如果遇到问题，AutoGLM会尝试解决并继续任务。
高效执行：AutoGLM操作迅速，能节省大量时间和精力。
适合多种场景：无论是生活娱乐还是工作处理，AutoGLM都能提供帮助。

AutoGLM的应用场景

在美团上点个外卖
在携程上预订酒店
在微信上「给朋友圈点赞并写评论」
在淘宝上「购买某一款历史订单产品」
在 12306 上购买火车票
给微信好友发信息打语音电话，总结公众号文章

（3）Mobile Agent V2（阿里巴巴）

参考博客 ：Mobile-Agent-v2：多模态多智能体系统显著提升端侧Agent任务成功率
论文地址 ：https://zhuanlan.zhihu.com/p/704846781
Github地址 ：https://github.com/X-PLUG/MobileAgent

Mobile-Agent 于2024年年初发布，凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内，它已经在Github获得了2,000个Star。该系统采用纯视觉方案，通过视觉感知工具和操作工具完成智能体在手机上的操作，无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大，Mobile-Agent实现了即插即用，无需进行额外的训练和探索。

近日，团队推出了新版本Mobile-Agent-v2，并列举了几大改进亮点：继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。

作者团队在社交媒体和Github发布了一系列展示Mobile-Agent-v2在手机上实操的视频。视频中展示了一个跨应用操作的实例。首先，用户需要Mobile-Agent-v2查看聊天软件中的未读消息并执行相关任务。

Mobile-Agent-v2根据指令先打开了WhatsApp，查看了来自 "Ao Li" 的消息。消息内容要求在TikTok上找到一个与宠物相关的视频并分享。于是，Mobile-Agent-v2退出WhatsApp，进入TikTok开始浏览视频。在发现一个宠物猫的视频后，它点击分享按钮，将视频链接发送给了 "Ao Li"。