
🚀 新一代 AI 模型与多模态 Agent 项目(2026/01/14近期)
...
从自动化智能助手到视觉概念合成、从图像/视频内容编辑到生成式 3D 动作与音频理解,本篇博客带你一站式扫视 2025--2026 年最前沿的开源 AI 项目。
📱 1. Open-AutoGLM --- 手机端自动化智能助手
📌 仓库 :github.com/zai-org/Open-AutoGLM
📌 核心:基于 GLM 系列大模型构建的手机 GUI 自动控制 Agent 框架 📱
Open-AutoGLM 致力于打造一个"自然语言 → 实际操作"的智能手机代理系统。用户只需给出指令(例如"打开微信发送红包"),系统便可:
- 通过截图 + 视觉语言模型理解手机当前界面;
- 解析意图、规划下一步动作;
- 使用 ADB/HDC 等桥接工具自动执行操作。
其核心是一个循环:视觉理解 → 语言推理 → 动作执行 → 状态观察 → 重复 。
整个流程依赖模型对界面细节(文本、图标、布局)的理解,以及对目标操作步骤的规划。它包含敏感操作确认与人工接管机制,避免误操作。(GitHub)
✨ 亮点
- 支持多模态信息理解(视觉 + 语言);
- 可联网 + 远程 ADB 调试;
- 适配 50+ 主流应用。(GitHub)
🧠 应用方向
自动化测试、无障碍操作辅助、自动任务执行、智能手机 Agent 研究。
🎨 2. JarvisEvo --- 自我演化的图像编辑智能体
📌 论文/项目(核心) :JarvisEvo: Towards a Self-Evolving Photo Editing Agent
📌 仓库:github.com/LYL1015/JarvisEvo
JarvisEvo 是一种基于 Agent 的"智能图像编辑系统",它不仅根据指令进行图像调整,还能 自我反思与改进。其技术亮点在于:
👉 Interleaved Multimodal Chain-of-Thought (iMCoT)
模型通过实时观察每一步的中间结果来规划下一步,而不是一次性生成完整链(解决传统单链推理的盲点问题)。
👉 Synergistic Editor--Evaluator Policy Optimization (SEPO)
这是一个内部优化框架,通过自评估循环提高自身质量,并缓解对单一奖励模型的过拟合/奖励破解问题。(Hugging Face)
🎯 主要功能
- 智能选择并调用工具执行细节编辑(如 Lightroom 操作);
- 结合视觉反馈实时修正操作;
- 支持全局与局部精细控制。
📊 效果
在 ArtEdit-Bench 上对比其他 SOTA 模型表现明显更优,尤其在内容保真度/视觉一致性上有显著提升。(Hugging Face)
📌 应用方向
AI 驱动图像修图助手、智能美学调整、自动化创意工具链。
📐 3. BiCo --- 图像与视频视觉概念组合
📌 仓库/论文实现 :github.com/refkxh/BiCo
📌 论文 :Composing Concepts from Images and Videos via Concept-prompt Binding

BiCo 提出了一种新的视觉概念组合框架,允许将来自图像与视频的元素通过一种概念绑定机制合成到同一输出中,其关键是:
🔗 绑定 + 组合两阶段机制(Bind & Compose)
- 将视觉输入中的关键概念映射到对应的 prompt token;
- 使用层次结构 binders 对视觉元素进行分解;
- 再将这些 token 重组进新 prompt 以驱动生成。
为了提高准确性,还引入了:
- Diversify-and-Absorb 机制(过滤无关细节);
- Temporal Disentanglement(处理动态视频信息)。(Xianghao Kong)
🎥 实际用途
比方说,将"一个森林背景图像"和"一个蝴蝶飞舞的视频"组合成一个统一的动态场景,比单纯的 prompt 合并更精细一致。
📌 应用方向
合成式视频/图像生成、跨模态创意生成、增强视觉一致性内容创作。
🖌️ 4. LanPaint --- 高质量无训练修补工具
📌 仓库:github.com/scraed/LanPaint
LanPaint 是一个无需训练即可使用的图像修补/填充工具,兼容 Stable Diffusion、ComfyUI 生态。其核心目标是:
🔥 高质量修补结果 + 易集成
借助 Stable Diffusion 强大的生成能力,可对图像缺失区域进行语义修补,适用于:
- 去除水印/人物/物体;
- 图像内容补全;
- 兼容多种生成模型。
📌 应用方向
轻量级图像修复、数字艺术创作、图像效果增强。
🕺 5. HY-Motion 1.0 --- 3D 动作生成模型
📌 仓库:github.com/Tencent-Hunyuan/HY-Motion-1.0
HY-Motion 是腾讯鸿元团队发布的一款用于 3D 动作生成或相关动画生成的模型系统。它的定位主要是:
- 使用 AI 生成高质量 3D 角色动作;
- 可用于实时动画、视频游戏、虚拟人等场景。
⚙️ 目前结合大量动作捕捉/训练数据,可有效生成自然动态。
📌 应用方向
游戏开发、虚拟偶像、电影特效、3D 动画自动化。
🟦 6. LTX-2 --- 音视频生成与 LoRA 训练工具
📌 仓库:github.com/Lightricks/LTX-2
LTX-2 是 Lightricks 发布的一个音视频生成框架 + LoRA 训练器,为内容生产者提供:
- 用于视频 + 音频生成的生成模型推理接口;
- LoRA 训练模块支持快速适配特定风格/域。
📌 应用方向
视频生成、音频/视听内容创作、风格适配训练工具。
🧠 7. ComfyUI-Qwen-Multi-Angle-Camera-Nodes
📌 仓库 :github.com/hashms0a/ComfyUI-Qwen-Multi-Angle-Camera-Nodes
📌 对应模型:huggingface.co/fal/Qwen-Image-Edit-2511-Multiple-Angles-LoRA
该项目为 ComfyUI 插件扩展,专注于 多视角相机控制节点,搭配 Qwen 图像编辑模型。
它支持:
🎯 多相机角度控制
🎯 图像编辑/转换集成
📌 应用方向
复杂场景合成、多机位视觉生成、ComfyUI 扩展工作流。
📦 8. GLM-Image --- 多模态文本 ↔ 图像模型
📌 模型地址:huggingface.co/zai-org/GLM-Image
GLM-Image 是 ZAI 发布的多模态模型,结合了自回归 + 扩散机制,在:
- 文本 ↔ 图像生成、
- 图像编辑、
- 风格传输等任务上表现优异。(reddit.com)
📌 应用方向
跨模态生成、多任务视觉理解。
🎧 9. Hugging Face 其他精选模型
| 模型 | 简述 | 用途 |
|---|---|---|
| LiquidAI/LFM2.5-Audio-1.5B | 大规模音频理解/生成模型 | 音频生成/理解/转录 |
| Qwen/Qwen3-VL-Embedding-8B | 多模态向量嵌入模型 | 跨模态检索/理解 |
| tencent/HY-MT1.5-1.8B | 腾讯多任务多模态模型 | 多模态任务 |
| Kijai/LTXV2_comfy | ComfyUI-集成版 LTX-V2 变体 | 带 UI 的多模态生成 |
📌 应用方向
嵌入检索、跨模态理解、生成式多媒体 AI。
🧠 写在最后
这一系列项目展现了当前 AI 研究/工程领域的几个清晰趋势:
🚀 多模态智能
视觉 + 语言 + 操作行为正在融合,催生更自然的交互代理(Open-AutoGLM、JarvisEvo)。
🎨 一体化生成工具
图像、视频、音频不仅能生成,更能融合、组合、编辑(BiCo、GLM-Image)。
🔧 工具链扩展
如 ComfyUI 节点、LoRA 训练器、3D 动作库等让创作更高效。