AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

〔更多精彩AI内容，尽在 「魔方AI空间」 公众号，引领AIGC科技时代〕

本文作者：猫先生

原文地址： AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

写在前面

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。

此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

大家好，我是猫先生，AI技术爱好者与深耕者！！

阅读猫先生整理的《魔方AI新视界》专栏，您将获得以下宝贵收获：

前沿技术洞察：深入了解AIGC行业的核心技术动向，涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展，让您始终站在技术发展的最前沿。
职业发展助力：在专栏中发现那些能够激发创新灵感的关键技术和应用案例，这些内容对您的职业发展具有重要意义，帮助您在专业领域中取得突破。
紧跟时代潮流：通过专栏，您将能够准确把握时代的脉搏，自信而坚定地跟随AI技术的最新趋势，确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地，更是一个促进思考、激发创新的平台，猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第五期，周期为2024年9月1日-2024年9月30日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块，飞书主页地址：AIGCmagic社区，欢迎大家点赞评论！！

往期回顾

AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

AIGC 月刊 | 技术革新与应用案例（2024.8月第四期）【魔方AI新视界】

AIGC 月刊 | 技术革新与应用案例（2024.7月第三期）【魔方AI新视界】

AIGC 月刊 | 技术革新与应用案例（2024.6月第二期）【魔方AI新视界】

AIGC 月刊 | 技术革新与应用案例（2024.5月第一期）【魔方AI新视界】

正文开始

Hallo2：长时间、高分辨率音频驱动的人头视频生成

Hallo2 是第一个实现 4K 分辨率并生成长达一小时、音频驱动的人像图像动画并配有文本提示的方法。

与 Hallo 相比，Hallo2 支持更高分辨率和更长的视频生成，也同样支持如雕像、绘画、卡通等多种风格的人头。

**项目主页：**https://fudan-generative-vision.github.io/hallo2

Stable Diffusion 3.5：开源界超强文生图大模型

Stable Diffusion 3.5 Large ：该模型具有 80 亿个参数，可提供卓越的图像质量和精确的即时附着力，非常适合 1 兆像素分辨率下的专业使用。

Stable Diffusion 3.5 Large Turbo ：大型模型的更快、精简版本，只需 4 个步骤即可生成高质量图像。

Stable Diffusion 3.5 Medium（将于 10 月 29 日推出） ：针对消费类硬件优化的 26 亿参数模型，在 0.25 至 2 兆像素的分辨率下提供稳定的性能。

项目地址：https://github.com/Stability-AI/sd3.5

VILA：强大的视频理解和多图理解能力

VILA 是一种视觉语言模型 (VLM)，使用大规模交错图像文本数据进行预训练，可实现视频理解 和多图像理解功能。

VILA 可通过AWQ 4 位量化和TinyChat框架部署在边缘端。

VILA 推出了更强大的功能，包括：视频推理、情境学习、视觉思维链和更好的世界知识。

项目地址：https://github.com/NVlabs/VILA

论文解读：https://mp.weixin.qq.com/s/g0JKUIf9UBp4meIjPYg2zA

F5-TTS：开源且可商用的语音合成模型

一种基于扩散 变换器 **(DiT)**流匹配的完全非自回归文本转语音系统。

该模型在文本引导的语音填充任务和条件流匹配损失上进行训练。

输入文本被转换为字符序列，用填充标记填充到与输入语音相同的长度，并在与语音输入连接之前由 ConvNeXt 块进行细化。

**项目地址：**https://swivid.github.io/F5-TTS/

PhysGen ：基于刚体物理的图像到视频生成

一种新颖的图像到视频生成方法，它可以转换单个图像和输入条件（例如，施加到图像中的对象的力和扭矩）以生成逼真的、物理上合理的且时间上一致的视频。

本文主要思想是将基于模型的物理模拟与数据驱动的视频生成过程相集成，从而实现合理的图像空间动态。

**项目主页：**https://stevenlsw.github.io/physgen/

Pyramid Flow：用于高效视频生成建模的金字塔流匹配

一种基于流匹配 的训练高效的自回归 视频生成方法。

通过仅在开源数据集上进行训练，它可以生成 768p 分辨率和 24 FPS 的高质量 10 秒视频，并且自然支持图像到视频的生成。

项目主页：https://pyramid-flow.github.io/

FLUX.1-Turbo-Alpha：8 步快速生成图像

阿里妈妈推出的一款支持 8 步出图的 LoRA，基于 FLUX.1-dev 模型进行训练。

该模型可以用于T2I、Inpainting controlnet和其他FLUX相关模型。

该模型在1M公开数据集和内部源图片上进行训练，这些数据美学评分6.3+而且分辨率大于800。

项目主页：https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

Janus：一个新颖的自回归框架，统一多模态理解和生成

通过将视觉编码解耦到单独的路径中来解决以前方法的局限性，同时仍然利用单个统一的变压器架构进行处理。

这种解耦不仅缓解了视觉编码器在理解和生成方面的角色之间的冲突，而且还增强了框架的灵活性。

Janus超越了之前的统一模型，并且匹配或超过了特定任务模型的性能。

Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模式模型的有力候选者。

项目地址：https://github.com/deepseek-ai/Janus

英伟达发布AM-RADIO：新一代视觉基础模型

AM-RADIO 是一个将 Large Vision Foundation 模型提炼为单一模型的框架。

RADIO 是一种新的视觉基础模型，在视觉领域表现出色，是视觉主干的卓越替代品。

通过蒸馏集成 CLIP 变体、DINOv2 和 SAM，它保留了文本基础和分段对应等独特功能。

项目主页：https://github.com/NVlabs/RADIO

面壁小钢炮MiniCPM 3.0 重磅发布：支持无限长文本输入

MiniCPM 3.0 是一个 4B 参数量的语言模型，相比 MiniCPM1.0/2.0，功能更加全面，综合能力大幅提升，多数评测集上的效果比肩甚至超越众多 7B-9B 模型。

支持工具调用🛠️（Function Calling）和代码 解释器 💻（Code Interpreter ）：++Berkeley Function Calling Leaderboard (BFCL)++ 上取得 9B 规模以下 SOTA，超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。

超强的推理能力🧮 ：数学能力方面，++MathBench++ 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。在非常具有挑战性的 ++LiveCodeBench++ 上，效果超越 Llama3.1-8B-Instruct。

出色的中英文 指令 遵循能力🤖 ：英文指令遵循 ++IFEval++ 、中文指令遵循 ++FollowBench-zh++ 效果超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。

长文本能力 ：原生支持 32k 上下文长度，32k 长度内大海捞针全绿。提出 LLM x MapReduce ，理论可处理的上下文长度达到 +∞。

RAG能力 ：我们发布了 ++MiniCPM RAG 套件++ 。基于 MiniCPM 系列模型的 ++MiniCPM-Embedding++ 、++MiniCPM-Reranker++ 在中文、中英跨语言检索测试中取得 SOTA 表现；针对 RAG 场景的 ++MiniCPM3-RAG-LoRA++ 在开放域问答等多项任务上超越 Llama3-8B、Baichuan2-13B 等模型。

项目主页：https://github.com/OpenBMB/MiniCPM

T2V-Turbo-v2：重登 VBench 榜首的开源视频生成模型

T2V-Turbo-v2 通过将各种监督信号（包括高质量训练数据、奖励模型反馈和条件指导）集成到一致性蒸馏过程中，带来显著进步。

T2V-Turbo 基于 VideoCrafter2，新发布的 V2 版本在视频基准测试 VBench 中重回榜首。

其 VBench 性能总分达到 85.13，超越了 Gen-3 和 Kling 可灵等商业模型。

项目主页：https://t2v-turbo-v2.github.io/

LongVideoBench：长上下文交错视频语言理解的基准

LongVideoBench，这是一种问答基准，其特点是视频语言交错输入长达一小时。

基准测试包括 3,763 个不同长度的网络收集视频及其不同主题的字幕，旨在全面评估 LMM 的长期多模态理解能力。

在 17 个细粒度类别中策划了 6,678 个人工注释的多项选择题，为长视频理解建立了最全面的基准之一。

项目主页：https://longvideobench.github.io/

Meta发布超强视频生成模型：Movie Gen

Movie Gen 为沉浸式 AI **内容设定了新标准，**官方宣称这是迄今为止最先进的媒体基础模型。该系列包括两个主要模型：

Movie Gen Video: 一个30B参数的Transformer基础模型，用于联合文本到图像和文本到视频生成。模型通过Flow Matching训练目标进行预训练，并在高质量视频和文本上进行微调。

Movie Gen Audio: 一个13B参数的基础模型，用于视频和文本到音频生成。模型同样通过Flow Matching训练目标进行预训练，并在高质量音频和视频上进行微调。

Movie Gen系列基础模型在视频生成、视频个性化、视频编辑和音频生成任务中取得了显著进展。

**项目主页：**https://ai.meta.com/research/movie-gen/

CogView3发布：更精细、更快速的文生图大模型

CogView3 是一个基于级联扩散的文本生成图像系统，采用了接力扩散框架。

CogView-3-Plus 在 CogView3 的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。

CogView3 的表现优于 SDXL，获胜率达到 77.0%。此外，通过对扩散模型的逐步蒸馏，CogView3 能够在推理时间仅为 SDXL 1/10 的情况下，生成可比的结果。

项目地址：https://github.com/THUDM/CogView3

Oryx：专注于图像、视频和多视角 3D 场景的时空理解

Oryx ：一种统一的多模态架构，用于图像、视频和多视角 3D 场景的时空理解。Oryx 提供按需解决方案，通过两个核心设计无缝、高效地处理任意空间大小和时间长度的视觉输入：

1）预训练的 OryxViT 模型， 可以将任何分辨率的图像编码为LLM友好的视觉表示；

动态 压缩器 模块，支持根据请求对视觉 token 进行 1 倍到 16 倍的压缩。

得益于这些设计， Oryx 可以容纳极长的视觉上下文，例如低分辨率和高压缩的视频，同时保持高识别精度，以执行原始分辨率和无压缩的文档理解等任务。

项目主页：https://oryx-mllm.github.io/

E2E-MFD：端到端多模态融合目标检测

提出了一种新颖的端到端同步联合学习方法，将图像融合和目标检测整合到一个单阶段框架中。

引入了一种新的梯度矩阵任务对齐（GMTA）技术，用于评估和量化图像融合和目标检测任务的影响，优化训练过程的稳定性，并确保融合检测权重的最优配置。

通过在图像融合和目标检测方面的广泛实验，展示了所提方法的有效性和鲁棒性。

项目地址：https://github.com/icey-zhang/E2E-MFD

技术交流

加入**「AIGCmagic社区」** 群聊，一起交流讨论，涉及 AI 视频、AI绘画、Sora技术拆解、数字人、多模态、 大模型 、传统 深度学习 、自动驾驶 等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！

更多精彩内容，尽在 「魔方 AI 空间」， 关注了解全栈式 AIGC 内容！！