今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

DreamVideo-2:零样本视频生成框架

DreamVideo-2 是复旦大学和阿里巴巴等机构联合推出的零样本视频定制生成框架。该框架能够根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。通过参考注意力机制和混合掩码参考注意力等技术,DreamVideo-2 在主题学习与运动控制上表现优异。

资源

  1. 项目官网:dreamvideo2.github.io
  2. arXiv 技术论文:arxiv.org/pdf/2410.13...

EMMA:端到端自动驾驶多模态模型

EMMA 是 Waymo 推出的端到端自动驾驶多模态模型。该模型能够将原始相机传感器数据映射到驾驶特定输出,如规划轨迹和感知对象,同时利用预训练的大型语言模型处理多种驾驶任务。EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能。

资源

  1. arXiv 技术论文:arxiv.org/pdf/2410.23...

Voice Changer:变声器模型

Voice Changer 是 Cartesia 推出的变声器模型,能够将任何音频剪辑的语音转换成其他音色,同时保留原始音频的情感和表达。用户可以从多种高质量声音库中选择音色,或克隆自己的声音,实现个性化的声音转换。

资源

  1. 项目官网:www.cartesia.ai/blog/voice-...

Genmoai-smol:视频生成模型

Genmoai-smol 是针对单 GPU 设备优化的开源 AI 视频生成模型。该模型专为资源有限的设备设计,能够生成高保真度的视频内容,并提供 Gradio UI 和命令行界面,方便用户操作。

资源

  1. GitHub 仓库:github.com/victorchall...

MobileLLM:移动设备语言模型

MobileLLM 是 Meta 推出的适用于移动设备的轻量级语言模型。该模型在零样本常识推理和聊天交互等任务上表现出色,并支持多种语言理解和生成任务,能够在移动设备上提供高效的自然语言处理能力。

资源

  1. GitHub 仓库:github.com/facebookres...
  2. HuggingFace 模型库:huggingface.co/collections...
  3. arXiv 技术论文:arxiv.org/pdf/2402.14...

TimeSuite:长视频理解处理框架

TimeSuite 是上海 AI Lab 推出的提升 MLLMs 在长视频理解处理的设计框架。该框架通过引入高效的长视频处理机制和高质量的视频数据集 TimePro,显著提升了模型在长视频问答和时间定位任务上的性能。

资源

  1. arXiv 技术论文:arxiv.org/pdf/2410.19...

HOVER:人形机器人神经控制模型

HOVER 是英伟达推出的 1.5M 小模型,用于人形机器人的多功能全身神经控制。该模型能够无缝切换不同的控制模式,实现导航、桌面操作和移动操作等多种任务,并通过策略蒸馏技术整合多种控制技能,提高机器人的效率和灵活性。

资源

  1. 项目官网:hover-versatile-humanoid.github.io
  2. arXiv 技术论文:arxiv.org/pdf/2410.21...

SmolLLM2:紧凑型大型语言模型

SmolLLM2 是 Hugging Face 推出的紧凑型大型语言模型,提供 1.7B、360M、135M 三个不同参数级别的模型。该模型专注于在设备端运行,能够在本地设备上高效处理各种自然语言处理任务。通过监督微调和超反馈优化技术,SmolLLM2 在理解指令、知识推理和数学问题解决上表现出色,尤其适用于对延迟和数据隐私要求较高的场景。

资源

  1. HuggingFace 模型库:huggingface.co/collections...

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关推荐
MARS_AI_43 分钟前
云蝠智能 Voice Agent 落地展会邀约场景:重构会展行业的智能交互范式
人工智能·自然语言处理·重构·交互·语音识别·信息与通信
weixin_422456441 小时前
第N7周:调用Gensim库训练Word2Vec模型
人工智能·机器学习·word2vec
HuggingFace4 小时前
Hugging Face 开源机器人 Reachy Mini 开启预定
人工智能
企企通采购云平台5 小时前
「天元宠物」×企企通,加速数智化升级,“链”接萌宠消费新蓝海
大数据·人工智能·宠物
超级小忍5 小时前
Spring AI ETL Pipeline使用指南
人工智能·spring
张较瘦_6 小时前
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法
论文阅读·人工智能
巴伦是只猫6 小时前
【机器学习笔记 Ⅲ】4 特征选择
人工智能·笔记·机器学习
好心的小明6 小时前
【王树森推荐系统】召回11:地理位置召回、作者召回、缓存召回
人工智能·缓存·推荐系统·推荐算法
lishaoan777 小时前
使用tensorflow的线性回归的例子(十二)
人工智能·tensorflow·线性回归·戴明回归
二DUAN帝7 小时前
UE实现路径回放、自动驾驶功能简记
人工智能·websocket·机器学习·ue5·自动驾驶·ue4·cesiumforue