今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

DreamVideo-2:零样本视频生成框架

DreamVideo-2 是复旦大学和阿里巴巴等机构联合推出的零样本视频定制生成框架。该框架能够根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。通过参考注意力机制和混合掩码参考注意力等技术,DreamVideo-2 在主题学习与运动控制上表现优异。

资源

  1. 项目官网:dreamvideo2.github.io
  2. arXiv 技术论文:arxiv.org/pdf/2410.13...

EMMA:端到端自动驾驶多模态模型

EMMA 是 Waymo 推出的端到端自动驾驶多模态模型。该模型能够将原始相机传感器数据映射到驾驶特定输出,如规划轨迹和感知对象,同时利用预训练的大型语言模型处理多种驾驶任务。EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能。

资源

  1. arXiv 技术论文:arxiv.org/pdf/2410.23...

Voice Changer:变声器模型

Voice Changer 是 Cartesia 推出的变声器模型,能够将任何音频剪辑的语音转换成其他音色,同时保留原始音频的情感和表达。用户可以从多种高质量声音库中选择音色,或克隆自己的声音,实现个性化的声音转换。

资源

  1. 项目官网:www.cartesia.ai/blog/voice-...

Genmoai-smol:视频生成模型

Genmoai-smol 是针对单 GPU 设备优化的开源 AI 视频生成模型。该模型专为资源有限的设备设计,能够生成高保真度的视频内容,并提供 Gradio UI 和命令行界面,方便用户操作。

资源

  1. GitHub 仓库:github.com/victorchall...

MobileLLM:移动设备语言模型

MobileLLM 是 Meta 推出的适用于移动设备的轻量级语言模型。该模型在零样本常识推理和聊天交互等任务上表现出色,并支持多种语言理解和生成任务,能够在移动设备上提供高效的自然语言处理能力。

资源

  1. GitHub 仓库:github.com/facebookres...
  2. HuggingFace 模型库:huggingface.co/collections...
  3. arXiv 技术论文:arxiv.org/pdf/2402.14...

TimeSuite:长视频理解处理框架

TimeSuite 是上海 AI Lab 推出的提升 MLLMs 在长视频理解处理的设计框架。该框架通过引入高效的长视频处理机制和高质量的视频数据集 TimePro,显著提升了模型在长视频问答和时间定位任务上的性能。

资源

  1. arXiv 技术论文:arxiv.org/pdf/2410.19...

HOVER:人形机器人神经控制模型

HOVER 是英伟达推出的 1.5M 小模型,用于人形机器人的多功能全身神经控制。该模型能够无缝切换不同的控制模式,实现导航、桌面操作和移动操作等多种任务,并通过策略蒸馏技术整合多种控制技能,提高机器人的效率和灵活性。

资源

  1. 项目官网:hover-versatile-humanoid.github.io
  2. arXiv 技术论文:arxiv.org/pdf/2410.21...

SmolLLM2:紧凑型大型语言模型

SmolLLM2 是 Hugging Face 推出的紧凑型大型语言模型,提供 1.7B、360M、135M 三个不同参数级别的模型。该模型专注于在设备端运行,能够在本地设备上高效处理各种自然语言处理任务。通过监督微调和超反馈优化技术,SmolLLM2 在理解指令、知识推理和数学问题解决上表现出色,尤其适用于对延迟和数据隐私要求较高的场景。

资源

  1. HuggingFace 模型库:huggingface.co/collections...

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关推荐
诸葛箫声7 分钟前
十类图片深度学习提升准确率(0.9317)
人工智能·深度学习
救救孩子把12 分钟前
11-机器学习与大模型开发数学教程-第1章1-3 极限与连续性
人工智能·数学·机器学习
OG one.Z14 分钟前
01_机器学习初步
人工智能·机器学习
HyperAI超神经18 分钟前
AI预判等离子体「暴走」,MIT等基于机器学习实现小样本下的等离子体动力学高精度预测
人工智能·神经网络·机器学习·ai·强化学习·可控核聚变·托卡马克
每天学一点儿30 分钟前
感知机:单层,多层(二分类,多分类)
人工智能·算法
wan5555cn1 小时前
当代社会情绪分类及其改善方向深度解析
大数据·人工智能·笔记·深度学习·算法·生活
nju_spy1 小时前
华为AI岗 -- 笔试(一)
人工智能·深度学习·机器学习·华为·笔试·dbscan·掩码多头自注意力
LiJieNiub2 小时前
YOLO-V1 与 YOLO-V2 核心技术解析:目标检测的迭代突破
人工智能·yolo·目标检测
初学小刘2 小时前
深度学习在目标检测中的应用与挑战
人工智能·深度学习·目标检测
AKAMAI2 小时前
Linebreak赋能实时化企业转型:专业系统集成商携手Akamai以实时智能革新企业运营
人工智能·云原生·云计算