今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

DreamVideo-2:零样本视频生成框架

DreamVideo-2 是复旦大学和阿里巴巴等机构联合推出的零样本视频定制生成框架。该框架能够根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。通过参考注意力机制和混合掩码参考注意力等技术,DreamVideo-2 在主题学习与运动控制上表现优异。

资源

  1. 项目官网:dreamvideo2.github.io
  2. arXiv 技术论文:arxiv.org/pdf/2410.13...

EMMA:端到端自动驾驶多模态模型

EMMA 是 Waymo 推出的端到端自动驾驶多模态模型。该模型能够将原始相机传感器数据映射到驾驶特定输出,如规划轨迹和感知对象,同时利用预训练的大型语言模型处理多种驾驶任务。EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能。

资源

  1. arXiv 技术论文:arxiv.org/pdf/2410.23...

Voice Changer:变声器模型

Voice Changer 是 Cartesia 推出的变声器模型,能够将任何音频剪辑的语音转换成其他音色,同时保留原始音频的情感和表达。用户可以从多种高质量声音库中选择音色,或克隆自己的声音,实现个性化的声音转换。

资源

  1. 项目官网:www.cartesia.ai/blog/voice-...

Genmoai-smol:视频生成模型

Genmoai-smol 是针对单 GPU 设备优化的开源 AI 视频生成模型。该模型专为资源有限的设备设计,能够生成高保真度的视频内容,并提供 Gradio UI 和命令行界面,方便用户操作。

资源

  1. GitHub 仓库:github.com/victorchall...

MobileLLM:移动设备语言模型

MobileLLM 是 Meta 推出的适用于移动设备的轻量级语言模型。该模型在零样本常识推理和聊天交互等任务上表现出色,并支持多种语言理解和生成任务,能够在移动设备上提供高效的自然语言处理能力。

资源

  1. GitHub 仓库:github.com/facebookres...
  2. HuggingFace 模型库:huggingface.co/collections...
  3. arXiv 技术论文:arxiv.org/pdf/2402.14...

TimeSuite:长视频理解处理框架

TimeSuite 是上海 AI Lab 推出的提升 MLLMs 在长视频理解处理的设计框架。该框架通过引入高效的长视频处理机制和高质量的视频数据集 TimePro,显著提升了模型在长视频问答和时间定位任务上的性能。

资源

  1. arXiv 技术论文:arxiv.org/pdf/2410.19...

HOVER:人形机器人神经控制模型

HOVER 是英伟达推出的 1.5M 小模型,用于人形机器人的多功能全身神经控制。该模型能够无缝切换不同的控制模式,实现导航、桌面操作和移动操作等多种任务,并通过策略蒸馏技术整合多种控制技能,提高机器人的效率和灵活性。

资源

  1. 项目官网:hover-versatile-humanoid.github.io
  2. arXiv 技术论文:arxiv.org/pdf/2410.21...

SmolLLM2:紧凑型大型语言模型

SmolLLM2 是 Hugging Face 推出的紧凑型大型语言模型,提供 1.7B、360M、135M 三个不同参数级别的模型。该模型专注于在设备端运行,能够在本地设备上高效处理各种自然语言处理任务。通过监督微调和超反馈优化技术,SmolLLM2 在理解指令、知识推理和数学问题解决上表现出色,尤其适用于对延迟和数据隐私要求较高的场景。

资源

  1. HuggingFace 模型库:huggingface.co/collections...

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关推荐
simodai9 分钟前
机器学习1.Anaconda安装+环境配置
人工智能·机器学习
IT_陈寒16 分钟前
JavaScript 2024:10个颠覆你认知的ES新特性实战解析
前端·人工智能·后端
ModelWhale20 分钟前
AI教育白皮书解读 | 医学教育数智化转型新机遇,“人工智能+”行动实践正当时
人工智能·ai
大模型真好玩22 分钟前
大模型工程面试经典(五)—大模型微调与RAG该如何选?
人工智能·面试·deepseek
九章云极AladdinEdu2 小时前
临床数据挖掘与分析:利用GPU加速Pandas和Scikit-learn处理大规模数据集
人工智能·pytorch·数据挖掘·pandas·scikit-learn·paddlepaddle·gpu算力
上海锝秉工控2 小时前
超声波风向传感器:以科技之翼,捕捉风的每一次呼吸
大数据·人工智能·科技
说私域2 小时前
基于开源AI智能名片、链动2+1模式与S2B2C商城小程序的流量运营与个人IP构建研究
人工智能·小程序·流量运营
xiaoxiaoxiaolll4 小时前
期刊速递 | 《Light Sci. Appl.》超宽带光热电机理研究,推动碳纳米管传感器在制药质控中的实际应用
人工智能·学习
练习两年半的工程师4 小时前
AWS TechFest 2025: 风险模型的转变、流程设计的转型、生成式 AI 从实验走向实施的三大关键要素、评估生成式 AI 用例的适配度
人工智能·科技·金融·aws
Elastic 中国社区官方博客6 小时前
Elasticsearch:智能搜索的 MCP
大数据·人工智能·elasticsearch·搜索引擎·全文检索