端到端

Hali_Botebie4 天前
端到端
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving最近,扩散模型作为一种强大的生成式技术出现在机器人策略学习中,能够对多模态动作分布进行建模。利用其端到端自动驾驶能力是一个充满希望的方向。然而,机器人扩散策略中大量的去噪步骤,以及交通场景更加动态、开放世界的性质,给以实时速度生成多样化的驾驶动作带来了巨大挑战。为了应对这些挑战,我们提出了一种新颖的截断扩散策略,该策略结合了先验多模态锚点并截断扩散调度,使模型能够从锚定的高斯分布学习去噪至多模态驾驶动作分布。此外,我们设计了一种高效的级联扩散解码器,以增强与条件场景上下文的交互。所提出的模型 Diffus
Hali_Botebie4 天前
端到端
Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving端到端自动驾驶系统凭借大规模数据展现出强大的规划能力,但由于常识有限,在复杂和罕见场景下仍面临挑战。相比之下,大型视觉-语言模型(LVLMs)在场景理解和推理方面表现出色。未来的方向在于融合这两种方法的优势。以往使用 LVLM 预测轨迹或控制信号的方法效果欠佳,因为 LVLM 并不适合进行精确的数值预测。本文提出了 Senna,这是一种结合了大型视觉-语言模型(Senna-VLM)和端到端模型(Senna-E2E)的自动驾驶系统。Senna 将高层规划与底层轨迹预测解耦。Senna-VLM 以自然语言生成
Hali_Botebie4 天前
端到端
VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning论文地址:arxiv.org/abs/2402.13243 摘要 从大规模驾驶示范中学习类人驾驶策略具有良好的前景,但规划中的不确定性与非确定性特征使其颇具挑战。现有的基于学习的规划方法遵循确定性范式,直接回归具体动作,因而难以应对不确定性问题。在本工作中,我们提出了一种用于端到端自动驾驶的概率规划模型,名为 VADv2。我们采用概率场函数来建模从动作空间到概率分布的映射关系。鉴于规划动作空间是一个难以处理的高维连续时空空间,我们首先将规划动作空间离散化为一个庞大的规划词汇表,随后将该词汇表标记化为规划令
深蓝学院2 个月前
自动驾驶·端到端·世界模型·小鹏
X-World:小鹏面向规模化端到端自动驾驶的可控自车中心多相机世界模型「自车中心、纯环视、全层级文本可控」目录01 研究背景:端到端自动驾驶世界模型的现存痛点02 X-World核心创新点:重构自动驾驶世界模型的技术范式
AI生成未来3 个月前
人工智能·aigc·端到端·动画生成
CVPR 2026|复旦大学提出OmniLottie:首个端到端多模态矢量动画生成框架!Project Page / Website:https://lil-shake.github.io/va-pi.github.io/
具身智能之心5 个月前
机器人·端到端·具身智能
ImaginationPolicy:迈向通用、精确、可靠的机器人操作端到端策略机器人端到端操作策略为实体智能体理解和交互世界提供了巨大潜力。与传统模块化流水线不同,端到端学习能缓解模块间信息损失、孤立优化目标导致的特征错位等关键局限,但现有端到端神经网络(包括基于大视觉-语言-动作(VLA)模型的方法),在大规模实际部署中性能仍显不足——尤其是在可靠性、精度上,甚至逊色于工程化成熟的传统模块化流水线,且在面对未见过的物体或不同机器人平台时,泛化能力短板更突出。
深蓝学院5 个月前
机器人·导航·端到端·具身智能
完全端到端闭环导航!仅需相机,LoGoPlanner实现感知定位规划一体化目录01 把“位置感”塞进策略02 技术亮点Metric-aware visual geometry,把“真实尺度”学进来
韩曙亮6 个月前
人工智能·自动驾驶·e2e·autoware·端到端·基于规则技术架构·端到端技术架构
【自动驾驶】Autoware 架构 ① ( 自动驾驶的两种核心技术架构 | 基于规则技术架构 | 端到端技术架构 )自动驾驶的两种核心技术架构 :端到端技术架构 , 一端是 " 传感器原始数据 " , 另一端是 " 车辆控制指令 " ;
沛沛老爹6 个月前
工作流·rag·端到端·lightrag·知识注入·查询响应
LightRAG 系列 7:核心技术解析——整合检索与生成模块,完整走通 LightRAG 的端到端工作流图片来源网络,侵权联系删。LightRAG系列文章 ● LightRAG系列1:为什么 Web 开发者需要关注 RAG?
小猫挖掘机(绝版)6 个月前
linux·ubuntu·自动驾驶·无人机·端到端
在Ubuntu 20.04 部署DiffPhysDrone并在Airsim仿真完整流程DiffPhyDrone是上海交大实验室发布在2025年Nature子刊上的端到端自主导航方案。使用12×16超低分辨率深度图作为输入,使用仅3层CNN的超小神经网络实现端到端自主飞行,可部署于150元廉价嵌入式计算平台。目前已开源,可在本地部署。下面我将介绍本地部署的流程,注意下面的内容是CUDA 12.8和CUDA 11.8混杂介绍的,请你根据你的显卡版本,选择调整相应指令,安装一种CUDA版本即可,建议50系列选择12.8,其余选择11.8。
阿提说说6 个月前
端到端·gtp-omni
mini-omni demo测试部署服务端启动碰到的问题修改litgpt/config.py修改inference.py客户端启动碰到的问题
m0_650108246 个月前
人工智能·自动驾驶·端到端·实时性·动量感知机制·闭环性能·长时域预测
Don’t Shake the Wheel: 端到端自动驾驶中的动量感知规划(MomAD)在端到端自动驾驶领域,多模态规划易受单帧感知局限,存在时间不一致、遮挡敏感等问题。北京交通大学与地平线机器人等团队提出 MomAD 框架,引入轨迹与感知动量,通过 TTM 模块(豪斯多夫距离选轨迹)、MPI 模块(融合历史查询)及鲁棒去噪,结合 Turning-nuScenes 数据集与 TPC 指标,显著提升规划稳定性,降低碰撞率。
nju_spy7 个月前
人工智能·深度学习·动态规划·端到端·库存管理·两阶段pto·多周期补货问题
论文阅读 - 深度学习端到端解决库存管理问题 - 有限时间范围内的多周期补货问题(Management Science)https://pubsonline.informs.org/doi/10.1287/mnsc.2022.4564
xwz小王子8 个月前
机器人·端到端
ImaginationPolicy:迈向通用、精确、可靠的机器人操作端到端策略一、核心背景与问题提出机器人端到端操作策略为实体智能体理解和交互世界提供了巨大潜力。与传统模块化流水线不同,端到端学习能缓解模块间信息损失、孤立优化目标导致的特征错位等关键局限,但现有端到端神经网络(包括基于大视觉-语言-动作(VLA)模型的方法),在大规模实际部署中性能仍显不足——尤其是在可靠性、精度上,甚至逊色于工程化成熟的传统模块化流水线,且在面对未见过的物体或不同机器人平台时,泛化能力短板更突出。为填补“泛化潜力”与“实际性能需求”的差距,本研究提出一种以“可用性(affordance)”为核心的
oscar99910 个月前
e2e·端到端
端到端测试:复杂系统的终极体检术当你的应用像多米诺骨牌一样牵一发而动全身,如何确保用户一路畅通无阻?想象一下:你精心开发的电商应用,用户登录顺利,商品浏览流畅,却在最后支付时卡壳——原因是支付网关接口悄悄变了。在现代分布式系统和复杂架构的背景下,一个环节的故障足以让整个业务流程瘫痪。
木亦汐丫1 年前
语音识别·asr·端到端·流式·nar非自回归·分块注意力·mask-ctc
【ASR】基于分块非自回归模型的流式端到端语音识别论文地址:https://arxiv.org/abs/2107.09428非自回归 (NAR) 模型在语音处理中越来越受到关注。 凭借最新的基于注意力的自动语音识别 (ASR) 结构,与自回归 (AR) 模型相比,NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。 然而,识别推理需要等待完整语音话语的完成,这限制了其在低延迟场景中的应用。 为了解决这个问题,我们提出了一种新颖的端到端流式 NAR 语音识别系统,该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的
一点.点1 年前
论文阅读·大模型·自动驾驶·端到端
Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》2025年2月发表,来自中科院软件所和中科院大学的论文。
一点.点1 年前
论文阅读·大模型·自动驾驶·端到端
VLM-E2E:通过多模态驾驶员注意融合增强端到端自动驾驶——论文阅读《VLM-E2E Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion》2025年2月发表,来自香港科大广州分校、理想汽车和厦门大学的论文。
shichaog1 年前
spark·语音合成·tts·端到端
语音合成之一TTS技术发展史综述文本转语音(Text-to-Speech,TTS)技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科,融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音,使得用户能够通过听觉获取信息,极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统,TTS技术已经渗透到我们日常生活的方方面面,例如智能语音助手(亚马逊Alexa、豆包、苹果Siri等)、屏幕阅读器(为视力障碍人士和阅读障碍者)、教育软件、媒体与娱乐(播客、有声读物、视频/游
星落秋风五丈原1 年前
人工智能·自动驾驶·汽车·端到端·vla
Nvidia GTC AI 会议:理想汽车【VLA:迈向自动驾驶物理智能体的关键一步】Nvidia GTC AI 会议上,理想汽车介绍了内部VLA相关算法,理想在智驾新技术上的新技术探索其实比较领先,以下整理了这次介绍的相关技术点