端到端

【ASR】基于分块非自回归模型的流式端到端语音识别论文地址：https://arxiv.org/abs/2107.09428非自回归 (NAR) 模型在语音处理中越来越受到关注。凭借最新的基于注意力的自动语音识别 (ASR) 结构，与自回归 (AR) 模型相比，NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。然而，识别推理需要等待完整语音话语的完成，这限制了其在低延迟场景中的应用。为了解决这个问题，我们提出了一种新颖的端到端流式 NAR 语音识别系统，该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的

Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》2025年2月发表，来自中科院软件所和中科院大学的论文。

VLM-E2E：通过多模态驾驶员注意融合增强端到端自动驾驶——论文阅读《VLM-E2E Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion》2025年2月发表，来自香港科大广州分校、理想汽车和厦门大学的论文。

语音合成之一TTS技术发展史综述文本转语音（Text-to-Speech，TTS）技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科，融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音，使得用户能够通过听觉获取信息，极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统，TTS技术已经渗透到我们日常生活的方方面面，例如智能语音助手（亚马逊Alexa、豆包、苹果Siri等）、屏幕阅读器（为视力障碍人士和阅读障碍者）、教育软件、媒体与娱乐（播客、有声读物、视频/游

星落秋风五丈原

Nvidia GTC AI 会议：理想汽车【VLA：迈向自动驾驶物理智能体的关键一步】Nvidia GTC AI 会议上，理想汽车介绍了内部VLA相关算法，理想在智驾新技术上的新技术探索其实比较领先，以下整理了这次介绍的相关技术点

不知道是谁2

问deepseek自动驾驶模块化or端到端？（总结的时候，要强调不是非此即彼，而是互补和融合的可能性，这样用户能有一个更全面的理解，不会被二元对立误导。）

、达西先生

强化学习笔记6——异同策略、AC、等其他模型总结举例QLearning为什么是异策略？生成动作时e的概率从Q表选，1-e概况随机。更新策略时，贪心策略选择Q_max作为动作。

、达西先生

Uniad复现学习在优云智算compshare平台部署训练，加速训练。关于UCloud(优刻得)旗下的compshare算力共享平台 UCloud(优刻得)是中国知名的中立云计算服务商，科创板上市，中国云计算第一股。 UCloud（优刻得）旗下的Compshare算力共享平台具有以下优点：

开MINI的工科男

【笔记】自动驾驶预测与决策规划_Part7_数据驱动的预测方法本文主要记录课程《自动驾驶预测与决策技术》的学习过程，难免会有很多纰漏，感谢指正。课程链接：https://www.shenlanxueyuan.com/my/course/700 相关笔记链接： Part1_自动驾驶决策规划简介 Part2_基于模型的预测方法 Part3_路径与轨迹规划 Part4_时空联合规划 Part5_决策过程 Part6_不确定性感知的决策过程

自动驾驶的“三维进化” ：跨越平面的OmniDrive如何在3D空间实现端到端的决策规划？本篇文章由原paper一作Shihao Wang（王仕豪）全权翻译分享，王仕豪为北京理工大学硕士毕业生，主要从事计算机视觉和自动驾驶相关工作。他提出了StreamPETR,Far3D和OmniDrive等方法，并在nuScenes的检测和跟踪榜单上多次获得第一名。

端到端自动驾驶系列(一)：自动驾驶综述解析End-to-end-Autonomous-DrivingAbstract—The autonomous driving community has witnessed a rapid growth in approaches that embrace an end-to-end algorithm framework, utilizing raw sensor input to generate vehicle motion plans, instead of concentrating on indi

【6D位姿估计】GDR-Net 单目几何引导的直接回归模型本文介绍6D位姿估计的直接回归方法GDR-Net，它从单个RGB图像中确定物体在三维空间中的位置和方向。

目标点注意力Transformer：一种用于端到端自动驾驶的新型轨迹预测网络本文介绍了目标点注意力Transformer：一种用于端到端自动驾驶的新型轨迹预测网络。在自动驾驶领域中，已经有很多优秀的感知模型，用于目标检测、语义分割和其它任务，但是我们如何可以有效地将感知模型用于车辆规划呢？传统的自动驾驶车辆轨迹预测方法不仅需要遵循交通规则以实现避障，还需要按照规定的路线到达目的地。在本文中，我们提出了一种无规则的基于transformer的轨迹预测网络用于端到端自动驾驶，称为目标点注意力Transformer网络（TAT）。我们使用注意力机制来实现预测轨迹与感知特征以及目标点之间

端到端的机器学习项目（Machine Learning 研习之六）当你在研习机器学习时，最好是使用真实世界中的数据，而不是采用人工数据。巧的是，数以千计的数据集可供选择，涵盖了各种领域。