LSTR: 基于Transformer的车道形状预测

LSTR: 基于Transformer的车道形状预测

在计算机视觉领域,车道检测是自动驾驶和智能交通系统中的关键技术之一。我们推出了一种名为LSTR的车道形状预测模型,它基于Transformer架构,实现了端到端的车道形状参数输出。本文将介绍LSTR模型的设计思想、功能特性以及应用场景。

项目背景与意义

传统的车道检测方法通常分为多个阶段,包括特征提取、车道线识别和拟合等,这些阶段需要大量的人工设计和调整,而且容易受到环境光照、路面情况等因素的影响。LSTR的出现将车道检测简化为单阶段任务,极大地提高了检测的准确性和效率。

LSTR模型的特点包括模型参数少、计算复杂度低、训练友好等,不仅在理论上具有吸引力,而且在实际应用中也表现出色。其在TuSimple数据集上达到了96.18%的准确率,为自动驾驶和智能交通领域的应用提供了可靠的技术支持。

LSTR的特性和功能

  • 😎 端到端架构: 直接输出车道形状参数,简化车道检测流程。
  • 超轻量级: 模型参数仅有765,787个,适用于资源受限的环境。
  • 超低复杂度: 计算复杂度仅为574.280M个乘加操作(MACs)。
  • 😎 训练友好: GPU内存消耗低,使用大小为(360, 640, 3)的输入图像,批量大小为16时,仅占用1245MiB的GPU内存。

最新更新

  • 【2021/12/03】🔥 我们的新作品《从单张图像学习预测3D车道形状和相机姿态:基于几何约束》已被AAAI2022接受!预印本论文和代码即将发布!
  • 【2021/11/23】: 我们现在支持自定义数据的训练和测试
  • 【2021/11/16】: 修复了多GPU训练的问题。
  • 【2020/12/06】: 现在我们支持CULane数据集

即将推出的功能

  • LSTR-nano(新的骨干网络):在只使用LSTR 40%的MACs(229.419M)和40%的参数(302,546)的情况下,达到96.33%的TuSimple准确率。
  • 马赛克增强。
  • 基于Loguru的日志记录模块。
  • 基于几何的损失函数。
  • 分割先验。

模型资源库

我们提供了基线LSTR模型文件(在TuSimple训练和验证集上进行了500,000次迭代训练):

  • ./cache/nnet/LSTR/LSTR_500000.pkl(约3.1MB)。

数据准备

请从TuSimple下载并提取带有注释的TuSimple训练、验证和测试集。

我们期望目录结构如下所示:

复制代码
TuSimple/
    LaneDetection/
        clips/
        label_data_0313.json
        label_data_0531.json
        label_data_0601.json
        test_label.json
    LSTR/

设置环境

  • Linux Ubuntu 16.04
bash 复制代码
conda env create --name lstr --file environment.txt

创建环境后,请激活它:

bash 复制代码
conda activate lstr

然后安装依赖:

bash 复制代码
pip install -r requirements.txt

训练和评估

  • 若要训练模型:

(如果您只想使用训练集,请查看./config/LSTR.json并设置"train_split": "train")

bash 复制代码
python train.py LSTR
  • 训练期间可视化图像存储在./results中。
  • 训练期间保存的模型文件(每5000次迭代)存储在./cache中。

要从快照模型文件训练模型:

bash 复制代码
python train.py LSTR --iter 500000
  • 若要评估(在评估单个图像时GPU占用603MiB),然后您将看到论文的结果:
bash 复制代码
python test.py LSTR --testiter 500000 --modality eval --split testing
  • 若要评估FPS(将--batch设置为最大以提高FPS,如果您每个图像重复16次,则GPU占用877MiB):
bash 复制代码
python test.py LSTR --testiter 500000 --modality eval --split testing --batch 16
  • 要评估并将检测到的图像保存在./results/LSTR/500000/testing/lane_debug中:
bash 复制代码
python test.py LSTR --testiter 500000 --modality eval --split testing --debug
  • 若要评估并保存解码器注意力图(存储--debugEnc以可视化编码器注意力图):
bash 复制代码
python test.py LSTR --testiter 500000 --modality eval --split testing --debug --debugDec

若要在一组图像上评估(将您的图像存储在./images中,然后检测结果将保存在./detections中):

bash 复制代码
python test.py LSTR --testiter 500000 --modality images --image_root ./ --debug

引用

复制代码
@InProceedings{LSTR,
author = {Ruijin Liu and Zejian Yuan and Tie Liu and Zhiliang Xiong},
title = {End-to-end Lane Shape Prediction with Transformers},
booktitle = {WACV},
year = {2021}
}

许可证

LSTR采用BSD 3-Clause许可证发布。更多信息请参阅<LICENSE>文件。

贡献

我们积极欢迎您的Pull请求!

致谢

通过LSTR,我们致力于推动车道检测技术的进步,为智能交通系统的发展贡献力量!

相关推荐
西西弗Sisyphus6 分钟前
如果让计算机理解人类语言- Word2Vec(Word to Vector,2013)
人工智能·word·word2vec
前端双越老师30 分钟前
30 行代码 langChain.js 开发你的第一个 Agent
人工智能·node.js·agent
东坡肘子1 小时前
高温与奇怪的天象 | 肘子的 Swift 周报 #092
人工智能·swiftui·swift
KaneLogger1 小时前
视频转文字,别再反复拖进度条了
前端·javascript·人工智能
度假的小鱼1 小时前
从 “人工编码“ 到 “AI 协同“:大模型如何重塑软件开发的效率与范式
人工智能
zm-v-159304339862 小时前
ArcGIS 水文分析升级:基于深度学习的流域洪水演进过程模拟
人工智能·深度学习·arcgis
拓端研究室3 小时前
视频讲解|核密度估计朴素贝叶斯:业务数据分类—从理论到实践
人工智能·分类·数据挖掘
灵智工坊LingzhiAI3 小时前
人体坐姿检测系统项目教程(YOLO11+PyTorch+可视化)
人工智能·pytorch·python
昨日之日20063 小时前
Video Background Remover V3版 - AI视频一键抠像/视频换背景 支持50系显卡 一键整合包下载
人工智能·音视频
SHIPKING3934 小时前
【机器学习&深度学习】什么是下游任务模型?
人工智能·深度学习·机器学习