深度学习的一些基本概念

softmax temperature scaling -- soft_max （x / p）p为常数，当x为负数的时候，x / p可以将值变小，使得数据分布的更平滑
fmha kernel -- 是tensorrt提供的对attention优化的工具，要求是attention的模式是固定的，同时这个工具自己会去评估attention的是否需要优化，所以容易不命中
pca是什么 -- 主成分分析，用SVD进行分解，取top维用于降维 https://zhuanlan.zhihu.com/p/37777074
如果模型出nan可以从两个方面进行分析：1. 输入数据异常，2. 模型异常。输入数据异常可以使用clamp，模型异常可以使用fp32或者bfp32；ugru如果序列比较长也会出nan, 可以将lr调大，在本地加速nan的复现。如果所有数据都可以将nan复现，那么主要是将nan定位到某一个模块。如果只有特定的数据才能出nan，那要将数据保存下来。将数据保存的难点是多卡的时候，可以一张卡保存一份
如果最后一个batch不足batch-size，batch的batch-size会小于batch-size，如果想要抛弃最后一个batch，可以使用drop_last=True
FSDP转成DDP的时候，需要将find_unused_parameters=True，这样就会防止不必要的参数进行反向传播
dataloader中的sampler使用来分配batch_size的，如果是distributedsampler是用来分配不同卡的，普通的sampler没有这个功能，只是用来分一下batch
model.state_dict和model.named_parameters的区别，state_dict是包含了可学习的参数和非可学习的参数，named_parameters只包含可学习的参数
softmax容易溢出（当值非常大的话，计算得到的数值也会变的非常大，数值可能会溢出。），为了避免溢出，可以将所有值减去数据中的最大值
bfp16是对FP32单精度浮点数截断数据，即用8bit，表示指数，7bit，表示小数。FP16半精度浮点数，用5bit表示指数，10bit表示小数
DeformAttn：BEV中的attention，从3D转到2D的时候，对周围的信息做一个偏移，然后再做attention
diffusion模型: 主要特点是去增加噪音然后decoder出来的东西接近真值，然后在推理的过程中，加入噪声，使得推理结果可以合理的多样化，一般来讲涉及到多步加噪，和多步去噪，每一步只依赖于上一步，类似于马尔科夫模型
增大batch_size可以提高模型训练速度（依赖于DDP等结构）但是大的bt会导致结果变差，需要相应的调整lr（bt变大多少倍，lr也要变大多少倍）https://zhuanlan.zhihu.com/p/364865720
contiguous() 相当于深拷贝，两个量之间没有相对关系。pytorch中的大部分操作，两个量之间都是没有关系的，但是某些操作，如narrow(), veiw(), expand(), transpose(), 两个量之间相当于是浅拷贝，可以用contiguous隔开 https://blog.csdn.net/kdongyi/article/details/108180250
维度高了，对时延的消耗是很大的，尽量降低维度
awl，降loss的weight做为一组可学习的参数，放入optimizer中，参与模型的更新，这个weight可以设置成类似于正态分布的形式
模型的更新主要分为三个步骤1. param是requires_grad的；2. param要进入optimizer；3. model.train()
pointnet的主要优点是可以把空的地方mask掉，不进MLP的推理
register_buffer() 说明这个量要被记录到模型参数里面去，但不参与训练
MSE_loss, 对离群点比较敏感，受其影响较大 https://blog.csdn.net/Xiaobai_rabbit0/article/details/111032136
batch_first = true，输入是batch_size, sequence, embed_dim，然后在模型里面再转回seq, batch, emb, 然后输出的时候再转。如果是batch_first=false, 那就是sequence, batch_size, embed_dim
F.pad, padding的维度从最后一维开始算，如（3， 4）最后一维的左右进行padding，如（1， 2， 3, 4）最后一维padding (1, 2), 倒数第二维padding(3, 4)
dataloader中的num_workers和batch_size可以调节GPU的使用率，调整batch-size主要调节整体的占用率，调节num_workers主要调节空隙
dataloader中shuffle和sample的区别：dataloader的数据派发有两种方式，shuffle和sampler，随机和采样，只能用一种，不能同时使用。shuffle和sampler在每个epoch都会重新分布data，使每个batch在每个epoch都不一样。
模型的初始化，一般来说都是对dataloader进行初始化固定，模型的参数不需要初始化固定，这就是说明，不管模型开始怎么样，用相同的数据都能训出同样的结果 https://zhuanlan.zhihu.com/p/618639620
torch.repeat和torch.repeat_interleave的区别：torch.repeat是整体进行repeat, repeat_interleave是按照元素进行repeat https://zhuanlan.zhihu.com/p/474153365
nn.BatchNorm2d是对最后两维进行batchnorm https://blog.csdn.net/bigFatCat_Tom/article/details/91619977
nn.AvgPool2d https://blog.csdn.net/qq_50001789/article/details/120537858
torch.nn.SyncBatchNorm.convert_cync_batchnorm() 这个函数的作用是，在多卡的时候，将batchnorm可以在多卡之间同步，对于batch比较小的情况，比较有帮助。所以这个要作用在DDP之后，以及只对nn.batchnorm这种自带的batchnorm生效
load_state_dict(strict=False) 的时候，要求名字一样的state的shape要一致，如果名字不一样就不检查了。如果strict=True那么所有的名字都要一样
trt在进行cuda拷贝的时候要用字节数，所以float要4，double8等
3DGS 主要是用于重建驾驶场景，里面是没有神经网络的，就是用数学公式进行重建 https://zhuanlan.zhihu.com/p/679809915
自回归模型：通过逐步预测序列中的下一个元素每一步的输出严格依赖于之前生成的所有结果，数学模型：概率链式法则
模仿学习：有两种，一种是行为克隆（监督学习），一种是逆强化学习（通过专家数据去学习到奖励函数）https://blog.csdn.net/caozixuan98724/article/details/103765605
VAE：diffusion的前身
前后帧稳定：1. 上一帧的attn完的内容和当前帧做GRU, 2. 上一帧的attn内容和当前帧做attn, 3. 上一帧选道结果传入当前帧，loss做MSE loss，最后做loss的只选top1做mse 4. 根据上一帧的path去选择道路，然后作为上一帧的选道进行稳定
torch.mse_loss 就是对预测值和真值做查的平方，reduction有三种: mean，sum和none。顾名思义
actionconsistentloss: 更具sd给的action(导航语义信息) 如果lane和action的信息不符合，就将这条lane标记出来，然后在算loss的时候，将label对应的prob和其他lane的prob加一个margin，拉开差距，然后算-log loss
优先级车道的标注，能够能够帮助选道更加提前，而不是只依赖于path的真值，有点类似于之前LCC的选道标注
RFS指标：GT轨迹并非是真是采集的轨迹，而是多种合理的轨迹，然后人工打分。感觉这个指标对人工的要求很高 https://zhuanlan.zhihu.com/p/1919113872851333875?utm_psn=1920104190560145570
VLA是通用的大语言模型，用互联网数据训练，然后用自动驾驶数据微调
world-model主要是在模型中有反推理的能力
gaussian label主要是软label，会纳入别的label，然后根据距离等信息，算label的prob
纵向代码：a.大体思路就是根据consist_path进行embedding，然后根据embedding信息进行attention（attention是出一个初始的query，然后和path和环境信息进行attention，里面的attention用到了resnet的方式），出轨迹的yaw, jerk, 和prob. 然后把jerk一步步累加，算出v. 最后输出v, yaw和prob。
cam-grad，梯度归因：就是直接对softmax之后的score进行梯度回传，然后让梯度乘以输入，得到一个正收益和负收益，看哪一路的占比大. https://zhuanlan.zhihu.com/p/479485138
最小化熵loss: 使用预测的值作为真值进行CE LOSS, 可以增强模态区分 https://blog.csdn.net/qq_45454258/article/details/148568108
rl主要有两点改动: 在数据层面，根据模型的训练结果对主车的位置进行移动，然后根据移动结果重新生成batch_data，然后对batch_data进行推理，得到相应的reward，目前reward主要还是relation, 对模型进行推理，根据reward去计算loss
对于图片的旋转 -- 对于像素点坐标的旋转