典型的深度网络模型 resNet
mask R-CNN
大模型为核心的AI
原始的问题就是语言模型
词嵌入
word Embedding
如何将字符串转化为浮点数组,也就是再高维空间中的店,这种空间嵌入,是NLP的关键
含义相近的词汇,应当嵌入到距离相近的点上
词组与搭配关系,乃至于句法和语法,都和词汇之间的亲密度,密切相关,嵌入时,不能只考虑词汇本身的含义
考虑语境和上下文
连带上下文一同嵌入
早期语言模型架构,主要基于RNN,以LSTM作为基本单元,并且引入两列注意力元素 CoVe
若干个CNN,平行的放置,首尾链接,ELMo,处理的是一个顺序对象,基本特征为顺序,人读东西是非线性的
信息越处理噪声越多,越处理信息越少
正着跑一遍,倒着跑一遍
2017年,Transformer的引入是NLP领域的革命性事件
引入注意力机制,假定事先不知道,事先准备了很多的注意力头,提取出来的信息,反复相关
两大特点:非线性,大量的计算
Transfoemer 内部参数众多,可以存储大量信息
ENCODER --> DECODER
预训练pre-train (没有明确目标,没有明显指向任务,是为了今后的精调做准备的,用大量的语料做准备,上千亿种)+ Fine-Tuning 是AI训练方法的革命性创新
人的语义不达,可能是训练的不够,肯定没有上千亿种,
从图片中准确的找到,提取出二维的姿态,模型要放的稳
解决问题才是最重要的
要出深度只有两个途径,一个是一个角度拍一张,两张不同角度的图,三角化,另外一种,立体相机,双目
直接输出图片中关注的三维姿态,一张图片,不但知道有摩托车,还知道位置,还知道姿态,modelTarget,端对端