OCR记录

  1. lstm

    时间轴: t=1 t=2 t=3 ... t=T

    输入: x₁ ---> x₂ ---> x₃ ---> ... ---> x_T

    ↓ ↓ ↓ ↓

    L1: h₁¹ ---> h₂¹ ---> h₃¹ ---> ... ---> h_T¹

    ↓ ↓ ↓ ↓

    L2: h₁² ---> h₂² ---> h₃² ---> ... ---> h_T²

LSTM的数据流动大概如上所示

LSTM单元的设计核心是如下4点,每个单元都有自己的细胞状态

  1. 遗忘门(Forget Gate) - "该忘记什么?"
    公式:f_t = σ(W_f · [h_{t-1}, x_t] + b_f)

作用:决定从上一细胞状态C_{t-1}中丢弃多少信息

理解:看当前输入x_t和上一隐藏状态h_{t-1},为C_{t-1}的每个维度输出0-1之间的值

0 = "完全忘记这个信息"

1 = "完全保留这个信息"

  1. 输入门(Input Gate) - "该记住什么新信息?"
    公式:i_t = σ(W_i · [h_{t-1}, x_t] + b_i)
    候选细胞状态:C̃_t = tanh(W_C · [h_{t-1}, x_t] + b_C)

作用:

i_t:决定哪些新信息值得存储

C̃_t:候选的新信息(经过tanh归一化到-1到1)

理解:先产生新信息候选,然后用输入门筛选哪些存入长期记忆

  1. 细胞状态更新 - "实际更新"
    公式:C_t = f_t * C_{t-1} + i_t * C̃_t

这是LSTM最核心的公式!

理解:细胞状态更新 = 遗忘旧信息 + 添加新信息

加法操作是关键:避免了梯度消失(梯度直接流过加法)

  1. 输出门(Output Gate) - "该输出什么?"
    公式:

o_t = σ(W_o · [h_{t-1}, x_t] + b_o)

h_t = o_t * tanh(C_t)

作用:基于细胞状态C_t,决定当前时间步输出什么到隐藏状态h_t


可以看到,lstm单元的设计思路是把每个单元当成一个细胞,不同时间步上每个细胞有自己的状态,这是第一个元素,而每个细胞要受上一个细胞状态的影响,所以需要计算出上一个细胞状态的相关权重,在lstm单元的设计里称之为遗忘门,决定从上一个细胞状态设计多少东西。同理,对当前的输入,也要有加权,因此还有一道输入门决定当前输入的权重,在实现的时候被拆分成了先求得当前细胞候选状态。最后就是输出门,输出每个细胞得隐藏状态和当前细胞输出。

一共四个元素,遗忘门决定上一个细胞状态得加权,输入门决定当前输入的加权,然后更新当前细胞状态(细胞状态也是一个要素),最后输出门输出当前细胞输出和隐藏状态


一层lstm网络实际只有一个lstm单元也就是四个参数在起作用循环使用

这种循环使用使得其可以接受不定长的输入而不会有问题。

考虑过这样共享参数网络能力会不会比较弱实际上的试验结论是不会,而且如果一层铺多个lstm单元会导致需要定长的输入序列了。

另一个问题是,因为每层网络支持不定长输入,所以批数据和批之间不用统一长度,只用批内部统一到最长长度即可。


还一个要注意的点是,每一层网络的输出是一层各时间步的隐藏状态,而每一层的每时间步输入会对应上一层的前一时间步输出,也就是层间是交织的,不是简单层间串联


双向lstm

因为一个时间顺序的lstm层只能建模一个顺序的依赖,而语言中很多时候依赖是既要上文的依赖也要下文的依赖

所以增加了一个把输入句子反向传递的lstm层,然后两个lstm层的隐藏层输出进行合并

相关推荐
HyperAI超神经11 小时前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
蛋王派13 小时前
DeepSeek-OCR-v2 模型解析和部署应用
人工智能·ocr
小白狮ww17 小时前
要给 OCR 装个脑子吗?DeepSeek-OCR 2 让文档不再只是扫描
人工智能·深度学习·机器学习·ocr·cpu·gpu·deepseek
智慧地球(AI·Earth)1 天前
DeepSeek架构新探索!开源OCR 2诞生!
架构·ocr
OpenBayes1 天前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
PPIO派欧云1 天前
PPIO上线GLM-OCR:0.9B参数SOTA性能,支持一键部署
人工智能·ai·大模型·ocr·智谱
东华果汁哥1 天前
【大模型 OCR】GLM-OCR 使用教程:从入门到部署
ocr
h7ml2 天前
查券返利机器人的OCR识别集成:Java Tesseract+OpenCV优化图片验证码的自动解析方案
java·机器人·ocr
Funny_AI_LAB2 天前
GLM-OCR发布:性能SOTA,超越PaddleOCR-VL-1.5?
人工智能·计算机视觉·语言模型·ocr
码科智能2 天前
OCR在真实场景“翻车”?面对跨页表格、密集表格、扭曲文档等难题,这个OCR文档解析工具太6了!
ocr