一种融合指代消解序列标注方法在中文人名识别上的应用(下)

二、使用了BERT模型和指代消解算法:

  • 加入BERT语言预处理模型,获取到高质量动态词向量。
  • 融入指代消解算法,根据指代词找出符合要求的子串/短语。

【2】融入指代消解算法,根据指代词找出符合要求的子串/短语

scss 复制代码
  指代消解算法如图2所示,简单来说,就是考虑文档中子串/短语以及学习子串/短语的可能指代。通过分词器将句子y分割为a~e五个字,将其作为输入传给模型中的BiLSTM模块,然后提取实体识别所需的特征,进行注意力机制任务,将得到的结果进行拼接、剪枝处理,得到可能性最大的指代的子串/短语,进而优化目标。
  这里的指代消解算法是在使用启发式Max-Margin损失函数的基础上,利用增强策略梯度算法工作的。每个行为 a=(c,m) 的概率定义如公式(1)所示, 损失函数定义如公式(2)所示。
scss 复制代码
  为使获得奖励值最大,采用梯度上升法进行参数更新,由于梯度值计算困难,现采用一种梯度估值,定义如公式(3)、(4),进行原文替换。
  调研发现,此处可以引入一个语义匹配层及网页语义知识,来弥补知识库不全覆盖的问题。在此基础上,本文找到一种基于小文本的BERT-NER的中文指代消解框架,它可以获得更高的准确率和更好的效果,同时实现主语补齐的功能,功能实现如图3所示。
复制代码
  由于数据中包含人名指代词的文本在海量数据中占比较少,所以本文可进行小文本的模型训练。加入指代消解算法后,将消解前后的舆情公告数据文本进行比较,测验效果见图4。

【3】融入的指代消解算法,比加入外部语料和字符级特征更通用有效

复制代码
  当下与本文类似的提高人名识别效率的研究中,多特征BiLSTM-CRF模型(后续简写为多特征模型)识别方法具有代表性,该模型改善了影评中称谓不明等问题,在电影行业上取得了显著效果。
  本文为了体现融合指代消解的序列标注方法更胜一筹,利用人民日报数据集和上市公告数据集,比较融合指代消解的序列标注的方法和加入外部人名语料和特定字符级特征的序列标注的方法,得出融入指代消解的人名识别方法要比加入外部人名语料和特定字符级特征的模型的效果更好。
  所以在一般情况下,融合指代消解的序列标注方法会比其他形式,诸如加入外部人名语料和特定字符级特征的序列标注方法更能改进人名识别的准确率。
  在公共数据集和舆情公告数据集上,融合指代消解的序列标注方法和加入外部人名语料和特定字符级特征方法的比较,前者效果更好。

总结

本文提出的融合指代消解序列标注方法,在以下四个方面有较强的创新性

  • 数据预处理阶段,根据职务变更等有效信息进行数据增强
  • 加入BERT语言预处理模型,获取到高质量动态词向量
  • 融入指代消解算法,根据指代词找出符合要求的子串/短语
  • 融入的指代消解算法,比加入外部语料和字符级特征更通用有效

该算法未来将拓展至机构名、地名以及其他所有以名称为标识的实体,能更好的服务于京东小程序客户体验中的寄收件地址的文本识别中,提高相关识别的准确率。

陈雨

6篇文章

粉Ta

一键转载

点赞 3

相关推荐
Greg_Zhong1 天前
微信小程序中进度条总结
微信小程序·自定义进度条·slider进度条
这是个栗子2 天前
【微信小程序问题解决】删掉 “navigationStyle“: “custom“ 后仍触发了自定义导航栏
微信小程序·小程序·navigationstyle
liangdabiao2 天前
定制的乐高马赛克像素画生成器-微信小程序版本-AI 风格优化-一键完成所有工作
人工智能·微信小程序·小程序
编程小白gogogo2 天前
苍穹外卖微信小程序导入hbuilder后点击运行选择在微信开发者工具中打开,微信开发者工具打开却没有运行微信小程序解决办法
微信小程序·小程序
天籁晴空2 天前
微信小程序 静默登录 + 授权登录 双模式配合的设计方案
前端·微信小程序·uni-app
小徐_23333 天前
uni-app 组件库 Wot UI 2.0 发布了,我们带来了这些改变!
前端·微信小程序·uni-app
Greg_Zhong3 天前
微信小程序中实现自定义颜色选择器(简陋版对比精致版)
微信小程序·自定义颜色选择器面板
杰建云1673 天前
2026年第三方平台制作微信小程序多少钱?
微信小程序·小程序·小程序制作
vipbic4 天前
独立开发复盘:我用 Uni-app + Strapi v5 肝了一个“会上瘾”的打卡小程序
前端·微信小程序
全栈小54 天前
【小程序】微信小程序在体验版发起支付的时候提示“由于小程序违规,支付功能暂时无法使用”,是不是一脸懵逼
微信小程序·小程序