BERT-文本分类&NER

BERT文本分类

训练样本

训练数据:18W条

评估数据:1W条

测试数据:1W条

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 体验2D巅峰 倚天屠龙记十大创新概览 8 60年铁树开花形状似玉米芯(组图) 5 同步A股首秀:港股缩量回调 2 中青宝sg现场抓拍 兔子舞热辣表演 8 锌价难续去年辉煌 0 2岁男童爬窗台不慎7楼坠下获救(图) 5 布拉特:放球员一条生路吧 FIFA能消化俱乐部的攻击 7 金科西府 名墅天成 1 状元心经:考前一周重点是回顾和整理 3 |

训练代码

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 02-Bert 文本分类 → main.py

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| dev f1:0.9664522058823529, precision:0.9580865603644647,recall:0.9749652294853964 test f1:0.9651982378854626, precision:0.9618086040386303,recall:0.9686118479221928 |

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 02-Bert 文本分类 → predict.py

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 模型预测结果: 文本:我们一起去打篮球吧! 预测的类别为:game 文本:我喜欢踢足球! 预测的类别为:game 文本:沈腾和马丽的新电影《独行月球》很好看 预测的类别为:entertainment 文本:昨天玩游戏,完了一整天 预测的类别为:game 文本:现在的高考都已经开始分科考试了。 预测的类别为:education 文本:中方:佩洛西如赴台将致严重后果 预测的类别为:politics 文本:现在的股票基金趋势很不好 预测的类别为:finance 耗时为:2.3200602531433105 s |

评价指标

|---------------------------------------------------|
| dev acc:0.9305 最佳模型Loss Train_Loss:0.1319 |

BERT命名实体识别

训练样本

训练数据:127919条

评估数据:14352条

测试数据:15576条

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 吴 B-NAME 重 I-NAME 阳 E-NAME , O 中 B-CONT 国 I-CONT 国 I-CONT 籍 E-CONT , O 大 B-EDU 学 I-EDU 本 I-EDU 科 E-EDU , O 教 B-TITLE 授 I-TITLE 级 I-TITLE 高 I-TITLE 工 E-TITLE , O 享 O 受 O 国 O 务 O 院 O 特 O 殊 O 津 O 贴 O , O 历 O 任 O 邮 B-ORG 电 I-ORG 部 I-ORG 侯 I-ORG 马 I-ORG 电 I-ORG 缆 I-ORG 厂 E-ORG 仪 B-TITLE 表 I-TITLE 试 I-TITLE 制 I-TITLE 组 I-TITLE 长 E-TITLE 、 O 光 B-TITLE 缆 I-TITLE 分 I-TITLE 厂 I-TITLE 副 I-TITLE 厂 I-TITLE 长 E-TITLE 、 O 研 B-TITLE 究 I-TITLE 所 I-TITLE 副 I-TITLE 所 I-TITLE 长 E-TITLE , O 获 O 得 O 过 O 山 O 西 O 省 O 科 O 技 O 先 O 进 O 工 O 作 O 者 O |

训练代码&评价指标

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 07-Bert 实体识别 → main.py

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| dev f1:0.9664522058823529, precision:0.9580865603644647,recall:0.9749652294853964 test f1:0.9651982378854626, precision:0.9618086040386303,recall:0.9686118479221928 运行时间:3.3876 min |

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 07-Bert 实体识别 → predict.py

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 模型预测结果: 文本:李某某,男,2012年4月出生,本科学历,工科学士,毕业于电子科技大学。 预测的类别为:['S-ORG', 'I-NAME', 'UNK', 'E-NAME', 'O', 'I-NAME', 'E-EDU', 'I-ORG', 'I-NAME', 'I-ORG', 'I-NAME', 'S-ORG', 'S-ORG', 'I-EDU', 'E-EDU', 'I-ORG', 'E-LOC', 'S-ORG', 'S-ORG', 'B-NAME', 'I-NAME', 'B-PRO', 'B-PRO', 'E-NAME', 'UNK', 'UNK', 'B-NAME', 'E-LOC', 'B-NAME', 'S-ORG'] 耗时为:6.1840057373046875 s |

相关推荐
冷眼看人间恩怨3 分钟前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041085 分钟前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌1 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭1 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^1 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246662 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k2 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫2 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班2 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型
数据猎手小k2 小时前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型