零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1

nano- 康一帅

简介

环境

  • Tensorflow == 1.14.0
  • Keras == 2.3.1
  • bert4keras == 0.8.4

文件说明

  • EDA:用于探索性数据分析。
  • data_utils:用于预训练语料的构建。
  • pretraining:用于Bert的预训练。
  • train:用于新闻文本分类模型的训练。
  • pred:用于新闻文本分类模型的预测。

其他

赛题分析

赛题背景

通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。

任务目标

要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。

数据示例

文本长度

  • 训练集共200,000条新闻,每条新闻平均907个字符,最短的句子长度为2,最长的句子长度为57921,其中75%以下的数据长度在1131以下。
  • 测试集共50,000条新闻,每条新闻平均909个字符,最短句子长度为14,最长句子41861,75%以下的数据长度在1133以下。
  • 训练集和测试集就长度来说似乎是同一分布。

标签分布

  • 赛题的数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多,其次是股票类新闻,最少的新闻是星座新闻。

总体思路

数据划分

  • 使用StratifiedKFold交叉验证。StratifiedKFold能够确保抽样后的训练集和验证集的样本分类比例和原原始数据集基本一致。
  • 利用全部数据,获得更多信息。
  • 降低方差,提高模型性能。

查看本文全部内容,欢迎访问天池技术圈官方地址:零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1_天池技术圈-阿里云天池

相关推荐
AI大模型知识分享15 分钟前
Prompt最佳实践|指定输出的长度
人工智能·gpt·机器学习·语言模型·chatgpt·prompt·gpt-3
西西弗Sisyphus27 分钟前
大模型微调 - 基于预训练大语言模型的对话生成任务 训练代码
自然语言处理·大模型·微调
十有久诚27 分钟前
TaskRes: Task Residual for Tuning Vision-Language Models
人工智能·深度学习·提示学习·视觉语言模型
全云在线allcloudonline41 分钟前
微软 Azure AI 服务免费试用及申请:语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景
人工智能·microsoft·azure
Filotimo_41 分钟前
【自然语言处理】实验三:新冠病毒的FAQ问答系统
人工智能·经验分享·笔记·python·学习·自然语言处理·pycharm
标贝科技43 分钟前
ChatGPT对话训练数据采集渠道有哪些
数据库·人工智能·机器学习·chatgpt
zhangfeng113343 分钟前
rnn input_size hidden_size 分别是什么意思 ,人工智能 Python
人工智能·rnn·自然语言处理
PD我是你的真爱粉43 分钟前
GPTo1论文详解
人工智能·深度学习
说私域1 小时前
构建有温度的用户关系:开源 AI 智能名片、链动 2+1 模式与 S2B2C 商城小程序的作用
人工智能·小程序
newxtc1 小时前
【天怡AI-注册安全分析报告-无验证方式导致安全隐患】
人工智能·安全