【NLP实战项目:中文文本分类】数据集THUCNews

简介

THUCNews数据集是清华大学自然语言处理与社会人文计算实验室根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

在原始新浪新闻分类体系的基础上,划分出14个候选分类类别:

财经

彩票

房产

股票

家居

教育

科技

社会

时尚

时政

体育

星座

游戏

娱乐

原始数据集下载地址:http://thuctc.thunlp.org/

子集

10个类别:https://pan.baidu.com/s/1WFZumra9gPgcoO9BopvoUA 提取码:1111

14个类别:https://pan.baidu.com/s/1HDO95C_08xAwEdgRPISQBw 提取码:1111

扩展:

某up主基于此数据集实现分类:https://cloud.tencent.com/developer/article/1356797

百度竞指定赛数据集:https://aistudio.baidu.com/projectdetail/2203706?channelType=0\&channel=0

bert模型:https://github.com/pengwei-iie/Bert-THUCNews

机器学习:https://sthsf.github.io/wiki/study/NLPPro/数据集探索.html

多模型在该数据集上做对比实验:https://pypi.org/project/pytextclassifier/

kaggle:https://www.kaggle.com/code/cliheng/notebook1cd8a9ed4c

相关推荐
kcuwu.18 小时前
Python数据分析三剑客导论:NumPy、Pandas、Matplotlib 从入门到入门
python·数据分析·numpy
大连好光景18 小时前
学会评估模型的拟合状态和泛化能力
人工智能·机器学习
老兵发新帖18 小时前
Hermes:openclaw的最佳替代之基于源码部署的飞书配置
人工智能·飞书
weixin_5134499618 小时前
walk_these_ways项目学习记录第七篇(通过行为多样性 (MoB) 实现地形泛化)--核心环境下
人工智能·python·学习
南 阳18 小时前
Python从入门到精通day64
开发语言·python
智在碧得18 小时前
碧服智能体进化:AI赋能意图识别能力,“一问”更智能
大数据·人工智能·机器学习
人工智能AI技术18 小时前
Visual Studio Code 1.114 更新:AI 聊天体验全面优化
人工智能
天一生水water18 小时前
故障诊断的常用github仓库
人工智能·智慧油田
Deepoch18 小时前
VLA 边缘智能新范式:Deepoc 开发板赋能巡检机器人全自主现场决策
人工智能·机器人·巡检·具身模型·deepoc
花千树-01018 小时前
Java 接入多家大模型 API 实战对比
java·开发语言·人工智能·ai·langchain·ai编程