【NLP实战项目:中文文本分类】数据集THUCNews

简介

THUCNews数据集是清华大学自然语言处理与社会人文计算实验室根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

在原始新浪新闻分类体系的基础上,划分出14个候选分类类别:

财经

彩票

房产

股票

家居

教育

科技

社会

时尚

时政

体育

星座

游戏

娱乐

原始数据集下载地址:http://thuctc.thunlp.org/

子集

10个类别:https://pan.baidu.com/s/1WFZumra9gPgcoO9BopvoUA 提取码:1111

14个类别:https://pan.baidu.com/s/1HDO95C_08xAwEdgRPISQBw 提取码:1111

扩展:

某up主基于此数据集实现分类:https://cloud.tencent.com/developer/article/1356797

百度竞指定赛数据集:https://aistudio.baidu.com/projectdetail/2203706?channelType=0\&channel=0

bert模型:https://github.com/pengwei-iie/Bert-THUCNews

机器学习:https://sthsf.github.io/wiki/study/NLPPro/数据集探索.html

多模型在该数据集上做对比实验:https://pypi.org/project/pytextclassifier/

kaggle:https://www.kaggle.com/code/cliheng/notebook1cd8a9ed4c

相关推荐
winfredzhang2 小时前
用 Python 手搓一个 PDF 编辑器:wxPython 与 PyMuPDF 实战详解
python·pdf·合并·缩略图·书签
市象2 小时前
实测可灵2.6:给AI视频上了一堂声音课
人工智能
大千AI助手2 小时前
长尾分布:现实世界数据的本质挑战与机器学习应对之道
人工智能·机器学习·数据分布·大千ai助手·长尾分布·均匀分布·高度不平衡
python机器学习ML2 小时前
EconML实战:使用DeepIV、DROrthoForest与CausalForestDML进行因果推断详解
人工智能·python·机器学习·数据挖掘·数据分析·scikit-learn·sklearn
檐下翻书1732 小时前
千亿参数模型的 “瘦身” 革命:轻量化技术如何让 AI 在普通电脑运行?
人工智能·电脑
落羽的落羽2 小时前
【Linux系统】进程终止、进程等待与进程替换的概念与实现
linux·服务器·c++·人工智能·深度学习·机器学习·游戏引擎
线程A2 小时前
Python中 session flush 和 commit 的区别
数据库·python·oracle
李昊哲小课3 小时前
深度学习进阶教程:用卷积神经网络识别图像
人工智能·深度学习·cnn
AndrewHZ3 小时前
【AI分析进行时】AI 时代软件开发新范式:基于斯坦福CS146S课程分析
人工智能·llm·软件开发·斯坦福·cs146s·能力升级·代码agent