【NLP实战项目:中文文本分类】数据集THUCNews

简介

THUCNews数据集是清华大学自然语言处理与社会人文计算实验室根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

在原始新浪新闻分类体系的基础上,划分出14个候选分类类别:

财经

彩票

房产

股票

家居

教育

科技

社会

时尚

时政

体育

星座

游戏

娱乐

原始数据集下载地址:http://thuctc.thunlp.org/

子集

10个类别:https://pan.baidu.com/s/1WFZumra9gPgcoO9BopvoUA 提取码:1111

14个类别:https://pan.baidu.com/s/1HDO95C_08xAwEdgRPISQBw 提取码:1111

扩展:

某up主基于此数据集实现分类:https://cloud.tencent.com/developer/article/1356797

百度竞指定赛数据集:https://aistudio.baidu.com/projectdetail/2203706?channelType=0\&channel=0

bert模型:https://github.com/pengwei-iie/Bert-THUCNews

机器学习:https://sthsf.github.io/wiki/study/NLPPro/数据集探索.html

多模型在该数据集上做对比实验:https://pypi.org/project/pytextclassifier/

kaggle:https://www.kaggle.com/code/cliheng/notebook1cd8a9ed4c

相关推荐
不大姐姐AI智能体8 小时前
搭了个小红书笔记自动生产线,一句话生成图文,一键发布,支持手机端、电脑端发布
人工智能·经验分享·笔记·矩阵·aigc
摘星编程8 小时前
OpenHarmony环境下React Native:Geolocation地理围栏
python
虹科网络安全9 小时前
艾体宝方案 | 释放数据潜能 · 构建 AI 驱动的自动驾驶实时数据处理与智能筛选平台
人工智能·机器学习·自动驾驶
充值修改昵称9 小时前
数据结构基础:从二叉树到多叉树数据结构进阶
数据结构·python·算法
Deepoch9 小时前
Deepoc数学大模型:发动机行业的算法引擎
人工智能·算法·机器人·发动机·deepoc·发动机行业
2501_940198699 小时前
从“数据孤岛”到“智慧医脑”:实战 MCP 协议安全接入 HIS 系统,构建医疗级 AI 辅助诊断合规中台
人工智能·安全·asp.net
70asunflower9 小时前
基于锚点(聚类)的LLM微调
机器学习·数据挖掘·聚类
kuankeTech9 小时前
解决内外贸双轨制难题,外贸ERP智能引擎同步管理国内外合规与标准
大数据·人工智能·数据可视化·软件开发·erp
Hcoco_me10 小时前
大模型面试题84:是否了解 OpenAI 提出的Clip,它和SigLip有什么区别?为什么SigLip效果更好?
人工智能·算法·机器学习·chatgpt·机器人
BHXDML10 小时前
第九章:EM 算法
人工智能·算法·机器学习