【NLP实战项目:中文文本分类】数据集THUCNews

简介

THUCNews数据集是清华大学自然语言处理与社会人文计算实验室根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

在原始新浪新闻分类体系的基础上,划分出14个候选分类类别:

财经

彩票

房产

股票

家居

教育

科技

社会

时尚

时政

体育

星座

游戏

娱乐

原始数据集下载地址:http://thuctc.thunlp.org/

子集

10个类别:https://pan.baidu.com/s/1WFZumra9gPgcoO9BopvoUA 提取码:1111

14个类别:https://pan.baidu.com/s/1HDO95C_08xAwEdgRPISQBw 提取码:1111

扩展:

某up主基于此数据集实现分类:https://cloud.tencent.com/developer/article/1356797

百度竞指定赛数据集:https://aistudio.baidu.com/projectdetail/2203706?channelType=0\&channel=0

bert模型:https://github.com/pengwei-iie/Bert-THUCNews

机器学习:https://sthsf.github.io/wiki/study/NLPPro/数据集探索.html

多模型在该数据集上做对比实验:https://pypi.org/project/pytextclassifier/

kaggle:https://www.kaggle.com/code/cliheng/notebook1cd8a9ed4c

相关推荐
汗流浃背了吧,老弟!16 分钟前
BPE 词表构建与编解码(英雄联盟-托儿索语料)
人工智能·深度学习
软件聚导航24 分钟前
从 AI 画马到马年红包封面,我还做了一个小程序
人工智能·chatgpt
啊森要自信39 分钟前
CANN ops-cv:AI 硬件端视觉算法推理训练的算子性能调优与实战应用详解
人工智能·算法·cann
要加油哦~43 分钟前
AI | 实践教程 - ScreenCoder | 多agents前端代码生成
前端·javascript·人工智能
玄同76544 分钟前
从 0 到 1:用 Python 开发 MCP 工具,让 AI 智能体拥有 “超能力”
开发语言·人工智能·python·agent·ai编程·mcp·trae
新缸中之脑1 小时前
用RedisVL构建长期记忆
人工智能
J_Xiong01171 小时前
【Agents篇】07:Agent 的行动模块——工具使用与具身执行
人工智能·ai agent
SEO_juper1 小时前
13个不容错过的SEO技巧,让您的网站可见度飙升
人工智能·seo·数字营销
小瑞瑞acd1 小时前
【小瑞瑞精讲】卷积神经网络(CNN):从入门到精通,计算机如何“看”懂世界?
人工智能·python·深度学习·神经网络·机器学习
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-02-06)
人工智能·ai·大模型·github·ai教程