【NLP实战项目:中文文本分类】数据集THUCNews

简介

THUCNews数据集是清华大学自然语言处理与社会人文计算实验室根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

在原始新浪新闻分类体系的基础上,划分出14个候选分类类别:

财经

彩票

房产

股票

家居

教育

科技

社会

时尚

时政

体育

星座

游戏

娱乐

原始数据集下载地址:http://thuctc.thunlp.org/

子集

10个类别:https://pan.baidu.com/s/1WFZumra9gPgcoO9BopvoUA 提取码:1111

14个类别:https://pan.baidu.com/s/1HDO95C_08xAwEdgRPISQBw 提取码:1111

扩展:

某up主基于此数据集实现分类:https://cloud.tencent.com/developer/article/1356797

百度竞指定赛数据集:https://aistudio.baidu.com/projectdetail/2203706?channelType=0\&channel=0

bert模型:https://github.com/pengwei-iie/Bert-THUCNews

机器学习:https://sthsf.github.io/wiki/study/NLPPro/数据集探索.html

多模型在该数据集上做对比实验:https://pypi.org/project/pytextclassifier/

kaggle:https://www.kaggle.com/code/cliheng/notebook1cd8a9ed4c

相关推荐
黄忠16 小时前
大模型之LangGraph技术体系
python·llm
这token有力气17 小时前
Function Calling 格式漂移
人工智能
onething36517 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething36517 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒18 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯19 小时前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek
Lei活在当下1 天前
【AI手记系列-2026/6/18】iSparto & Harness,Caveman 以及AI时代的生存指南
人工智能·llm·openai
冬奇Lab1 天前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
冬奇Lab1 天前
Agent 系列(22):Context Engineering 深度——三种上下文管理策略的量化对比
人工智能·agent
hboot1 天前
AI工程师第二课 - 数据处理
人工智能·python·数据分析