0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

下载停用词:备用

import nltk

from nltk.corpus import stopwords

下载停用词资源

nltk.download('stopwords')

获取中文停用词列表

stopwords_cn_list = stopwords.words('chinese')

相关推荐
新智元15 分钟前
OpenClaw 引爆纽约集会,虾教日烧 10 亿 tokens!老黄认证:史上最强软件
人工智能
ECH00O0022 分钟前
04-词向量到嵌入:让机器理解语言的奥秘
人工智能
石臻臻的杂货铺31 分钟前
OpenClaw 永久免费的提取任何网页的终极方案
人工智能
一语071638 分钟前
3分钟搞懂深度学习AI:实操篇:卷积层
人工智能·算法
工边页字38 分钟前
AI 开发必懂:Context Window(上下文窗口)到底是什么?
前端·人工智能·后端
火山引擎开发者社区39 分钟前
AgentKit 云端沙盒赋能 AI 内容创作,让创意触手可及
人工智能
hyunbar77743 分钟前
创建个人知识库(lamaIndex + ChromaDB + 本地开源模型)
人工智能
claude_dev43 分钟前
基于 Win10 从零搭建 OpenClaw:Kimi K2.5 + 飞书机器人 完整实战指南
人工智能
over69744 分钟前
📸《拍照记单词》—— 从零到上线的完整开发指南(超详细版)
前端·人工智能·产品
数字卢语1 小时前
OpenClaw 多 Agent 实战:腾讯云部署到 Telegram 群聊分身协作
人工智能