0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

下载停用词:备用

import nltk

from nltk.corpus import stopwords

下载停用词资源

nltk.download('stopwords')

获取中文停用词列表

stopwords_cn_list = stopwords.words('chinese')

相关推荐
东坡肘子几秒前
Xcode 迈入 Agent 时代 -- 肘子的 Swift 周报 #122
人工智能·swiftui·swift
人工智能培训1 分钟前
深度学习中的梯度消失与梯度爆炸
人工智能·深度学习·逻辑回归·深度强化学习·具身智能·大模型应用工程师·大模型工程师证书
九.九2 分钟前
CANN ops-cv 技术解密:图像处理与目标检测算子的 NPU 硬件加速与性能调优策略
图像处理·人工智能·目标检测
尸僵打怪兽4 分钟前
图像处理OpenCV(一、二)
图像处理·人工智能·opencv
政安晨2 小时前
政安晨【零基础玩转开源AI项目】- AutoGPT:全球首个自主AI Agent从入门到实战(致敬OpenClaw的小回顾)
人工智能·ai·autogpt·全球首个agent框架·致敬openclaw之作·参考价值·ai开源agent框架
Shawn_Shawn6 小时前
mcp学习笔记(一)-mcp核心概念梳理
人工智能·llm·mcp
33三 三like9 小时前
《基于知识图谱和智能推荐的养老志愿服务系统》开发日志
人工智能·知识图谱
芝士爱知识a9 小时前
【工具推荐】2026公考App横向评测:粉笔、华图与智蛙面试App功能对比
人工智能·软件推荐·ai教育·结构化面试·公考app·智蛙面试app·公考上岸
李慕婉学姐9 小时前
【开题答辩过程】以《基于社交网络用户兴趣大数据分析》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
数据挖掘·数据分析
腾讯云开发者10 小时前
港科大熊辉|AI时代的职场新坐标——为什么你应该去“数据稀疏“的地方?
人工智能