0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

下载停用词:备用

import nltk

from nltk.corpus import stopwords

下载停用词资源

nltk.download('stopwords')

获取中文停用词列表

stopwords_cn_list = stopwords.words('chinese')

相关推荐
苏苏susuus3 小时前
机器学习:load_predict_project
人工智能·机器学习
科技小E3 小时前
打手机检测算法AI智能分析网关V4守护公共/工业/医疗等多场景安全应用
人工智能·安全·智能手机
猿饵块4 小时前
视觉slam--框架
人工智能
yvestine5 小时前
自然语言处理——Transformer
人工智能·深度学习·自然语言处理·transformer
SuperW5 小时前
OPENCV图形计算面积、弧长API讲解(1)
人工智能·opencv·计算机视觉
山海不说话6 小时前
视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)
人工智能·python·计算机视觉·视觉检测
虹科数字化与AR7 小时前
安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)
人工智能·ar·ar眼镜·船舶智造·数字工作流·智能装配
飞哥数智坊8 小时前
Coze实战第13讲:飞书多维表格读取+豆包生图模型,轻松批量生成短剧封面
人工智能
newxtc9 小时前
【配置 YOLOX 用于按目录分类的图片数据集】
人工智能·目标跟踪·分类