0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

下载停用词:备用

import nltk

from nltk.corpus import stopwords

下载停用词资源

nltk.download('stopwords')

获取中文停用词列表

stopwords_cn_list = stopwords.words('chinese')

相关推荐
HeartException21 分钟前
量子计算+AI芯片:光子计算如何重构神经网络硬件生态
人工智能
摸鱼仙人~24 分钟前
Minstrel:多智能体协作生成结构化 LangGPT 提示词
人工智能·提示词
AI街潜水的八角1 小时前
深度学习图像分类数据集—濒危动物识别分类
人工智能·深度学习
程序员陆通2 小时前
独立开发A/B测试实用教程
人工智能·ai编程
knowfoot2 小时前
硬核拆解!跟着公式“走”一遍,你也能彻底看懂神经网络
人工智能·神经网络
FF-Studio2 小时前
大语言模型(LLM)课程学习(Curriculum Learning)、数据课程(data curriculum)指南:从原理到实践
人工智能·python·深度学习·神经网络·机器学习·语言模型·自然语言处理
DDDDDouble2 小时前
<二>Sping-AI alibaba 入门-记忆聊天及持久化
java·人工智能
PyAIExplorer2 小时前
图像处理中的插值方法:原理与实践
图像处理·人工智能
狗头大军之江苏分军2 小时前
疑似华为盘古AI大模型翻车造假风波【实时记录篇】
人工智能·机器学习·程序员
Mr.Winter`2 小时前
轨迹优化 | 基于激光雷达的欧氏距离场ESDF地图构建(附ROS C++仿真)
c++·人工智能·机器人·自动驾驶·ros·ros2·具身智能