0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

下载停用词:备用

import nltk

from nltk.corpus import stopwords

下载停用词资源

nltk.download('stopwords')

获取中文停用词列表

stopwords_cn_list = stopwords.words('chinese')

相关推荐
小森776711 分钟前
(四)机器学习---逻辑回归及其Python实现
人工智能·python·算法·机器学习·逻辑回归·线性回归
生信碱移13 分钟前
入门级宏基因组数据分析教程,从实验到分析与应用
人工智能·经验分享·python·神经网络·数据挖掘·数据分析·数据可视化
發發期权酱25 分钟前
期权中的Gamma指标详解
大数据·人工智能
补三补四33 分钟前
【深度学习基础】——机器的神经元:感知机
人工智能·深度学习·算法·机器学习
永洪科技1 小时前
AI领域再突破,永洪科技荣获“2025人工智能+创新案例”奖
大数据·人工智能·科技·数据分析·数据可视化
that's boy1 小时前
Google 发布 Sec-Gemini v1:用 AI 重塑网络安全防御格局?
人工智能·安全·web安全·chatgpt·midjourney·ai编程·ai写作
Sui_Network1 小时前
Crossmint 与 Walrus 合作,将协议集成至其跨链铸造 API 中
人工智能·物联网·游戏·区块链·智能合约
liruiqiang051 小时前
循环神经网络 - 长短期记忆网络
人工智能·rnn·深度学习·神经网络·机器学习·ai·lstm
小杨4041 小时前
python入门系列十六(网络编程)
人工智能·python·网络协议
Elastic 中国社区官方博客1 小时前
Elasticsearch 向量数据库,原生支持 Google Cloud Vertex AI 平台
大数据·数据库·人工智能·elasticsearch·搜索引擎·语言模型·自然语言处理