0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

下载停用词:备用

import nltk

from nltk.corpus import stopwords

下载停用词资源

nltk.download('stopwords')

获取中文停用词列表

stopwords_cn_list = stopwords.words('chinese')

相关推荐
欢喜躲在眉梢里8 分钟前
基于 openFuyao 社区的无硬件 UB 开发实战指南
运维·数据库·人工智能·vscode·ai·开发工具·go开发
亿坊电商9 分钟前
跨境出口电商系统如何提升出口电商业务的效率和可管理性?
数据挖掘·数据分析·系统架构
JAVA+C语言12 分钟前
Stata 18 多元统计 + 数据管理 让数据分析更专业安装教程
人工智能
骚戴13 分钟前
DeepSeek V3 & Llama 3 推理避坑指南:自建 vLLM 集群 vs API 网关架构深度对比
java·人工智能·python·大模型·api·vllm
焦点链创研究所17 分钟前
Fusaka升级对以太坊都有哪些好处?
人工智能·科技·web3·去中心化·区块链
六行神算API-天璇20 分钟前
技术实践:用大模型平台重构医疗数据分析Pipeline
人工智能·重构·数据挖掘·数据分析
跨境卫士情报站20 分钟前
亚马逊格局巨变!AI 助手重构购物逻辑,卖家如何顺势突围?
大数据·人工智能·重构·产品运营·跨境电商·防关联
机器之心24 分钟前
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
人工智能·openai
hoiii18725 分钟前
使用RPCA算法对图像进行稀疏低秩分解
人工智能·算法
Small___ming26 分钟前
【人工智能数学基础】标准贝叶斯公式的一般化推导:从单一条件到任意多条件
人工智能·机器学习·概率论