Day31_【 NLP _1.文本预处理 _(3)文本数据分析】

目录:

  • 文本数据分析

    • 标签数量分布

    • 句子长度分布

    • 正负样本散点图

    • 不同词汇总数统计

    • 关键词词云

文本数据分析:主要是利用画图API进行画图分析

以下为代码示例:

API

复制代码
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

一、标签数量分布

复制代码
sns.countplot(x="label", data=train_df)

二、句子长度分布

复制代码
# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)

三、正负样本散点图

复制代码
# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')

四、不同词汇总数统计

复制代码
# map(func,iterable) :对每个iterable进行func处理,返回的是一个迭代器
# * :解包(只解最外层)
# chain :将多个可迭代对象解包再拼接成一个可迭代对象
# set :转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))

五、关键词词云

复制代码
wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)
相关推荐
电商API_180079052472 小时前
获取淘宝商品视频API接口解析:通过商品链接url获取商品视频item_video
开发语言·爬虫·python·数据挖掘·数据分析
精灵vector2 小时前
构建自定义AI客户支持助手——LangGraph 中断机制
人工智能·python
算家计算2 小时前
DeepSeek发布新模型!采用全新稀疏注意力架构设计,与国产芯片协同优化
人工智能·开源·deepseek
大囚长3 小时前
从AI角度深入解析和论述哲学的终极答案‘语言即世界‘
人工智能·搜索引擎
北京地铁1号线3 小时前
机器学习笔试选择题:题组2
人工智能·算法·机器学习
算家云3 小时前
OpenAI秘密测试ChatGPT安全路由,情感对话触发GPT-5严格审查
人工智能·chatgpt·算家云·openai秘密测试安全路由·算家计算·租算力,就到算家云
新加坡内哥谈技术3 小时前
OpenAI近日推出了一项名为 ChatGPT Pulse 的全新功能
人工智能·chatgpt
hunteritself3 小时前
DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场!| AI Weekly 9.22-9.28
人工智能·ios·chatgpt·语音识别·iphone
ai_xiaogui3 小时前
ChatGPT开源模型发布!部署20B/120B AI模型实战指南
人工智能·chatgpt·20b 120b模型部署教程·本地部署chatgpt模型实战·高性能加速开源ai模型开发·开源模型windows配置方法