实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为"考硕考博"板块的帖子标题,job_titles.txt为"招聘信息"板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

代码

复制代码
import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:
    academy_titles = file.readlines()

# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:
    job_titles = file.readlines()

# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]

# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:
    words = jieba.cut(title)
    filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]
    academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

相关推荐
Fuliy9642 分钟前
【自然语言处理】——基于与训练模型的方法【复习篇1】
人工智能·自然语言处理
要努力啊啊啊7 小时前
大语言模型中的注意力机制详解
人工智能·语言模型·自然语言处理
池央15 小时前
调用蓝耘Maas平台大模型API打造个人AI助理实战
人工智能·语言模型·自然语言处理
audyxiao00115 小时前
AAAI 2025论文分享│STD-PLM:基于预训练语言模型的时空数据预测与补全方法
人工智能·计算机·语言模型·自然语言处理·预训练·时空预测·注意力模块
L_cl16 小时前
【NLP 78、手搓Transformer模型结构及实战】
人工智能·自然语言处理·transformer
亚里随笔16 小时前
颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?
人工智能·语言模型·自然语言处理
deephub17 小时前
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
神经网络·自然语言处理·easyui
AI让世界更懂你17 小时前
【NLP基础知识系列课程-Tokenizer的前世今生第五课】从静态到可学:Tokenizer 的自适应演化之路
人工智能·自然语言处理
weixin_4932026317 小时前
大语言模型值ollama使用(1)
人工智能·语言模型·自然语言处理
UQI-LIUWJ17 小时前
论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS
人工智能·语言模型·自然语言处理