实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为"考硕考博"板块的帖子标题,job_titles.txt为"招聘信息"板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

代码

复制代码
import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:
    academy_titles = file.readlines()

# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:
    job_titles = file.readlines()

# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]

# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:
    words = jieba.cut(title)
    filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]
    academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

相关推荐
管二狗赶快去工作!6 小时前
体系结构论文(九十三):LLM-Aided Compilation for Tensor Accelerators
人工智能·语言模型·自然语言处理·bug·体系结构
财经资讯数据_灵砚智能9 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月7日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理·ai编程
财经资讯数据_灵砚智能10 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月6日
人工智能·python·信息可视化·自然语言处理·ai编程
白小筠10 小时前
自然语言处理-文本预处理
人工智能·自然语言处理·easyui
摸鱼仙人~10 小时前
AWQ:激活感知权重量化——让大语言模型更轻更快
人工智能·语言模型·自然语言处理
2301_7644413311 小时前
2026年GitHub中比较热门的skills技能
人工智能·自然语言处理·开源·github
极昆仑智慧11 小时前
NL2X技术正从模型驱动到系统工程驱动的范式转变
人工智能·自然语言处理·chatgpt
甄心爱学习12 小时前
自然语言处理-句法分析
人工智能·自然语言处理
枫叶林FYL12 小时前
【自然语言处理 NLP】前沿架构与多模态 6.1.1.4 混合架构(Mamba-Transformer Hybrid)
人工智能·机器学习·自然语言处理
枫叶林FYL12 小时前
【自然语言处理 NLP】前沿架构与多模态 选择性状态空间模型与并行扫描算法:从原理到实现
算法·自然语言处理·架构