【NLP论文】03 基于 jiagu 的情感分析

本篇是NLP论文 系列的最后一篇,主要介绍如何计算情感分析结果,并将其融入到XX评价体系和物流关键词词库,之前我已经写了两篇关于情感分析的文章,分别是 SnowNLPCemotion 技术,最终我才用了 jiagu 来写我的论文,因为 jiagu准确率还行,并且写这个技术的毕竟少。

目录

[1 基于 Jiagu 的情感分析](#1 基于 Jiagu 的情感分析)

[1.1 Jiagu 介绍](#1.1 Jiagu 介绍)

[1.2 情感分析计算](#1.2 情感分析计算)

[① 语料](#① 语料)

[② Jiagu 计算](#② Jiagu 计算)

[③ xx 关键词匹配](#③ xx 关键词匹配)

[2 XX评价体系结合情感分析](#2 XX评价体系结合情感分析)


代码地址: nlp_yinyu

1 基于 Jiagu 的情感分析

JiaguSnowNLP + Cemotion 类似,均是情感分析技术之一,另外两种技术文章也在该专栏下,采用哪种看大家如何选择,本文主要介绍如何将情感分析技术融入到论文中。

1.1 Jiagu 介绍

Jiagu情感分析是一种中文自然语言处理工具,用于识别和分析文本中的情感倾向,它可以根据文本的内容和语义,判断文本中的情感是积极的、消极的还是中性的。

它使用机器学习算法和自然语言处理技术来处理文本,并通过训练模型来识别情感。该工具可以应用于各种文本数据,如社交媒体评论、新闻文章、产品评论等。

Jiagu情感分析具有以下特点:高准确性、快速处理和多种应用场景。

1.2 情感分析计算

① 语料

语料依然是以之前爬取的京东网站上的 5000 条评论数据,可在文章顶部的代码仓库中下载!

② Jiagu 计算

主要分为以下三步:

  1. 引入语料 excel 数据
  2. 计算每条评论的情感值
  3. 生成【Jiagu情感分析原始结果_京东.xlsx】文件

代码如下:

python 复制代码
import pandas as pd
import jiagu
from base_handle import BaseHandle  # 引入工具类

baseHandle = BaseHandle()  # 实例化

def jiagu_cal(url):
    '''计算每条评论的情感值'''
    df = pd.read_excel(url, sheet_name='Sheet1')
    # print(df)
    # 定义函数,批量处理所有的评论信息
    def get_sentiment_cn(text):
        return jiagu.sentiment(text)[1]  # jiagu的后边带positive或negative

    # 根据df里的"comments"列,将读取文本后的情感分析结果添加到新的一列,命名为"sentiment"
    df["sentiment"] = df['评论'].apply(get_sentiment_cn)
    # print(df)
    # 储存为表格。
    df.to_excel('Jiagu情感分析原始结果_京东.xlsx')


if __name__ == "__main__":
    jiagu_cal(baseHandle.get_file_abspath('语料库_京东_5000条评论.xlsx'))

最终输出【Jiagu情感分析原始结果_京东.xlsx】文件如下:

每条评论都给安排了一个情感值~

③ xx 关键词匹配

以物流关键词词库为例,将每个关键词的情感值计算出来,本文的计算逻辑:统计该关键词在多少条评论中存在,若存在,则这些评论的情感值加和。

步骤如下:

  1. 读取物流关键词词库
  2. 统计每个关键词的情感值大小
  3. 生成【jiagu情感分析匹配结果_京东.xlsx】文件
python 复制代码
import pandas as pd
import jiagu
from base_handle import BaseHandle  # 引入工具类

baseHandle = BaseHandle()  # 实例化


def match_words_jiagu():
    '''匹配关键词和情感分析结果'''
    words = baseHandle.logistics_list
    items = []
    for word in words:
        row = handle_senti_result(word, "评论", "情感值")
        row.insert(0, word)
        items.append(row)
    dt = pd.DataFrame(items, columns=['关键词', '评论数量', '好评率', '情感值方差', '情感均值', '情感中值'])
    dt.to_excel("jiagu情感分析匹配结果_京东.xlsx")


def handle_senti_result(word, col1, col2):
    '''子方法---统计每个关键词的情感值大小'''
    df = pd.read_excel('Jiagu情感分析原始结果_京东.xlsx', sheet_name='Sheet1')
    b1 = []
    b2 = []
    for i in range(len(df)):
        comment = df.loc[i, col1]
        if word in comment:  # 判断关键词是否存在于某个字符串(str)中
            a1 = df.loc[i, col1]
            a2 = df.loc[i, col2]
            if not a1 in b1:  # col1:评论,col2:情感值,去掉重复的评论,也可不去掉
                b1.append(a1)
                b2.append(a2)
            else:
                continue
        else:
            continue
    f1 = pd.DataFrame(columns=['评论', '情感值'])
    f1['评论'] = b1
    f1['情感值'] = b2
    # print('分值之和:',f1['情感值'].sum())
    seti = f1['情感值']
    # 一些列数据
    row = [seti.count(), f1[seti >= 0.6]['情感值'].count() / seti.count(),
           seti.var(), seti.mean(), seti.median()]
    return row


if __name__ == "__main__":
    match_words_jiagu()

最终输出【jiagu情感分析匹配结果_京东.xlsx】文件如下:

如图,得到了每个关键词的情感分析详细数据,那么就可以拿这些数据来做些其他事情了~

2 XX评价体系结合情感分析

以物流评价体系为例,结合 TF-IDFJiagu情感分析结果(本文只采用了它的情感均值)

如图:

这是一个比较粗略的统计结果,可以展示各维度他的重要程度以及情感值(或者说评分大小),不要忘了语料来自于网上在线评论。

以上还可以做更多研究,希望给大家提供帮助。因为毕业论文用到了这些技术,所以想着总结一下,最近终于有空把它更完了,纪念一下学生时代~

相关推荐
FreakStudio33 分钟前
全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
python·嵌入式·面向对象·电子diy
redcocal2 小时前
地平线秋招
python·嵌入式硬件·算法·fpga开发·求职招聘
artificiali2 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
RaidenQ2 小时前
2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘
图像处理·python·算法·课程设计
花生了什么树~.3 小时前
python基础知识(六)--字典遍历、公共运算符、公共方法、函数、变量分类、参数分类、拆包、引用
开发语言·python
酱香编程,风雨兼程3 小时前
深度学习——基础知识
人工智能·深度学习
Lossya3 小时前
【机器学习】参数学习的基本概念以及贝叶斯网络的参数学习和马尔可夫随机场的参数学习
人工智能·学习·机器学习·贝叶斯网络·马尔科夫随机场·参数学习
Trouvaille ~3 小时前
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
图像处理·python·机器学习·numpy·信号处理·时间序列分析·科学计算
爆更小小刘3 小时前
Python基础语法(3)下
开发语言·python
哪 吒3 小时前
华为OD机试 - 第 K 个字母在原来字符串的索引(Python/JS/C/C++ 2024 E卷 100分)
javascript·python·华为od