自定义数据集 ,使用朴素贝叶斯对其进行分类

数据集定义:

  • data 列表包含了文本样本及其对应的情感标签。每个元素是一个元组,第一个元素是文本,第二个元素是标签。

特征提取:

  • 使用 CountVectorizer 将文本转换为词频向量。 fit_transform 方法在训练数据上拟合向量器并进行转换。

模型训练:

  • 初始化 MultinomialNB 模型,这是适用于离散数据(如词频)的朴素贝叶斯分类器。

  • 使用 fit 方法在提取的特征和标签上训练模型。

预测:

  • 对新的文本数据,先使用 vectorizer.transform 方法将其转换为特征向量,然后使用训练好的模型进行预测。

评估:

  • 这里简单地假设了新文本的真实标签,使用 accuracy_score 计算预测准确率。在实际应用中,应使用独立的测试集来评估模型性能。

import numpy as np

from sklearn.naive_bayes import GaussianNB

from sklearn.metrics import accuracy_score

自定义数值型数据集

X = np.array([

1, 2,

2, 3,

3, 4,

4, 5

])

y = np.array(0, 0, 1, 1)

初始化并训练高斯朴素贝叶斯模型

clf = GaussianNB()

clf.fit(X, y)

新数据进行预测

new_X = np.array([

1.5, 2.5,

3.5, 4.5

])

predictions = clf.predict(new_X)

输出预测结果

for new_data, pred in zip(new_X, predictions):

print(f"Data: {new_data}, Prediction: {pred}")

假设我们有真实标签用于计算准确率(这里只是示例,实际应用中需有真实测试集标签)

true_labels = 0, 1

accuracy = accuracy_score(true_labels, predictions)

print(f"Accuracy: {accuracy}")

相关推荐
王莎莎-MinerU2 分钟前
从 OCR 到 Context Engineering:用 MinerU 搭一个可复现文档解析评测
人工智能·深度学习·机器学习·pdf·ocr·个人开发
ZHW_AI课题组3 分钟前
基于KNN的帕尔默企鹅种类预测分类
人工智能·机器学习·分类·数据挖掘
xiaoxiaoxiaolll7 分钟前
《Light: Sci & Appl》论文解读:基于q-BIC-CIT的热调硅膜超表面,突破静态光子学极限
机器学习
学习3人组23 分钟前
Python 评论朴素贝叶斯文本情感分析示例
人工智能·python·机器学习
2401_8856651927 分钟前
从零搭建卷积神经网络:基于PyTorch实现MNIST手写数字分类
pytorch·python·神经网络·算法·机器学习·分类·cnn
大模型最新论文速读36 分钟前
06-10 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
苏州邦恩精密1 小时前
江苏三维扫描仪定制:制造企业如何提升检测效率?
人工智能·科技·机器学习·自动化·制造
DXM05211 小时前
第10期| 卷积神经网络CNN通俗详解:AI遥感的底层核心
人工智能·python·神经网络·机器学习·arcgis·cnn·文心一言
装不满的克莱因瓶1 小时前
掌握空间注意力 STN 模型结构——让神经网络学会自动“看准位置”
人工智能·python·深度学习·神经网络·机器学习·ai
数据科学小丫1 小时前
算法:随机森林算法
算法·随机森林·机器学习