自定义数据集 ,使用朴素贝叶斯对其进行分类

数据集定义:

  • data 列表包含了文本样本及其对应的情感标签。每个元素是一个元组,第一个元素是文本,第二个元素是标签。

特征提取:

  • 使用 CountVectorizer 将文本转换为词频向量。 fit_transform 方法在训练数据上拟合向量器并进行转换。

模型训练:

  • 初始化 MultinomialNB 模型,这是适用于离散数据(如词频)的朴素贝叶斯分类器。

  • 使用 fit 方法在提取的特征和标签上训练模型。

预测:

  • 对新的文本数据,先使用 vectorizer.transform 方法将其转换为特征向量,然后使用训练好的模型进行预测。

评估:

  • 这里简单地假设了新文本的真实标签,使用 accuracy_score 计算预测准确率。在实际应用中,应使用独立的测试集来评估模型性能。

import numpy as np

from sklearn.naive_bayes import GaussianNB

from sklearn.metrics import accuracy_score

自定义数值型数据集

X = np.array([

1, 2\], \[2, 3\], \[3, 4\], \[4, 5

])

y = np.array([0, 0, 1, 1])

初始化并训练高斯朴素贝叶斯模型

clf = GaussianNB()

clf.fit(X, y)

新数据进行预测

new_X = np.array([

1.5, 2.5\], \[3.5, 4.5

])

predictions = clf.predict(new_X)

输出预测结果

for new_data, pred in zip(new_X, predictions):

print(f"Data: {new_data}, Prediction: {pred}")

假设我们有真实标签用于计算准确率(这里只是示例,实际应用中需有真实测试集标签)

true_labels = [0, 1]

accuracy = accuracy_score(true_labels, predictions)

print(f"Accuracy: {accuracy}")

相关推荐
陈天伟教授7 小时前
人工智能应用-机器听觉:15. 声纹识别的应用
人工智能·神经网络·机器学习·语音识别
板面华仔8 小时前
机器学习入门(三)——决策树(Decision Tree)
人工智能·决策树·机器学习
源于花海8 小时前
迁移学习的前沿知识(AI与人类经验结合、传递式、终身、在线、强化、可解释性等)
人工智能·机器学习·迁移学习·迁移学习前沿
机 _ 长8 小时前
YOLO26 改进 | 基于特征蒸馏 | 知识蒸馏 (Response & Feature-based Distillation)
python·深度学习·机器学习
龙山云仓9 小时前
No140:AI世间故事-对话康德——先验哲学与AI理性:范畴、道德律与自主性
大数据·人工智能·深度学习·机器学习·全文检索·lucene
名为沙丁鱼的猫72911 小时前
【MCP 协议层(Protocol layer)详解】:深入分析MCP Python SDK中协议层的实现机制
人工智能·深度学习·神经网络·机器学习·自然语言处理·nlp
香芋Yu11 小时前
【机器学习教程】第04章 指数族分布
人工智能·笔记·机器学习
依依yyy12 小时前
沪深300指数收益率波动性分析与预测——基于ARMA-GARCH模型
人工智能·算法·机器学习
纠结哥_Shrek13 小时前
外贸选品工程师的工作流程和方法论
python·机器学习
Coding茶水间13 小时前
基于深度学习的输电电力设备检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
开发语言·人工智能·深度学习·yolo·目标检测·机器学习