自定义数据集 ,使用朴素贝叶斯对其进行分类

数据集定义:

  • data 列表包含了文本样本及其对应的情感标签。每个元素是一个元组,第一个元素是文本,第二个元素是标签。

特征提取:

  • 使用 CountVectorizer 将文本转换为词频向量。 fit_transform 方法在训练数据上拟合向量器并进行转换。

模型训练:

  • 初始化 MultinomialNB 模型,这是适用于离散数据(如词频)的朴素贝叶斯分类器。

  • 使用 fit 方法在提取的特征和标签上训练模型。

预测:

  • 对新的文本数据,先使用 vectorizer.transform 方法将其转换为特征向量,然后使用训练好的模型进行预测。

评估:

  • 这里简单地假设了新文本的真实标签,使用 accuracy_score 计算预测准确率。在实际应用中,应使用独立的测试集来评估模型性能。

import numpy as np

from sklearn.naive_bayes import GaussianNB

from sklearn.metrics import accuracy_score

自定义数值型数据集

X = np.array([

1, 2\], \[2, 3\], \[3, 4\], \[4, 5

])

y = np.array([0, 0, 1, 1])

初始化并训练高斯朴素贝叶斯模型

clf = GaussianNB()

clf.fit(X, y)

新数据进行预测

new_X = np.array([

1.5, 2.5\], \[3.5, 4.5

])

predictions = clf.predict(new_X)

输出预测结果

for new_data, pred in zip(new_X, predictions):

print(f"Data: {new_data}, Prediction: {pred}")

假设我们有真实标签用于计算准确率(这里只是示例,实际应用中需有真实测试集标签)

true_labels = [0, 1]

accuracy = accuracy_score(true_labels, predictions)

print(f"Accuracy: {accuracy}")

相关推荐
你觉得20511 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
向上的车轮13 小时前
NOA是什么?国内自动驾驶技术的现状是怎么样的?
人工智能·机器学习·自动驾驶
你觉得20514 小时前
浙江大学朱霖潮研究员:《人工智能重塑科学与工程研究》以蛋白质结构预测为例|附PPT下载方法
大数据·人工智能·机器学习·ai·云计算·aigc·powerpoint
人工干智能14 小时前
科普:One-Class SVM和SVDD
人工智能·机器学习·支持向量机
MPCTHU14 小时前
预测分析(三):基于机器学习的分类预测
人工智能·机器学习·分类
_一条咸鱼_15 小时前
LangChain 入门到精通
机器学习
3DVisionary15 小时前
3D-DIC与机器学习协同模拟材料应力-应变本构行为研究
人工智能·机器学习·3d·3d-dic技术 机器学习·应力-应变本构行为·卷积神经网络(ecnn)·数字图像相关法(dic)
神经星星15 小时前
无需预对齐即可消除批次效应,东京大学团队开发深度学习框架STAIG,揭示肿瘤微环境中的详细基因信息
人工智能·深度学习·机器学习
神经星星15 小时前
【vLLM 学习】调试技巧
人工智能·机器学习·编程语言
呵呵哒( ̄▽ ̄)"15 小时前
线性代数:同解(1)
python·线性代数·机器学习