使用朴素贝叶斯对自定义数据集进行分类

准备自定义数据集

首先,需要一个自定义数据集来进行分类。创建一个简单的二维数据集,其中每个样本有两个特征,并且属于两个类别之一。

python 复制代码
import numpy as np
import pandas as pd

# 创建自定义数据集
np.random.seed(42)
num_samples = 100

# 生成特征数据
X = np.random.rand(num_samples, 2)

# 生成标签数据(0或1)
y = np.where(X[:, 0] + X[:, 1] > 1, 1, 0)

# 将数据转换为DataFrame以便查看
data = pd.DataFrame(X, columns=['Feature1', 'Feature2'])
data['Label'] = y

print(data.head())

在这个数据集中,Feature1Feature2是特征,Label是类别标签(0或1)。

使用朴素贝叶斯进行分类

接下来,将使用scikit-learn库中的朴素贝叶斯分类器来对数据集进行分类。这里使用高斯朴素贝叶斯,因为它适用于连续特征。

python 复制代码
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化高斯朴素贝叶斯分类器
gnb = GaussianNB()

# 训练模型
gnb.fit(X_train, y_train)

# 进行预测
y_pred = gnb.predict(X_test)

# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

# 打印分类报告
print(classification_report(y_test, y_pred))
4. 结果分析

运行上述代码后,将得到模型的准确率和分类报告。分类报告包括精确度(precision)、召回率(recall)、F1分数(F1-score)等指标。

  • 准确率:正确预测的样本数占总样本数的比例。
  • 精确度:被预测为正类的样本中实际为正类的比例。
  • 召回率:实际为正类的样本中被正确预测为正类的比例。
  • F1分数:精确度和召回率的调和平均数,用于综合评估模型性能。
相关推荐
爱看科技6 分钟前
XR入口争夺战白热化,高通/谷歌/WIMI微美全息正扩张加速跑马圈地AI眼镜!
人工智能·xr
renhongxia17 分钟前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
落叶无情7 分钟前
ICEF 认知操作系统・CUS-L0-A 十大元认知原则(正式定稿 V1.0)
人工智能
胖咕噜的稞达鸭11 分钟前
如何写好一个skill
人工智能·数码相机
Inhand陈工16 分钟前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
计算机科研狗@OUC17 分钟前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
code_pgf19 分钟前
端到端自动驾驶 BEV stack
人工智能·机器学习·自动驾驶
wy31362282122 分钟前
AI——移动端大模型部署新范式:基于sherpa-onnx的Android离线语音识别实战(语音转文字)
人工智能
果丁智能25 分钟前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
下班走回家33 分钟前
DeepSeek 开源模型的突破与思考:从技术到生态的全面进化
人工智能·开源