人工智能直通车系列14【机器学习基础】(逻辑回归原理逻辑回归模型实现)

目录

逻辑回归原理

基本概念

线性组合

[逻辑函数(Sigmoid 函数)](#逻辑函数(Sigmoid 函数))

决策规则

损失函数与参数优化

[逻辑回归模型实现(scikit - learn)](#逻辑回归模型实现(scikit - learn))

代码实现步骤

代码解释

场景示例

邮件分类

疾病诊断


逻辑回归原理

基本概念

逻辑回归(Logistic Regression)是一种广泛用于二分类问题的机器学习算法,虽然名字中带有 "回归",但实际上是分类算法。它通过对输入特征进行线性组合,然后使用逻辑函数(也称为 Sigmoid 函数)将线性组合的结果映射到 0 到 1 之间的概率值,以此来进行分类决策。

线性组合

假设我们有一个包含 个特征的输入向量 ,逻辑回归首先对这些特征进行线性组合,得到一个线性得分

其中 是模型需要学习的参数,​ 是截距项, 的转置。

逻辑函数(Sigmoid 函数)

为了将线性得分 转换为概率值,逻辑回归使用 Sigmoid 函数

Sigmoid 函数的图像呈 S 形,其值域在 之间。当 趋近于正无穷时, 趋近于 1;当 趋近于负无穷时, 趋近于 0。通过 Sigmoid 函数,我们可以将线性得分 映射为一个概率值,表示样本属于正类的概率

而样本属于负类的概率则为

决策规则

通常,我们会设定一个阈值(一般为 0.5),当 时,将样本预测为正类;当 时,将样本预测为负类。

损失函数与参数优化

逻辑回归使用对数损失函数(也称为交叉熵损失函数)来衡量模型预测的概率与真实标签之间的差异。对于单个样本 ,其对数损失函数为:

对于包含 个样本的数据集,总的损失函数为所有样本损失的平均值:

模型的目标是找到一组参数 使得损失函数 最小化,常用的优化算法有梯度下降法等。

逻辑回归模型实现(scikit - learn)

代码实现步骤

以下是使用 scikit - learn 实现逻辑回归模型的详细步骤和示例代码:

python 复制代码
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# 1. 生成示例数据集
# 使用 make_classification 函数生成一个二分类数据集
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=0, random_state=42)

# 2. 划分训练集和测试集
# 将数据集按照 80:20 的比例划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 创建逻辑回归模型对象
# 创建 LogisticRegression 类的实例,使用默认参数
model = LogisticRegression()

# 4. 训练模型
# 使用训练集数据对模型进行训练
model.fit(X_train, y_train)

# 5. 进行预测
# 使用训练好的模型对测试集数据进行预测
y_pred = model.predict(X_test)

# 6. 评估模型性能
# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred)
# 计算混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)

print(f"模型准确率: {accuracy}")
print(f"混淆矩阵:\n{conf_matrix}")
代码解释
  1. 数据生成 :使用 make_classification 函数生成一个包含 1000 个样本、10 个特征的二分类数据集,其中 5 个特征是有信息的。
  2. 数据划分 :使用 train_test_split 函数将数据集划分为训练集和测试集,测试集占比 20%。
  3. 模型创建 :创建 LogisticRegression 类的实例 model,使用默认的参数设置。
  4. 模型训练 :调用 fit 方法,使用训练集数据 X_train 和对应的标签 y_train 对模型进行训练。
  5. 模型预测 :使用训练好的模型对测试集数据 X_test 进行预测,得到预测结果 y_pred
  6. 模型评估 :使用 accuracy_score 函数计算模型的准确率,使用 confusion_matrix 函数计算混淆矩阵,以评估模型的性能。

场景示例

邮件分类

假设你要构建一个邮件分类系统,将邮件分为垃圾邮件和正常邮件。你可以收集大量的邮件数据,提取邮件的各种特征,如邮件主题中的关键词、发件人信息、邮件内容中的词汇等,将这些特征作为输入向量 x。邮件的标签(垃圾邮件或正常邮件)作为目标变量 y。使用逻辑回归模型进行训练和预测,根据模型预测的概率值判断邮件是否为垃圾邮件。

疾病诊断

在医学领域,医生可以收集患者的各种生理指标(如年龄、血压、血糖等)作为特征,患者是否患有某种疾病作为目标变量。通过逻辑回归模型,医生可以根据患者的生理指标预测患者患病的概率,辅助进行疾病诊断。

相关推荐
ayiya_Oese23 分钟前
[数据处理] 6. 数据可视化
人工智能·pytorch·python·深度学习·机器学习·信息可视化
大腾智能24 分钟前
五一旅游潮涌:数字化如何驱动智慧旅游升级
大数据·人工智能·数字化·旅游数字化
没有梦想的咸鱼185-1037-166331 分钟前
【大语言模型ChatGPT4/4o 】“AI大模型+”多技术融合:赋能自然科学暨ChatGPT在地学、GIS、气象、农业、生态与环境领域中的应用
人工智能·python·机器学习·arcgis·语言模型·chatgpt·数据分析
老艾的AI世界1 小时前
AI制作祝福视频,直播礼物收不停,广州塔、动态彩灯、LED表白(附下载链接)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai·ai视频·ai视频生成·ai视频制作
IT古董1 小时前
【漫话机器学习系列】250.异或函数(XOR Function)
人工智能·机器学习
Blossom.1181 小时前
虚拟现实(VR)与增强现实(AR)在教育领域的应用:开启沉浸式学习新时代
人工智能·深度学习·学习·机器学习·ar·制造·vr
搬砖的小码农_Sky1 小时前
人形机器人:主控芯片
人工智能·机器人·硬件架构·硬件工程·gpu算力
一只安1 小时前
GoWeb开发(基础)
深度学习·学习
小饕1 小时前
LangChain构建大模型应用之问答系统(五)
人工智能·python·langchain
zhutoutoutousan1 小时前
自动化创业机器人:现状、挑战与Y Combinator的启示
人工智能·机器人·自动化