【漫话机器学习系列】020.正则化强度的倒数C(Inverse of regularization strength)

正则化强度的倒数 C (Inverse of Regularization Strength)

在机器学习中,特别是线性模型(如逻辑回归、支持向量机)中,正则化参数的倒数 C 是控制正则化强度的重要超参数。


1. 定义

C 的数学定义为:

其中:

  • λ 是正则化参数,表示正则化强度。
  • C 越大,正则化强度越弱;C 越小,正则化强度越强。

正则化的目标是通过在损失函数中添加正则项,控制模型的复杂度,从而防止过拟合或欠拟合。


2. 损失函数与正则化项

以逻辑回归为例,损失函数为:

引入 C 后,公式变为:

  • 第一项:数据误差,衡量模型对训练数据的拟合程度。
  • 第二项:正则化项,控制模型参数 w 的大小以避免过拟合。

3. C 的作用

(1) C 大小对模型的影响
  • C 大(即 λ 小):

    • 正则化强度弱,模型更关注拟合训练数据。
    • 可能导致过拟合。
  • C 小(即 λ 大):

    • 正则化强度强,模型更关注限制参数的大小。
    • 可能导致欠拟合。
(2) 直观理解
    • 正则化项被忽略,模型完全拟合数据。
    • 正则化项占主导,模型趋于简单,可能表现为所有参数趋于 0。

4. 如何选择 C

(1) 网格搜索

通过交叉验证,尝试不同的 C 值,选择使模型性能最优的参数。

python 复制代码
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 生成二分类数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 定义模型和参数范围
model = LogisticRegression()
param_grid = {'C': [0.01, 0.1, 1, 10, 100]}

# 使用网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

print(f"最佳参数: {grid_search.best_params_}")

输出结果

Matlab 复制代码
最佳参数: {'C': 0.01}
(2) 对数据特性的考虑
  • 数据维度高:可能需要较大的正则化(小 C)。
  • 数据维度低:可以尝试较小的正则化(大 C)。
(3) 观察过拟合或欠拟合
  • 如果训练集性能高但测试集性能低:减小 C(增加正则化强度)。
  • 如果训练集和测试集性能均低:增大 C(减小正则化强度)。

5. 示例代码

以下是一个逻辑回归模型中使用 C 控制正则化强度的示例:

python 复制代码
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 生成二分类数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 使用不同的C值训练模型
for C in [0.01, 0.1, 1, 10, 100]:
    model = LogisticRegression(C=C, random_state=42, max_iter=1000)
    model.fit(X_train, y_train)

    # 预测并计算准确率
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"C={C}, 测试集准确率={accuracy:.4f}")

输出结果

Matlab 复制代码
C=0.01, 测试集准确率=0.8500
C=0.1, 测试集准确率=0.8467
C=1, 测试集准确率=0.8500
C=10, 测试集准确率=0.8467
C=100, 测试集准确率=0.8467

6. 总结

  • 正则化强度的倒数 C 是控制模型正则化的重要参数。
  • C 的大小决定了模型对数据拟合能力与正则化强度的权衡。
  • 在实践中,合理选择 C 可以显著提升模型的性能,同时避免过拟合或欠拟合。
相关推荐
硅农深芯1 分钟前
解析RF信号的调制方式
人工智能·语音识别·信号处理·rf·射频·调制
连线Insight2 分钟前
林俊旸离开后,吴泳铭猛补AI课
人工智能
拓端研究室3 分钟前
2026中国医疗健康行业趋势报告:投融资回暖、AI渗透与产业链提价|附100+份报告PDF、数据、可视化模板汇总下载
人工智能·物联网·microsoft
机器学习之心3 分钟前
基于CNN卷积神经网络的轴承剩余寿命预测MATLAB实现
人工智能·matlab·cnn·轴承剩余寿命预测
墨染天姬4 分钟前
【AI】开源skill
人工智能
没有梦想的咸鱼185-1037-16636 分钟前
AI大模型支持下的顶刊绘图|散点图、气泡图、柱状图、热力图、柱状图、热力图、箱线图、热力图、云雨图、韦恩图、瀑布图、神经网络图、时间序列或分布展示
人工智能·神经网络·arcgis·信息可视化·数据分析·r语言·ai写作
魔乐社区6 分钟前
从0到1:魔乐社区贡献者丁一超的大模型量化实战指南
人工智能·大模型·量化
weixin_408099677 分钟前
【保姆级教程】易语言调用 OCR 文字识别 API(从0到1完整实战 + 示例源码)
图像处理·人工智能·后端·ocr·api·文字识别·易语言
七七powerful7 分钟前
AI实战--MiroFish:群体智能引擎,预测万物
人工智能·microfish