机器学习之预测概率问题

超清晰解释:为什么两个正确率(score)数值不一样

我直接给你讲最核心、最本质的原因,保证你一看就懂!

你代码里这两行:

python 复制代码
print(f'正确率:{estimator.score(x_train,y_train)}')  # 0.98
print(f'正确率:{accuracy_score(y_test,y_predict)}')   # 0.91

一句话总结

一个是"做过的题得分",一个是"没做过的新题得分",当然不一样!


1. 两个分数到底算的是什么?

score(x_train, y_train)训练集正确率 0.98

  • 用训练集数据打分
  • 模型早就见过这些数据,已经学过了
  • 相当于:拿课堂练习题考学生
  • 学生当然得分高!

accuracy_score(y_test, y_predict)测试集正确率 0.91

  • 用测试集数据打分
  • 模型从来没见过这些数据
  • 相当于:拿全新期末考试卷考学生
  • 分数自然会比训练集低一点,这才是模型真实能力

2. 为什么训练集分数一定更高?

机器学习模型会努力记住训练集的规律,甚至会:

  • 记住训练集里的细节
  • 记住训练集里的噪声
    所以在自己学过的数据上表现极好

测试集是全新数据 ,模型不能"背答案",

所以分数会更真实、更低、更有参考价值。


3. 你的结果完全正常!

复制代码
训练集正确率:0.98 ✅ 正常(见过的题)
测试集正确率:0.91 ✅ 正常(没见过的新题)

只要测试集正确率不是远低于训练集 (比如 0.98 vs 0.5),

就说明没有过拟合,模型很健康


4. 最重要的结论(一定要记住)

我们看模型好坏,只看测试集分数!

  • 0.91 才是模型真实准确率
  • 0.98 只是记忆分数,不能代表模型能力

5. 你代码里的小问题(顺手帮你改)

你写的:

python 复制代码
print(f'正确率:{estimator.score(x_train,y_train)}')

应该改成:

python 复制代码
print(f'训练集正确率:{estimator.score(x_train,y_train)}')
print(f'测试集正确率:{accuracy_score(y_test,y_predict)}')

这样就不会混淆了。


最终超级简单总结

  • 0.98 :模型做自己学过的题 → 分数高
  • 0.91 :模型做全新的考题 → 分数真实
  • 两个不一样 = 完全正常 = 机器学习必然现象
相关推荐
码海浮生12 小时前
人工智能日报 每日AI新闻(2026年5月25日):Google I/O余波下的AI安全、多模态生成与搜索体验分化
大数据·人工智能·安全
dingzd9512 小时前
Pinterest年度色彩发布后跨境内容团队如何统一视觉风格与选题方向
大数据·人工智能·新媒体运营·市场营销·跨境
ting945200012 小时前
深度解析 Google Stitch 3.0:文本驱动跨端 UI 生成技术原理、架构与工程实现
人工智能·ui·架构
数字化转型202512 小时前
重构Sales Force AI Agent
人工智能·重构
多年小白12 小时前
开盘策略】2026年5月28日(周四)
大数据·人工智能·物联网·金融·区块链
luyu007_00712 小时前
AGV无人叉车无线充电厂家怎么选?鲁渝能源大功率无线充电方案解析
人工智能·机器人·能源·制造
YueJoy.AI12 小时前
创业团队如何建立技术品牌
人工智能·ai·语言模型
星辰AI12 小时前
AIOps 实战:智能运维在 AI 应用中的实践
人工智能·ai·语言模型
zhangfeng113312 小时前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
Dymc12 小时前
【论文解析】DUCPP —— 当路不知道能不能走,让无人机先去探路
人工智能·无人机·视觉定位·低空经济·无人集群