机器学习之预测概率问题

超清晰解释:为什么两个正确率(score)数值不一样

我直接给你讲最核心、最本质的原因,保证你一看就懂!

你代码里这两行:

python 复制代码
print(f'正确率:{estimator.score(x_train,y_train)}')  # 0.98
print(f'正确率:{accuracy_score(y_test,y_predict)}')   # 0.91

一句话总结

一个是"做过的题得分",一个是"没做过的新题得分",当然不一样!


1. 两个分数到底算的是什么?

score(x_train, y_train)训练集正确率 0.98

  • 用训练集数据打分
  • 模型早就见过这些数据,已经学过了
  • 相当于:拿课堂练习题考学生
  • 学生当然得分高!

accuracy_score(y_test, y_predict)测试集正确率 0.91

  • 用测试集数据打分
  • 模型从来没见过这些数据
  • 相当于:拿全新期末考试卷考学生
  • 分数自然会比训练集低一点,这才是模型真实能力

2. 为什么训练集分数一定更高?

机器学习模型会努力记住训练集的规律,甚至会:

  • 记住训练集里的细节
  • 记住训练集里的噪声
    所以在自己学过的数据上表现极好

测试集是全新数据 ,模型不能"背答案",

所以分数会更真实、更低、更有参考价值。


3. 你的结果完全正常!

复制代码
训练集正确率:0.98 ✅ 正常(见过的题)
测试集正确率:0.91 ✅ 正常(没见过的新题)

只要测试集正确率不是远低于训练集 (比如 0.98 vs 0.5),

就说明没有过拟合,模型很健康


4. 最重要的结论(一定要记住)

我们看模型好坏,只看测试集分数!

  • 0.91 才是模型真实准确率
  • 0.98 只是记忆分数,不能代表模型能力

5. 你代码里的小问题(顺手帮你改)

你写的:

python 复制代码
print(f'正确率:{estimator.score(x_train,y_train)}')

应该改成:

python 复制代码
print(f'训练集正确率:{estimator.score(x_train,y_train)}')
print(f'测试集正确率:{accuracy_score(y_test,y_predict)}')

这样就不会混淆了。


最终超级简单总结

  • 0.98 :模型做自己学过的题 → 分数高
  • 0.91 :模型做全新的考题 → 分数真实
  • 两个不一样 = 完全正常 = 机器学习必然现象
相关推荐
石榴树下的七彩鱼1 小时前
OCR 识别接口哪个好?2026 年主流 OCR API 对比评测(附免费在线体验)
图像处理·人工智能·后端·计算机视觉·ocr·api·文字识别
AI人工智能+1 小时前
表格识别技术通过深度学习与计算机视觉,实现复杂表格的自动化解析与结构化输出
深度学习·计算机视觉·ocr·表格识别
北京阿尔泰科技厂家1 小时前
24位高精度热电阻采集模块DAM-3149A:工业测温领域的全能新标杆
人工智能·高精度·仪器仪表·工业自动化数据采集·分布式监测数据采集·工业测温·热电阻采集模块
织_网1 小时前
Nest.js:Node.js后端开发的现代企业级解决方案,赋能AI全栈开发
javascript·人工智能·node.js
Freak嵌入式1 小时前
aiohttps异步HTTPS库:uPyPI+MicroPython一键安装
人工智能·python·网络协议·http·https·micropython
FelixBitSoul2 小时前
极致打磨!我的个人知识助理 SwiftMind 正式上线:DeepSeek + uv + 引用溯源的全栈实战
人工智能
鹿角片ljp2 小时前
ET-BERT 文献逐句精读与深度解析
人工智能·深度学习·bert
PILIPALAPENG2 小时前
第2周 Day 5:前端转型AI开发,朋友问我,你到底在折腾啥?
前端·人工智能·python