机器学习之预测概率问题

云和数据.ChenGuang2026-04-17 9:43

超清晰解释：为什么两个正确率（score）数值不一样？

我直接给你讲最核心、最本质的原因，保证你一看就懂！

你代码里这两行：

python 复制代码

print(f'正确率：{estimator.score(x_train,y_train)}')  # 0.98
print(f'正确率:{accuracy_score(y_test,y_predict)}')   # 0.91

一句话总结

一个是"做过的题得分"，一个是"没做过的新题得分"，当然不一样！

1. 两个分数到底算的是什么？

① `score(x_train, y_train)` → 训练集正确率 0.98

用训练集数据打分
模型早就见过这些数据，已经学过了
相当于：拿课堂练习题考学生
学生当然得分高！

② `accuracy_score(y_test, y_predict)` → 测试集正确率 0.91

用测试集数据打分
模型从来没见过这些数据
相当于：拿全新期末考试卷考学生
分数自然会比训练集低一点，这才是模型真实能力

2. 为什么训练集分数一定更高？

机器学习模型会努力记住训练集的规律，甚至会：

记住训练集里的细节
记住训练集里的噪声
所以在自己学过的数据上表现极好。

但测试集是全新数据 ，模型不能"背答案"，

所以分数会更真实、更低、更有参考价值。

3. 你的结果完全正常！

复制代码

训练集正确率：0.98 ✅ 正常（见过的题）
测试集正确率：0.91 ✅ 正常（没见过的新题）

只要测试集正确率不是远低于训练集 （比如 0.98 vs 0.5），

就说明没有过拟合，模型很健康。

4. 最重要的结论（一定要记住）

我们看模型好坏，只看测试集分数！

0.91 才是模型真实准确率
0.98 只是记忆分数，不能代表模型能力

5. 你代码里的小问题（顺手帮你改）

你写的：

python 复制代码

print(f'正确率：{estimator.score(x_train,y_train)}')

应该改成：

python 复制代码

print(f'训练集正确率：{estimator.score(x_train,y_train)}')
print(f'测试集正确率：{accuracy_score(y_test,y_predict)}')

这样就不会混淆了。

最终超级简单总结

0.98 ：模型做自己学过的题 → 分数高
0.91 ：模型做全新的考题 → 分数真实
两个不一样 = 完全正常 = 机器学习必然现象

上一篇：如何保护您的 .NET Web API 免受常见安全威胁

下一篇：【StarRocks / Doris】Broker Load 性能优化实战

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结