【统计学基础】随机抽样的特点

随机抽样是统计学中获取样本的重要方法，核心是通过 "随机性" 让样本尽可能代表总体。它的特点可以用 "公平、可靠、可推断" 来概括。

本质：总体中每个个体都有 相同的机会 被选入样本，没有人为偏好或歧视。

反例对比：如果老师刻意选 "坐在前排的 10 人"（非随机抽样），样本可能偏向 "认真学生"，无法代表全班整体水平。

操作：抽样过程依赖 随机机制（如抽签、随机数生成器），而非人为判断。

例子：调查 "市民对地铁票价的满意度"，用计算机从全市户籍系统中 随机生成 1000 个身份证号，对应选中 1000 人，避免调查员刻意选 "看起来好说话的人"。

作用：最大限度减少 系统偏差（如只选年轻人、只选某区域人群），让样本更 "纯净" 地反映总体。

统计推断的基础 ：只有随机抽样，才能用概率论计算 抽样误差，进而进行置信区间估计、假设检验等。

例子：通过随机样本计算出 "80% 的市民支持某政策"，可以进一步算出 "这个结果有 95% 的概率在总体真实比例的 ±3% 范围内"（置信区间），而非随机抽样无法计算这种可靠性。

机器学习中的应用：训练模型时，随机划分训练集和测试集，能更准确评估模型对 "未知数据"（总体）的泛化能力。

简单随机抽样：直接随机选个体（如抽签）。

分层随机抽样：先分组（如按年龄分层），再从每组随机抽（提高层内代表性）。

系统随机抽样：按固定间隔抽样（如每 10 个选 1 个）。

总结：

"用概率保证公平，用数学推导真相"------ 通过让每个个体被选中的机会相等，随机抽样最大限度减少人为干扰，让样本成为总体的 "微型镜子"，从而支持科学的统计推断。就像用计算器算平均数前要先 "清零"，随机抽样就是让样本 "清零" 人为偏差，回归数据本身的客观规律。