shuffle过程

Shuffle过程

Shuffle(随机重排)是计算机科学中用于将序列元素随机重新排列的过程。其核心目标是保证每个元素出现在任一位置的概率均等,即对于长度为n的序列,每个元素最终位于第i个位置的概率为\\frac{1}{n}

Shuffle的本质基于磁盘划分来解决分布式大数据量的**全局分组、全局排序、重新分区【增大】**的问题。

经典算法:费雪耶茨洗牌(Fisher-Yates Shuffle)

该算法通过逐步交换元素实现高效随机化:

  1. 从最后一个元素开始向前遍历
  2. 对当前元素i(从n-10),随机选择索引j0 \\leq j \\leq i
  3. 交换位置ij的元素

数学表达: $$ P(\text{元素移至位置}k) = \prod_{m=k}^{n-1} \frac{m}{m+1} \times \frac{1}{k} = \frac{1}{n} $$

复制代码
import random

def fisher_yates_shuffle(arr):
    n = len(arr)
    for i in range(n-1, 0, -1):
        j = random.randint(0, i)
        arr[i], arr[j] = arr[j], arr[i]
    return arr

特性

  • 时间复杂度:O(n)
  • 空间复杂度:O(1)
  • 无偏性:每个排列出现的概率均为\\frac{1}{n!}
应用场景
  1. 机器学习数据集随机化
  2. 卡牌游戏发牌
  3. 随机实验分组
  4. 密码学中的随机序列生成

注意:实际实现需使用密码学安全的随机数生成器(如CSPRNG)以保证不可预测性。

相关推荐
金融小师妹19 小时前
基于多模态宏观建模与历史序列对齐:原油能源供给冲击的“类1970年代”演化路径与全球应对机制再评估
大数据·人工智能·能源
播播资源20 小时前
OpenAI2026 年 3 月 18 日最新 gpt-5.4-nano模型:AI 智能体的“神经末梢”,以极低成本驱动高频任务
大数据·人工智能·gpt
GJGCY21 小时前
中小企业财务AI工具技术评测:四大类别架构差异与选型维度
大数据·人工智能·ai·架构·财务·智能体
九河云21 小时前
云上安全运营中心(SOC)建设:从被动防御到主动狩猎
大数据·人工智能·安全·架构·数字化转型
武子康21 小时前
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查
大数据·后端·apache hive
jinanwuhuaguo21 小时前
OpenClaw、飞书、Claude Code、Codex:四维AI生态体系的深度解构与颗粒化对比分析
大数据·人工智能·学习·飞书·openclaw
Rubin智造社1 天前
# OpenClaude命令实战|核心控制三剑客/reasoning+/verbose+/status 实操指南
大数据·人工智能
华奥系科技1 天前
智慧经济新格局:解码社区、园区与城市一体化建设逻辑
大数据·人工智能·科技·物联网·安全
TDengine (老段)1 天前
TDengine IDMP 组态面板 —— 画布
大数据·数据库·物联网·时序数据库·tdengine·涛思数据