隐语SML0.1.0版本发布!SPU开源机器学习Python算法库

打开链接点亮社区Star,照亮技术的前进之路。每一个点赞,都是社区技术大佬前进的动力

Github 地址: https://github.com/secretflow/sml

我们很高兴地宣布,隐语 SML 0.1.0 版本正式发布!

SML 库目前支持约数十种核心算法,涵盖了机器学习的主要领域,如监督学习(线性模型、支持向量机等)、无监督学习(KMeans聚类算法,PCA等降维算法)、数据预处理(标准化、特征选择等)、模型评估(各种分类、回归指标)。

版本链接:https://pypi.org/project/sf-sml/#history

什么是 SML?

SML 是一个基于 Python 的机器学习模块,它利用 JAX 实现算法,并借助 SPU (SecretFlow Processing Unit) 的能力进行安全的训练和推理。

专注于隐私保护机器学习场景,致力于构建一个安全版本的 scikit-learn。

为什么需要一个"隐私版 scikit-learn"?

scikit-learn 是事实上的传统机器学习标准库,但它有一个前提假设:

  • 数据集中在一处
  • 运行在 NumPy / SciPy 的中心化计算环境中
  • 不考虑多方协作与数据隐私

而在真实世界中,越来越多场景是:

  • 数据分散在多方
  • 原始数据不能共享
  • 合规要求高(金融、医疗、政企等)

直接将 scikit-learn 的实现"翻译"为 MPC 版本,会遇到一些问题:

  • 浮点数在 MPC 下精度和性能不可控
  • 大量 CPU 友好算子 并不适合安全计算
  • 简单移植会导致效率极低,无法落地

SML 的愿景是建立一个通用的隐私保护机器学习 (PPML) 库,旨在成为安全版本的 scikit-learn

支持的算法

在首个开源版本中,SML 已支持 数十种核心算法,覆盖传统机器学习的主要领域:

监督学习

  • 线性模型(Logistic / Ridge / GLM 等)
  • 支持向量机(SVC)
  • KNN
  • Gaussian Naive Bayes
  • 决策树(基于 GTree 的 MPC 实现)
  • 集成模型:Random Forest、AdaBoost

无监督学习与降维

  • KMeans 聚类
  • PCA(多种实现方式:power iteration、Jacobi、RSVD)
  • NMF
  • T-SNE
  • ISOMAP、Spectral Embedding 等流形学习方法

数据预处理

  • 标准化 / 归一化(MinMax、Standard、Robust 等)
  • OneHotEncoder、KBinsDiscretizer
  • QuantileTransformer
  • LabelBinarizer 等

模型评估指标

  • 分类指标:accuracy、precision、recall、f1、roc_auc 等
  • 回归指标:MSE、R²、explained variance
  • GLM 专用评估指标(Poisson / Gamma / Tweedie)

所有算法均围绕 MPC 场景下的安全性、精度与性能进行实现与权衡。

从 SPU 子模块到独立 Python 库

SML 最初是 SPU 库的一部分,随着算法数量增加和使用场景清晰,我们决定将其独立拆分为一个单独的 Python 包:

  • 更清晰的定位:隐私保护机器学习算法库
  • 更友好的使用方式:Python 原生 API
  • 更利于社区共建与持续演进

快速开始

你可以通过 PyPI 快速体验 SML:

复制代码
pip install sf-sml

从源代码安装

复制代码
git clone https://github.com/secretflow/sml.git
cd sml
pip install -e .

安装完成后,您可以运行任何测试,例如:

复制代码
# run single unit test
pytest tests/cluster/kmeans_test.py  # run kmeans simulation

# run all unit tests
pytest tests

# run single emulation test
python emulations/run_emulations.py --module emulations.cluster.kmeans_emul  # run kmeans emulation

# run all emulations
python emulations/run_emulations.py

# list all available emulations
python emulations/run_emulations.py --list-only

加入社区,一起共建生态

SML 是 SecretFlow 开源生态的重要组成部分。

我们期待与你一起探索 隐私计算时代的机器学习新范式:

  • 贡献算法与实现
  • 优化性能与数值稳定性
  • 参与设计讨论与 Issue 反馈
  • 分享真实应用场景

未来我们将持续推进:

  • 算法覆盖与稳定性增强
  • API 设计持续对齐 scikit-learn 使用习惯
  • 更完善的文档、示例与最佳实践
  • 与 SecretFlow / SPU / SCQL 的深度协同
相关推荐
夏鹏今天学习了吗5 小时前
【LeetCode热题100(82/100)】单词拆分
算法·leetcode·职场和发展
mit6.8246 小时前
mysql exe
算法
2501_901147836 小时前
动态规划在整除子集问题中的应用与高性能实现分析
算法·职场和发展·动态规划
中草药z7 小时前
【嵌入模型】概念、应用与两大 AI 开源社区(Hugging Face / 魔塔)
人工智能·算法·机器学习·数据集·向量·嵌入模型
web3.08889997 小时前
微店商品详情API实用
python·json·时序数据库
知乎的哥廷根数学学派7 小时前
基于数据驱动的自适应正交小波基优化算法(Python)
开发语言·网络·人工智能·pytorch·python·深度学习·算法
sunfove7 小时前
将 Python 仿真工具部署并嵌入个人博客
开发语言·数据库·python
Learner7 小时前
Python类
开发语言·python
ADI_OP7 小时前
ADAU1452的开发教程10:逻辑算法模块
算法·adi dsp中文资料·adi dsp·adi音频dsp·adi dsp开发教程·sigmadsp的开发详解
xingzhemengyou17 小时前
C语言 查找一个字符在字符串中第i次出现的位置
c语言·算法