背景

信息时代，数据已经成为国家基础性战略资源，数据交易规模在不断扩大。但数据流通中存在着数据泄露和滥用等风险，像 AI 预训练模型和 BI 分析报告等产出结果的价值交易、大规模的数据采集和处理分析，都增加了数据安全风险。此外，随着 ChatGPT 这种自然语言处理技术的广泛应用，越来越多的企业和组织需要在数据交易中使用预训练模型。然而，不同机构之间的模型交换和共享涉及到数据隐私和商业机密等敏感信息的保护，而且模型也可能被恶意篡改，从而影响数据安全和交易可靠性。Argus 结果审核引擎应运而生，为数据出域安全这一问题提供全面的保障。

简介

Argus 是一个强大的结果审核引擎，它是数据出域的最后一道防线。它的功能丰富，操作简便，可以有效地保护数据隐私，并确保数据出域的可追溯性。无论是企业还是个人用户，都可以信赖 Argus，享受安全、可靠的数据出域服务。

主要特性

AI 模型和出域数据检测

Argus 将具备可视化的 AI 模型结构和出域数据检测功能，使用户能够深入了解 AI 模型的组成和出域数据的分析报告，通过各项指标来对比原始数据和出域数据的相似度，从而分析出域数据是否安全。未来，Argus 将支持机器学习和深度学习模型结构审核，并能够审查多种人工智能模型结果解析。此外，Argus 还将能够检测 AI 模型和出域数据中可能存在的隐私数据，例如个人身份信息和银行账号等，并及时发现和提醒这些隐私数据的存在，以便用户采取相应的措施来保护数据的安全性。

数据的可追溯性

未来，Argus 将具备数据水印技术，为每个数据添加唯一标识以确保数据的合法性和溯源性，用户可以追踪数据的来源和拥有者。此外，Argus 还将利用 AI 模型水印技术，为 AI 模型添加水印，以追踪模型的使用情况和授权范围。当模型被部署、使用或共享时，Argus 将能够追踪模型的使用者和使用情况，以确保模型的合法性和可控性。

数据识别与脱敏

Argus 将在未来提供一系列强大的功能，助力用户保护数据的隐私和安全。其中包括对结构化和非结构化数据的敏感数据的识别功能，基于遗传算法的敏感数据识别规则自动生成算法，以及支持自定义敏感数据类型的识别。此外，Argus 还将采用多种方法对敏感数据进行识别和脱敏，包括 NLP、OCR 和规则等技术，并支持 OCR 扫描和图像处理的脱敏。这些功能将使用户能够更好地保护数据隐私和安全，为企业和个人的数据保护提供全面的保障。

可插拔插件技术

Argus 采用可插拔的插件技术，让用户可以根据自身需求选择和添加适合的数据检测工具。用户可以快速添加数据检测工具，并根据自己的需求快速进行数据检测和处理。除此之外，Argus 还支持自定义数据出域规则，让用户可以按照自己的要求进行数据检测和处理。Argus 提供高度可定制化的插件技术，让用户可以定制自己的数据处理流程，以满足不同的需求。

关键技术介绍

整体架构

Argus 的整体架构包含三个层次：客户端层、服务端层和扩展模块层。

客户端层：说明了不同的调用客户端，Argus 的功能以开放 HTTP API 的形式提供，客户端需使用此协议与 Argus 进行交互。
服务端层：包含两个进程：Argus 开放 API 服务和 Argus 中心服务。前者用于客户端请求分发和处理结果响应，后者用于管理不同的 Argus 扩展模块客户端。
扩展模块层：包含不同的 Argus 扩展模块客户端进程，Argus 基于可插拔插件技术对接管理扩展模块客户端，用于扩展和管理更多功能。

Argus 扩展模块客户端会与 Argus 中心服务建立长连接，通信协议的数据序列化基于 Protocol Buffers ，基于 gRPC 的双向流的二进制流传输。

可插拔的扩展模块客户端

在 Argus 体系下，扩展功能将以「扩展模块客户端」方式集成对接到 Argus 。Argus 提供相关的依赖包，让扩展模块客户端的功能接口开放极为简单：

示例：扩展模块客户端提供功能接口

typescript 复制代码

@ArgusController
public class FoobarController implements IArgusController {
@API(url = "test/returns")
  public HelloWorld foo() {
      return new HelloWorld();
  }
}

扩展模块客户端作为一个独立进程运行，可即时插拔对接到 Argus 中心服务。

异步任务调度

Argus 提供轻量级、易用的任务调度框架，未来将会支持 WorkFlow 任务流，用于不同扩展功能的任务工作流调度。

示例：扩展模块客户端提供异步任务

定义功能接口：

typescript 复制代码

@ArgusController
public class FoobarController implements IArgusController {
    @API(url = "test/job")
    public DemoTestJobEntity test2(DemoTestJobArgs args) {
        var params = new DemoTestJobParams();
        params.setJobName(args.getName());
        return new DemoTestJobEntity(params);
    }
}

定义异步任务：

csharp 复制代码

public class DemoTestJob extends AArgusJob<DemoTestJobParams, DemoTestJobResult> {
    private final ArgusLogger log = new ArgusLogger(DemoTestJob.class);

    public DemoTestJob(String seq, String params) {
        super(seq, params);
    }

    @Override
    public DemoTestJobParams transform(String params) {
        return Transformer.fromJson(params, DemoTestJobParams.class);
    }

    @Override
    public void onStop() {
    }

    @Override
    public void onFailed() {

    }
  // ...
}

定义异步任务返回值：

scala 复制代码

public class DemoTestJobEntity extends JobEntity<DemoTestJobParams, DemoTestJobResult> {
    public DemoTestJobEntity(DemoTestJobParams params) {
        super(params);
    }

    @Override
    public Class<? extends AArgusJob<DemoTestJobParams, DemoTestJobResult>> getJob() {
        return DemoTestJob.class;
    }

    @Override
    public String getName() {
        return "DemoTestJobEntity";
    }
}

已实现扩展模块

结构化与半结构化数据敏感数据识别

openDLP 是 Argus 体系下的一个扩展模块客户端。

openDLP(open Data Loss Prevention) 是一个敏感数据识别工具，使用正则表达式、人工智能算法、数据校验规则等多种技术对结构化数据表和 Json 之类的半结构化数据进行字段级敏感数据识别，可以帮助企业和组织进行数据资产分类分级，保障数据安全。

正则表达式是敏感数据识别的常用技术手段，openDLP 的正则表达式智能生成功能能够基于提供的正、负训练样本数据，自动学习生成正则表达式，帮助提高正则表达式编写效率。

查看更多：github.com/hitsz-ids/o...

正则表达式智能生成

auto-regex 是 Argus 体系下的一个扩展模块客户端。

auto-regex 是一个正则表达式智能生成工具，可以基于用户提供的少量某个类型的样本数据，学习该类数据的模式特征，自动生成识别该类型数据的正则表达式，帮助提高在数据类型识别场景中的正则表达式编写效率。

查看更多：github.com/hitsz-ids/a...

企业对数据出域审核的需求

解决 AI 模型和出域数据的数据安全问题

在企业中，AI 模型和出域数据往往包含大量敏感数据，例如个人身份信息和银行账号等。泄露这些隐私数据可能会给企业和个人带来巨大的损失和影响。因此，保证 AI 模型和出域数据的数据安全问题至关重要。

Argus通过对出域数据进行精准的敏感数据检测，能够及时识别和防止隐私信息的泄漏。同时，对AI模型的组织和结构进行深度解构，以确保AI模型中不含任何隐私数据。这些措施可以帮助企业保护其数据的隐私性和安全性。

解决 AI 模型和出域数据的安全性和可信度问题

在企业中，出域数据往往涉及商业机密或重要的业务数据，而AI模型则可能面临恶意使用或商业化的风险，从而损害企业利益。因此，保证AI模型和出域数据的安全性和可信度问题也显得极为关键。

Argus利用数据水印技术，能够追踪出域数据的流向，防止数据被篡改、泄露或滥用。同时，应用AI模型水印技术，可以跟踪模型的使用者以及使用情况，从而保证模型的合规性和可控性。这些措施可以帮助企业确保其AI模型和出域数据的安全性和可信度，并最大限度地保护企业利益。

快速上手

如果您打算快速地搭建 Argus 并运行，请阅读 Argus - Getting Started ，该页面描述了如何部署 Argus 并在本地环境下运行示例。

进展 & 规划

🌟 Argus 目前的进展 & 近期规划如下：

Argus 主体 - 整体架构
Argus 扩展模块 - 开发结构化与半结构化数据敏感数据识别组件
Argus 扩展模块 - 开发正则表达式智能生成组件
Argus 扩展模块 - 集成结构化与半结构化数据敏感数据识别组件
Argus 扩展模块 - 集成正则表达式智能生成组件
Argus 扩展模块 - 开发 & 集成模型水印模块组件
Argus 扩展模块 - 开发 & 集成模型检测模块组件
Argus 任务调度 - Workflow 任务流开发
Argus 主体 - Dashbord - 扩展模块管理前端界面 & 后端功能开发
..

了解更多

🤝 欢迎大家使用、反馈，提出建议，一同参与项目建设！

项目源码：github.com/hitsz-ids/a...

项目网站：argus.idslab.io/

开源协议：Apache-2.0 license

引用：

Argus：结果审核引擎，保障敏感数据安全和可追溯性

背景

简介