Privacy-Preserving Data Aggregation for Mobile Crowdsensing With Externality

摘要

我们开发了一个拍卖框架,用于移动群智感知中保护隐私的数据聚合,其中该平台充当拍卖师的角色,招募工作人员来执行感知任务。为了保护隐私,工作人员可以报告其数据的嘈杂版本;平台会根据感知能力来选择工作人员,以确保汇总结果的准确性。观察到,当将数据隐私的控制权从数据聚合器转移到工作人员时,数据聚合器的市场力量有限,因为它只能根据工作人员的隐私偏好明智地选择工作人员的子集来部分控制噪音。这引入了外部性,因为每个工人的隐私取决于聚合结果中的总噪音,而汇总结果又取决于选择哪些工人。具体来说,我们首先考虑一种隐私被动的场景,如果工人的隐私损失可以通过奖励得到充分补偿,那么他们就会参与。我们明确地描述了问题的外部性和隐藏的单调性,使得设计一个真实的、个体理性的和计算有效的激励机制成为可能。然后,我们将结果扩展到隐私主动场景,其中工作人员对其可感知的数据隐私级别有单独的要求。我们针对这两种情况提出的机制可以选择一部分工作人员,以(几乎)最大限度地降低购买其私人传感数据的成本,同时满足聚合结果的准确性要求。我们通过理论分析和广泛的模拟验证了所提出的方案。

INTRODUCTION

大多数为移动众感知系统开发的激励机制仅考虑工人的感知成本。只有少数最近的作品考虑了工人的隐私成本。然而,在这些工作中,要么工作人员无法控制自己的数据隐私(例如,平台被认为是值得信赖的并完全负责保护工作人员的私人数据,要么平台通过博弈论模型与工作人员进行交互,这可能导致低效平衡,即平台可能无法达到聚合结果的理想准确度水平。为了解决这些问题,至关重要的是开发用于移动群智感知的新颖数据聚合方案,该方案不仅允许平台根据感知质量选择性地招募工作人员1,还允许工作人员将其本地扰动的感知数据报告给不受信任的人隐私保护平台。而这里的一个关键问题是如何通过激励机制的设计在工作人员的数据隐私和聚合准确性之间取得良好的平衡。

由于存在多个纳什均衡,博弈论模型无法保证数据聚合的理想准确度。因此,本文采用拍卖方式,在设计激励机制时也包含了准确性要求。然而,使用基于拍卖的方法来选择隐私敏感的工人并收集他们的嘈杂传感数据必须解决设计有效激励机制的四个主要挑战:

  • 战略行为。由于工作人员被允许在本地干扰他们的数据,如果噪音完全由工作人员自己指定,他们可能会策略性地通过在传感数据中添加更多噪音来增强他们的数据隐私。此外,工作人员可能会操纵自己的出价来最大化自己的利益,从而导致实现理想聚合精度的成本更高。因此,需要一个真实的激励机制,它集成了精心设计的数据聚合方案,使平台对工人的数据扰动有一定的控制力。
  • 外部性。与现有的工作相比,平台在工人的感知数据中添加了噪声,工人的数据隐私仅取决于平台添加的噪声,本文中每个工人的数据隐私取决于哪个选择工人来完成任务以及所选择的工人产生多少噪音(参见第 II-C 节),这引入了外部性。这使得本文激励机制的设计更具挑战性。
  • 理性行为。在众感知模型中,工作人员的目标是最大化平台奖励与数据隐私损失之间的差异。传统上,只要工人的隐私损失能够得到奖励的充分补偿,他就会选择加入该系统,本文将这种情况称为隐私被动情况。然而,在某些情况下,员工的行为可能会更加主动,因为他们可能对数据隐私级别有内在的偏好。在这种隐私主动的情况下,如果该机制确定的噪音水平低于某个定制阈值,工人将拒绝参与,无论她可以获得多少奖励。需要新的激励机制来应对具有不同理性行为的工人。
  • 计算复杂性。为了以经济有效的方式实现聚合结果的理想准确度,平台需要找到最佳的工作人员子集来完成传感任务。由于不同的工作人员对其数据隐私有不同的评估,并且由于外部性,工作人员的数据隐私是相互依赖的,因此找到最佳的工作人员子集以最小化系统成本同时达到理想的准确性水平具有组合性质。因此,需要一种计算高效的机制。

PRIVACY-PRESERVING DATA AGGREGATION FOR MOBILE CROWDSENSING

A. System Overview

考虑一个由集中式平台 A、任务代理 T 和一组参与工作人员 <math xmlns="http://www.w3.org/1998/Math/MathML"> N ≜ { 1 , ⋯   , N } \mathcal{N}\triangleq\{1,\cdots,N\} </math>N≜{1,⋯,N}组成的移动群智感知系统

B. Crowdsensing Auction Model

在众感知系统中,平台扮演拍卖师的角色,招募工人完成感知任务,然后聚合感知数据。作为竞标者,工作人员向平台提供他们的私人传感数据,以换取补偿他们隐私损失的付款。下面我们介绍隐私成本模型、工人模型和平台模型,然后介绍设计目标。

Platform Model:

拍卖开始时,平台(拍卖人)将向劳动者征求出价。通过运行精心设计的获胜者确定程序和付款确定程序,平台输出分配结果 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( x , p ) (x,p) </math>(x,p),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> x = ( x 1 , ... , x N ) x =(x_1,...,x_N) </math>x=(x1,...,xN)表示参与者, <math xmlns="http://www.w3.org/1998/Math/MathML"> p = ( p 1 , ⋅ ⋅ ⋅ , p N ) p =(p_1,·· · , p_N ) </math>p=(p1,⋅⋅⋅,pN) 表示支付给参与者的金额。具体来说, <math xmlns="http://www.w3.org/1998/Math/MathML"> x i ∈ 0 , 1 x_i ∈ {0, 1} </math>xi∈0,1 表示是否选择工人 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 来执行任务: <math xmlns="http://www.w3.org/1998/Math/MathML"> x i = 1 x_i = 1 </math>xi=1 表示工人 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 被选择(即获胜者),否则 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i = 0 x_i = 0 </math>xi=0。因此,我们将 <math xmlns="http://www.w3.org/1998/Math/MathML"> S S </math>S定义为拥有 <math xmlns="http://www.w3.org/1998/Math/MathML"> S S </math>S 个工人的获胜者集。对于每个工人 <math xmlns="http://www.w3.org/1998/Math/MathML"> i ∈ N i ∈ N </math>i∈N,平台将支付 <math xmlns="http://www.w3.org/1998/Math/MathML"> p i ≥ 0 p_i ≥ 0 </math>pi≥0的奖励来收集她的隐私数据,并在数据聚合后以差分隐私的方式使用这些数据(参见第 II-C 节)。平台花费的总支付额可以表示为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ∑ i ∈ N p i \sum_{i\in\mathcal{N}}p_i </math>∑i∈Npi。我们将传感任务的数据聚合精度要求表示为 Δ,稍后将在第三节中定义

工人模型

接下来我们介绍工人的隐私成本模型、竞价模型和效用模型。

  1. 隐私成本:
  1. 竞价模型 由于工作人员在确定数据隐私级别时扮演的角色不同,我们区分了隐私被动场景和隐私主动场景的出价模型。在隐私被动场景中,每个工人 <math xmlns="http://www.w3.org/1998/Math/MathML"> i ∈ N i ∈ N </math>i∈N简单地将其单位隐私成本报告为 <math xmlns="http://www.w3.org/1998/Math/MathML"> b i b_i </math>bi,这可能与真实值 <math xmlns="http://www.w3.org/1998/Math/MathML"> v i v_i </math>vi不同。设 b = (b1,...,bN ) 表示工人提交的出价向量,b−i 表示没有工人 i 出价的出价向量。该平台运行拍卖,结果指定每个工人 i 的数据隐私级别 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ i \epsilon_{i} </math>ϵi。工作人员 i 会被动地接受数据隐私级别并相应地进行本地噪声注入(参见第 II-C 节)。在隐私主动场景中,我们假设每个工人 i ∈ N 对她的数据隐私级别有内在的要求,如果平台分配的 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ i \epsilon_{i} </math>ϵi大于定制的阈值 Ei,她就会退出。为了施加这样的约束,工人 i 将分别报告她的单位隐私成本 vi 和她对数据隐私级别 Ei 的要求的投标元组(bi,gi)。
  2. 劳动者效用 : 在我们的众感知框架中,每个工作人员向平台报告噪声数据,以换取补偿其隐私成本 ci 的支付 pi。为了最大化自己的效用,工人被认为是自私的和战略性的。基于隐私成本(1),隐私被动工作者 i 的效用 ui 可以给出为 <math xmlns="http://www.w3.org/1998/Math/MathML"> u i ( b i , b − i ) = p i ( b i , b − i ) − c i = p i ( b i , b − i ) − v i ϵ i ( x ) , ( 2 ) u_i(b_i,\mathbf{b}{-i})=p_i(b_i,\mathbf{b}{-i})-c_i=p_i(b_i,\mathbf{b}_{-i})-v_i\epsilon_i(\mathbf{x}),(2) </math>ui(bi,b−i)=pi(bi,b−i)−ci=pi(bi,b−i)−viϵi(x),(2)

对于积极主动保护隐私的员工来说,她的效用是,

C. Differentially Private Data Aggregation

D. Privacy Versus Accuracy

每个工人的隐私和聚合结果的失真可以表示为

INCENTIVE MECHANISM: THE CASE WITH PRIVACY-PASSIVE WORKERS

在本节中,我们研究员工对数据隐私水平没有内在要求的隐私被动场景下数据众筹的激励机制设计。换句话说,只要他们的隐私损失得到平台的奖励补偿,他们就会被动参与。

A. Mathematical Formulation

众测平台的目标是最大限度地减少对工人的总支付,使汇总结果的准确性高于某个预定阈值(即失真低于阈值Δ)。具体来说,这个问题可以表示为

B. 机制设计

当 N 的基数很大时,问题(13)的计算困难。为了应对这一挑战,我们提出了一种计算高效的机制(参见算法 2 和 3),即差分隐私数据拍卖(DPDA),它是真实且个体理性的,可以找到接近问题最优分配 x* 的获胜者集合(13),如第 III-C 节中所讨论。

INCENTIVE MECHANISM: THE CASE WITH PRIVACY-PROACTIVE WORKERS

在上面的模型中,工作人员可以在本地的传感数据中注入噪声,以避免将私人信息泄露给不可信的平台。然而,由于噪声级别是由平台指定的,工作人员在确定其数据的确切隐私保护级别时在一定程度上失去了控制权。在本节中,我们考虑以下场景:积极主动的工作人员对平台分配的数据隐私级别具有内在要求。我们首先提出问题的表述,然后提出基于 DPDA 开发的拍卖机制,然后进行性能分析。

A. Problem Formulation

与第三部分相同,我们的目标是设计一种机制,在满足汇总结果的准确性要求的情况下最大限度地减少平台的总支付额。激励机制的结果除了真实性、个体理性和计算效率等属性外,还应满足工人的隐私级别要求。我们将优化问题(13)重新表述如下:

B. Mechanism Design

获胜者集合以贪婪方式确定,如算法 4 中所述。具体来说,我们首先过滤出保证满足隐私级别要求的一组 k 个工作人员(第 4-5 行)。然后,我们使用问题(19)的解决方案作为预算目标,并遵循算法 2 中使用的相同程序来筛选获胜者,而不会用尽预算目标。每个获胜者 i ∈ S 的付款是通过第 III 节中介绍的算法 3 计算的。

相关推荐
InfiSight智睿视界1 分钟前
AI 技术,让洗护行业焕然「衣」新
人工智能·算法
程序员一诺7 分钟前
【机器学习】嘿马机器学习(算法篇)第11篇:决策树算法,学习目标【附代码文档】
人工智能·python·算法·机器学习
Evand J34 分钟前
平方根无迹卡尔曼滤波(SR-UKF)算法,用于处理三维非线性状态估计问题
算法
taoyong00137 分钟前
代码随想录算法训练营第十五天-二叉树-110.平衡二叉树
数据结构·算法
-芒果酱-42 分钟前
k-Means聚类算法 HNUST【数据分析技术】(2025)
算法·kmeans·聚类
渣渣威的仿真秀1 小时前
Jensen-Shannon Divergence:定义、性质与应用
人工智能·算法·概率论
柒月的猫1 小时前
求和(2022蓝桥杯A组试题C)
c语言·算法·蓝桥杯
simple_ssn1 小时前
【蓝桥杯】压缩字符串
java·算法
c1assy2 小时前
DP动态规划+贪心题目汇总
数据结构·算法·leetcode·贪心算法·动态规划
jjjxxxhhh1232 小时前
C++ 模板是为了解决啥问题
开发语言·c++·算法