自己的论文,哎费事
目录
基于以太坊+IPFS的去中心化数据交易方法及平台
摘要:
数据交易过程中存在数据权属不明和数据安全问题。本文开发了一种基于以太坊+IPFS的去中心化数据交易方法及平台。方法包括:通过自然语言处理技术对文本进行相似计算实现数据确权;通过智能合约构建了以交易体为中心的数据加解密流程以规避恶意交易行为、保证数据交易中的数据安全。数据交易平台由客户前端、后端和数据库三部分构成,其中数据库采用以太坊加星际文件系统模式。实验表明:平台能解决数据交易过程中数据权属不明和数据安全问题,提高数据交易的效率降低数据交易费用,为买卖双方提供安全可靠的数据交易服务。
关键词:数据交易 区块链 智能合约 数据确权 交易体
01 引言
大数据时代已经来临,数据即将成为资产或者已经成为资产。近年来伴随着智能移动设备和物联网设备的发展,因其体积小,易携带等特点,受到人们一致好评,数据呈指数式增长,淘宝网近4亿的会员每天产生的商品交易数据约20TB,Facebook约 10 亿的用户每天产生的日志数据超过300TB。从市场规模来看,全球大数据产业市场规模正在快速扩张。据市场研究机构IDC发布的数据,2020年全球大数据和业务分析市场规模达到1890亿美元,预计到2024年将达到2740亿美元,年复合增长率达到9.2%。同时,国内大数据产业也在迅速发展。根据中国信息通信研究院发布的数据,2019年中国大数据产业规模达到8383亿元,同比增长15.9%。2022年我国大数据产业规模达1.57万亿元,同比增长18%,成为推动数字经济发展的重要力量。[1-2]。
数据交易逐渐发展起来。中央印发《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》要求加快培育数据要素市场。在国家政策的推动鼓励下以及机器学习,深度学习,神经网络和数据挖掘技术的逐渐成熟,数据在这些技术中发挥的作用日益明显,如何合理利用大数据,推进新一代信息技术领域进步与发展成为现今研究热点之一[3-4], 外国也十分重视数据的发展尤其是美国,从2009年开始,美国联邦政府就开始公开大量资料库,并且把许多数据公布在中央信息交换库------Data.gov网站上,以方便民众进行查阅。在2014年,美国国税局建立了一个名为"Get transcript"的共享数据库。美国政府与电力行业在2012年合作推出"绿纽扣"计划,为家庭与企业提供能源使用信息,目前已为5900万家庭与企业提供服务,并帮助他们节约能源。此外,美国政府认为目前大数据应用中最严峻的挑战是如何保证数据安全,并且正在不断修改相关法律法规以保证数据安全,提出未来的改进重点在于:改进消费者隐私权法案、通过有关国家数据外泄的立法、保护非美籍人士隐私、规范在校学生数据采集使用、修正电子通信安全法等。因此打造一个安全的数据交易共享平台是十分有必要的。
现今大数据成为一种资源,数据是数字经济的基础性资源,是后疫情时代经济发展的重要生产要素,但现在人们理论认知远远落后于应用实践,一方面,数据科学和应用技术的发展日新月异,人们需要不断学习和更新相关知识,才能跟上时代的步伐。另一方面,数据的收集、处理、分析和应用也需要考虑到许多复杂的的问题,如数据质量、数据隐私、数据安全等,这些问题需要人们进行深入的研究和探讨。以上原因导致数据不能发挥其最大价值,而且数据的确权、存储安全问题也存在很大问题,这对大数据产业和数字经济的健康发展形成很大的隐患,也成为制约大数据向生产要素正常转化的关键。数据交易中仍有很多问题急需解决[5],数据交易和传统的商品交易有很大不同,由于数据的复制成本低导致数据一键复制遍地都是,因此数据难以确权,且数据具有生长速度快,价值难以估计。中心服务器一旦崩溃或者由于其他不可抗拒因素导致数据中心损坏,数据以及数据交易信息将不复存在,数据安全难以保证,且中心服务器同时面临黑客攻击风险,例如:2018年,Facebook爆出用户数据泄露事件,涉及8700万用户的数据被不当分享给政治咨询公司剑桥分析。同一年雅虎宣布其5亿用户账户信息被盗,包括用户名、电子邮件地址、密码等敏感信息。2021年,Under Armour公司的MyFitnessPal应用程序数据泄露,导致多达1500万用户的个人信息被泄露。数据安全存储显得尤为重要[6]。
区块链技术是一种分布式的数据存储数据库,区块链作为一个去中心化的平台将推动去中心化系统的形成。基于区块链技术可以实现数据交易信息可追溯且不可篡改,数据加密,智能合约控制交易流程,数据实现分布式存储[7-8],可以很好应对以上数据交易过程中出现的问题。我们通过区块链建立一种去中心化的交易系统,在数据上传前进行相似数据比对,在交易过程中数据交易信息可追溯且不可篡改,这样可以确定数据权属问题;使用加密算法对数据加密保证数据安全;通过智能合约对数据交易流程进行控制防止买卖双方抵赖行为;分布式存储可以防止服务器单点故障和黑客攻击。
02 基于区块链的数据交易系统
这一章节主要介绍数据交易过程。在数据交易过程中涉及数据确权,数据加密上传;其次介绍数据交易中解决的关键问题;最后介绍基于以太坊的数据交易的技术架构。
2.1数据交易过程描述
数据交易就是买方(Buyer,B)根据自己的需求在数据交易平台(Data trading platform,DTP)搜索相应的数据集,买卖双方根据现有信息进行交易判断,最终实现数据从卖方(Seller,S)到买方B的数据流转。首先由卖方S向数据交易平台DTP发起数据上传请求数据,数据交易平台DTP收到请求后进行数据确权。数据确权完成之后进行数据加密上传其中数据关键信息存储到以太坊中,数据集存储到星际文件系统中。买方B在搜索到相应数据集之后,向数据交易平台DTP发起交易请求。卖方S响应交易请求,之后在数据交易平台中完成数据交易。最后在数据交易平台进行数据交付,买方B可以下载数据集。这一过程中涉及到关键操作是:数据确权、数据加密上传、数据交易、数据交付。目前数据交易平台DTP在windows系统下实现,主要目的实现仿真实验测试,未来将所有用户操作转移到智能合约中,实现完全的去中心化,数据交易过程如图1所示。
图1数据交易过程图
2.1.1数据确权
我们通过自然语言处理(Natural Language Processing,NLP)技术[9-10]对文本进行相似计算。防止用户对数据进行简单改造,重新上传到系统中。本文仅针对文本数据。用户在提交数据的时,需要提供数据集关键词,关键词的作用是便于平台和用户进行数据集检索。相似文本的处理模型有很多例如:基于类别主题词集的加权相似度短文本分类[11],其中通过主题词加权的形式进行相似文本识别。但是本文针对的文本数据都是大型的文本数据集,不适合使用这种主题词加权的模型。当用户在数据交易平台上传数据时,必须确认数据集关键词,平台方会根据数据集上传方提交的关键词进行检索有相似数据则会进行数据相似对比。数据确权6个步骤为:分词、哈希计算、加权、合并、降维、计算汉明距离。如图2所示。