引言
纠删码是一种数据保护技术,通过在原始数据中添加冗余信息来保证数据的可靠性和完整性。在计算机科学领域,纠删码被广泛应用于云存储、网络传输等领域。(感兴趣的朋友可以看我上一篇文章《揭秘纠删码:数据恢复的神奇工具》https://juejin.cn/post/7282232046520156219)
本文将使用Citespace软件对Web of Science上有关纠删码的论文进行探索性分析,以了解当前的研究热点和趋势。本文使用CiteSpace 6.2.R4版本来进行操作。
CiteSpace进行数据分析
首先,我们需要从Web of Science上获取与纠删码相关的论文数据。我们可以通过设置检索词为"erasure code"来实现这一目标,一共5369篇论文,选择"导出",选择"纯文本文件",只能每500条数据分别导出,
导出数据的命名格式一定要选择"download_"开头,如下图所示。

在数据进行分析时,有一个需要注意的点就是,有四个文件名,必须要按"data"、"input"、"output"、"project"四个文件夹命名(CiteSpace规定的),input文件夹用于数据的预处理,output文件夹用于后期数据的正式处理与保存工程文件,data文件夹用于数据的正式处理,project文件夹用于后期数据的正式处理和保存工程文件。
刚刚下载的数据放在input文件夹中。如下图所示:

接下来,我们将使用CiteSpace软件对这些论文进行分析。CiteSpace是一款可视化分析工具,它可以帮助我们将大量的文献数据转化为直观的思维导图。我们将首先导入筛选后的论文数据,并选择适当的分析类型来对点分析。
打开CiteSpace软件,可以点击"English"按钮,就会切换成中文,这是更适合中国宝宝体质的CiteSpace模式🤗。然后点击"agree",进入CiteSpace界面,如下图所示:

点击"data",选择"input/output"按钮,点击"WoS",按下图分别设置好一开始新建的"input"和"output"文件夹,点击"去重整理",这是数据的预处理,如下图所示:

点击选择"Artcle"和"Review",然后点击"Start",过了几秒之后,它会输出一些信息,然后关掉就好了,如下图所示:

然后去打开"output"文件夹,就会出现处理好的数据,如下图所示:

将"output"中的数据复制粘贴到"data"中去,数据处理部分已经做好,现在可以使用CiteSpace做数据分析啦。
首先对纠删码的这批数据进行关键词分析:通过Citespace中的关键词共现图、高频词分布以及关键词突现来观察研究热点。
首先,点击"新建",新建一个项目,取名为:erasurecode,然后设置好"project"和"data"文件夹,然后选择"WoS",最后保存即可,如下图所示:

然后就是正式选择分析参数啦,选择想要分析的时间范围,我选择的是2013-2023年这十年的时间,时间片段是每2个月一分析,节点的类型选择的是"关键词",选择"Pathfinder"、"各个时间段"、"综合网络整体"方式,如下图所示:

开始分析!gogogo

弹出一个不太好的显示,节点数超出显示的限制了,为了减少节点数,我将论文的时间缩减到2016年-2023年间,再次开始运行。

弹出这个框,表示运行成功,选择"可视化",开始运行,如下图所示:

最开始的可视化图,是比较丑的,然后就是自己按照自己的喜好进行一些调整,让你的图片变得好看一些,最开始的可视化图如下图所示:

通过CiteSpace的关键词共现图,点击"热点显示开关"就可以突显研究热点。一般来说标签的圈和字越大,该标签就越热。(配色还是不够好看,真的不会调啊😇)
由关键词出现图谱及详细信息可知:erasure code纠删码研究的热点多集中在"distributed storage","regenerating codes","cloud storage","parity check codes","reed-solomon codes","fault tolerance"等。也可以采用高频词列表来佐证上图,关键词词频图如下图所示。

关键词突现是指在短时间被发表文章中出现频次极高的关键词,从关键词突现开始至突现结束行程的红色标记,表明关键词在该研究领域的重要程度和被关注度,突现长度越长,说明该关键词reduce持续时间越久,研究前沿性越强。
下图是被引用次数最多的18个关键词,
"rateless codes":无比率编码
"erasure channels":擦除通道
"network coding":网络编码
"transmission":传输
"unequal error protection":不等错误保护
"broadcast":广播
"multicast":multicast
"wireless networks":无线网络
"energy efficiency":能效
"low-density parity-check(ldpc) codes":低密度奇偶校验码
"maintenance engineering":维修工程
"complexity theory":复杂性理论
"upper bound":上限
"distributed databases":分布式数据库
"error probablity":错误概率
"fault tolerant systems":容错系统
"region":区域
"wireless communication":无线通信

结合现有论文可以看出来在2020年前,纠删码常用于通信管道研究等方面,2020年之后,国外研究者对纠删码研究的持续关注点在于纠删码在分布式存储系统和云存储系统和容错维修等研究方面,今后对于纠删码编码的更新设计,容错性设计,数据恢复是研究的热点。
结论与总结
通过Citespace的分析结果(还有作者,机构,国家等,与关键词分析一样,在文章中没有粘贴出来)和一些论文博客研究,我们可以发现一些与纠删码相关的研究热点和趋势:
- 基于深度学习的纠删码算法:近年来,随着深度学习技术的不断发展,越来越多的研究者开始尝试将其应用于纠删码算法中,以提高编码效率和纠错能力。
- 云计算与纠删码:随着云计算技术的普及和应用,纠删码在云存储领域的应用越来越受到关注。研究者们在探讨如何将纠删码与云存储服务相结合,以提高数据可靠性和用户体验。
- 物联网与纠删码:由于物联网设备数量庞大且分布广泛的特点,如何在这样的环境中实现高效的数据保护成为了一个热门话题。
综上所述,通过Citespace软件对Web of Science上有关纠删码的论文进行探索性分析,我们深入了解了当前的研究热点和趋势。这些发现对于指导未来的研工作具有重要意义,并为解决实际问题提供了参考依据。