深圳大学-智能网络与计算-实验四:云-边协同计算实验

实验目的与要求

  1. 了解MapReduce计算模型的原理
  2. 学会使用编程语言和工具实现MapReduce的Map和Reduce功能,并行实现特定任务的高效计算

方法,步骤

  1. 阅读经典论文,学习掌握MapReduce计算框架的基本原理
  2. 用JavaScript编程实现MapReduce功能

实验过程及内容

1. 阅读经典论文,学习掌握MapReduce计算框架的基本原理

(1)论文核心内容

① MapReduce定义与目的

·MapReduce是一个编程模型及其相关实现,用于处理和生成大型数据集。

·用户通过指定一个map函数(处理键值对以生成一系列中间键值对)和一个reduce函数(合并中间键值对以生成最终结果)来定义MapReduce任务。

② MapReduce运行环境与规模

·MapReduce在由大量普通机器组成的大型集群上运行,具有高度的可扩展性。

·典型的MapReduce计算能够处理数千台机器上的数TB数据。

③ MapReduce计算框架的容错性

·MapReduce库设计用于处理大量数据,使用数百或数千台机器,因此必须能够优雅地容忍机器故障。

·主节点(master)定期ping每个工作节点(worker),如果一段时间内未收到响应,则标记该工作节点为失败,并通知其他执行reduce任务的工作节点重新执行。

·MapReduce能够容忍大规模工作节点故障,例如在一个MapReduce操作中,运行中的集群进行网络维护导致部分节点故障,但任务仍能继续执行。

④ MapReduce计算框架的实现与优化

·MapReduce接口有多种实现方式,适用于不同的环境,如小型共享内存机器、大型NUMA多处理器、大型网络连接机器集合等。

·MapReduce通过局部性优化和负载均衡等技术来提高性能。

·用户可以提供特殊的分区函数来支持特定情况的数据分区需求。

⑤ MapReduce的广泛应用

·MapReduce编程模型在Google被成功用于多种不同目的。

·MapReduce易于使用,能够隐藏并行化、容错性、局部性优化和负载均衡等细节。

·大量问题可以很容易地表示为MapReduce计算,如生成Google生产Web搜索服务的数据、排序等。

(2)MapReduce计算框架的原理

MapReduce计算框架的原理基于两个主要函数:map和reduce。用户通过定义这两个函数来指定MapReduce任务。在Map阶段,输入数据被分割成小块,并独立地并行处理,每个小块由一个map函数处理,生成一系列中间键值对。在Shuffle和Sort阶段,中间键值对被分区并排序,以便相同的键的所有值都被发送到同一个reduce函数。在Reduce阶段,每个reduce函数并行地处理中间键值对的某个分区,并合并这些值以生成最终结果。整个过程中,MapReduce框架负责任务调度、容错性处理、性能优化等。

2. 用JavaScript编程实现MapReduce功能

(1)设计思路

根据以上MapReduce原理,借助JavaScript异步和并行的特性,将单词频率统计任务分解为多个独立的任务块,并对这些任务块并行处理。通过分阶段地处理数据(读取、Map、Shuffle、Sort、Reduce),程序能够高效地处理大规模的文本数据。尽管没有在真实分布式环境中运行,但能够模拟MapReduce处理大规模数据的过程。

(2)代码实现

① 读取输入文件并分割成多个块

设计一个函数,用于读取输入文件并将其按照固定大小分割成块。通过创建文件读取流和逐行读取接口,逐行读取文件内容并将每行内容逐次添加到当前块中,直至当前块大小达到设定阈值,然后将该块添加到一个数组中。最后,任何剩余的内容也会作为一个单独的块添加到数组中,并返回包含所有块的数组。

js 复制代码
// 读取输入文件并将其分割成多个块
async function readChunks(inputFile) {
  // 每个块的大小
  const chunkSize = 1000; 
  // 从文件中读取数据
  const fileStream = fs.createReadStream(inputFile, 'utf-8');
  // 创建逐行读取接口
  const rl = readline.createInterface({
    input: fileStream,
    crlfDelay: Infinity
  });
  // chunks用于存储分割后的块
  const chunks = [];
  // 当前块的内容
  let currentChunk = '';
  // 逐行读取文件内容
  for await (const line of rl) {
    // 将每行内容添加到当前块
    currentChunk += line + '\n';
    // 如果当前块大小达到指定大小,将当前块添加到chunks中并重置currentChunk
    if (currentChunk.length >= chunkSize) {
      chunks.push(currentChunk);
      currentChunk = '';
    }
  }
  // 如果还有剩余的内容,将其作为最后一个块添加到chunks中
  if (currentChunk) {
    chunks.push(currentChunk);
  }
  // 返回分割后的块数组
  return chunks;
}

② Map阶段:处理每个数据块并返回键值对

在Map阶段,mapChunks函数并行处理每个数据块,并将每个块的数据通过map函数转化为中间的键值对(单词和它们的出现次数)。使用Promise.all来并行处理每个块的映射操作,这种方式使得每个数据块都能独立地并行处理,提高了效率。

js 复制代码
// Map阶段:处理每个数据块并返回一个包含键值对的列表
async function mapChunks(chunks) {
  const mappedResults = await Promise.all(chunks.map(chunk => map(chunk)));  
  return mappedResults;
}

在map函数中,将输入的块内容按空格分割成单词数组words,然后遍历每个单词,将其转换为小写并去除非字母字符,然后更新该单词在wordCountMap 中的出现次数。map函数实现如下:

js 复制代码
// 模拟Map函数,用于统计每个块中单词出现的次数
function map(chunk) {
  // 创建一个 Map 对象用于存储单词及其出现次数
  const wordCountMap = new Map();
  // 将块内容按空格分割成单词数组
  const words = chunk.split(/\s+/);
  
  // 遍历每个单词
  words.forEach(word => {
    // 将单词转换为小写并去除非字母字符
    word = word.toLowerCase().replace(/[^a-zA-Z]/g, '');
    // 如果单词不为空
    if (word) {
      // 更新单词在 Map 中的出现次数
      wordCountMap.set(word, (wordCountMap.get(word) || 0) + 1);
    }
  });
  
  // 返回包含单词及其出现次数的 Map 对象
  return wordCountMap;
}

③ Shuffle和Sort阶段:合并结果并按频率排序

该函数接收一个包含多个块的单词统计结果的数组mappedResults,将这些结果合并计算每个单词在所有块中的总出现次数,然后按照单词出现频率降序排序,并返回排序后的数组。

js 复制代码
// Shuffle和Sort阶段:按单词分组并按频率排序
function shuffleAndSort(mappedResults) {
  // 创建一个 Map 对象用于存储所有单词及其总出现次数
  const allCounts = new Map();
  // 遍历每个块的统计结果
  mappedResults.forEach(mapResult => {
    // 遍历当前块的单词统计结果
    mapResult.forEach((count, word) => {
      // 更新单词的总出现次数
      allCounts.set(word, (allCounts.get(word) || 0) + count);
    });
  });

  // 将所有单词及其总出现次数转换为数组,并按照出现频率降序排序
  return Array.from(allCounts.entries()).sort((entry1, entry2) => entry2[1] - entry1[1]);
}

④ Reduce阶段:合并每个单词的计数

Reduce阶段通常用于处理每个单词的最终聚合。但这里reduce阶段只是直接返回已经排序的结果,因为前面shuffleAndSort阶段已经对单词进行了按照频率排序的处理,因此在reduce阶段没有进一步的聚合操作需要执行,所以直接返回已经排序好的结果即可。

js 复制代码
// Reduce阶段:合并每个单词的计数(在这里已在Shuffle阶段完成)
function reduce(sortedWordCount) {
  return sortedWordCount;  // 直接返回排序后的结果
}

⑤ 将结果写入输出文件

js 复制代码
async function writeToFile(sortedWordCount, outputFile) {
  const outputData = sortedWordCount.map(([word, count]) => `${word}: ${count}`).join('\n');
  await fs.promises.writeFile(outputFile, outputData, 'utf-8');
  console.log('单词计数已写入', outputFile);
}

⑥ 综合以上函数,main函数如下:

首先从输入文件中读取数据并将其分割成多个块,然后并行处理每个数据块,在Map阶段统计单词出现次数,接着在Shuffle和Sort阶段将结果合并并按照频率排序,最后在Reduce阶段对单词计数进行最终聚合,最终将处理结果写入输出文件。整个处理过程会计时,并在出现错误时捕获并打印错误信息。

js 复制代码
// 输入和输出文件路径
const inputFile = './A.txt';
const outputFile = './Sta_A.txt';

async function main() {
  try {
    // 开始总计时器
    console.time("Execution Time");  

    // 读取并将输入数据分割成多个块
    const chunks = await readChunks(inputFile);
    // Map阶段:并行处理每个数据块
    const mappedResults = await mapChunks(chunks);
    // Shuffle和Sort阶段:合并结果并按频率排序
    const shuffledAndSorted = shuffleAndSort(mappedResults);
    // Reduce阶段:聚合每个单词的计数
    const reducedResults = reduce(shuffledAndSorted);
    // 将最终结果写入文件
    await writeToFile(reducedResults, outputFile);
    // 结束总计时器
    console.timeEnd("Execution Time");  

  } catch (err) {
    console.error("error:", err);
  }
}

(3)代码运行结果

① 20KB大小的文件

其中词频最高的前5个单词分别为"the","of","and","to","a"。其较为符合常规文章中的词频出现规律,因此可以大致认为该结果正确。

② 1.5GB大小的文件

(4)代码优化

优化IO操作,通过异步stream写入来减少内存占用:

优化后运行时间:

优化后的程序时间为1.120s,比优化前快了0.085s

(5)分析程序运行慢的原因

① I/O操作瓶颈:读写文件的速度通常比处理内存中的数据要慢得多。即使是异步I/O操作,依然会受到磁盘速度的限制,尤其是在处理大文件时。逐行读取虽然能有效减少内存占用,但由于每次读取都需要文件系统响应,文件的读取速度可能跟不上处理速度。

② 数据处理效率低下:正则表达式虽然强大,但在处理大量文本时会变得比较慢,尤其是频繁调用replace()方法对每个单词进行清理。

③ JavaScript的单线程特性:JavaScript本身是单线程的,即使使用异步操作,所有计算仍然在同一个线程中进行。如果数据块处理非常耗时,整个程序的执行会被阻塞在CPU密集型任务上。

(6)分析MapReduce的实现困难

① 数据划分和分布问题:数据的大小、内容和分布模式可能导致划分后的任务负载不均,特别是处理的数据量极大时,可能会导致某些节点过载,影响整体性能。在实际的MapReduce框架中,任务调度会根据数据块的位置分配节点,但如果数据高度集中或存在热点数据,可能会导致处理瓶颈。

② Shuffle和Sort阶段的性能瓶颈:Shuffle阶段需要将Map结果进行全局合并,这个过程通常需要大量的内存和CPU资源。在处理非常大的数据集时可能会导致内存压力。

实验结论

  1. MapReduce的两个阶段,Map阶段用于分割任务并生成键值对,Reduce阶段对这些键值对进行合并处理,展现了大规模数据处理的简洁性和高效性。
  2. MapReduce框架可以将任务并行处理,提高计算效率,特别适合处理数据量大、计算密集的任务。
  3. MapReduce有广泛的应用场景,如对大量日志数据进行分析、提取关键信息;
    用于分布式机器学习算法的实现,加速模型训练过程;实现图算法的并行化处理;并行化处理搜索引擎的索引构建、查询处理,提高搜索效率等。
  4. MapReduce模型的编程接口相对简单,开发人员只需关注map和reduce两个阶段的逻辑实现,不需要过多考虑并行化、分布式系统等细节。但实际应用中需要处理数据的转换、组合等操作,可能需要编写复杂的代码逻辑。

心得体会

  1. 通过理论学习,我理解了MapReduce框架在分布式计算中的重要性,并通过编程实现体会到了其设计的优雅与简洁。
  2. 本实验让我感受到大数据处理不仅需要高效的算法设计,还需要综合考虑内存、CPU、IO等资源的利用。

实验代码

js 复制代码
const fs = require('fs');
const readline = require('readline');

// 输入和输出文件路径
const inputFile = './A.txt';
const outputFile = './Sta_A.txt';

async function main() {
  try {
    // 开始总计时器
    console.time("Execution Time");  

    // 读取并将输入数据分割成多个块
    const chunks = await readChunks(inputFile);
    // Map阶段:并行处理每个数据块
    const mappedResults = await mapChunks(chunks);
    // Shuffle和Sort阶段:合并结果并按频率排序
    const shuffledAndSorted = shuffleAndSort(mappedResults);
    // Reduce阶段:聚合每个单词的计数
    const reducedResults = reduce(shuffledAndSorted);
    // 将最终结果写入文件
    await writeToFile(reducedResults, outputFile);
    // 结束总计时器
    console.timeEnd("Execution Time");  

  } catch (err) {
    console.error("error:", err);
  }
}

// 读取输入文件并将其分割成多个块
async function readChunks(inputFile) {
  // 每个块的大小
  const chunkSize = 1000; 
  // 从文件中读取数据
  const fileStream = fs.createReadStream(inputFile, 'utf-8');
  // 创建逐行读取接口
  const rl = readline.createInterface({
    input: fileStream,
    crlfDelay: Infinity
  });
  // chunks用于存储分割后的块
  const chunks = [];
  // 当前块的内容
  let currentChunk = '';
  // 逐行读取文件内容
  for await (const line of rl) {
    // 将每行内容添加到当前块
    currentChunk += line + '\n';
    // 如果当前块大小达到指定大小,将当前块添加到chunks中并重置currentChunk
    if (currentChunk.length >= chunkSize) {
      chunks.push(currentChunk);
      currentChunk = '';
    }
  }
  // 如果还有剩余的内容,将其作为最后一个块添加到chunks中
  if (currentChunk) {
    chunks.push(currentChunk);
  }
  // 返回分割后的块数组
  return chunks;
}

// 优化后的写入函数 - 一次性写入所有数据
async function writeToFile(sortedWordCount, outputFile) {
  const outputData = sortedWordCount.map(([word, count]) => `${word}: ${count}`).join('\n');
  await fs.promises.writeFile(outputFile, outputData, 'utf-8');
  console.log('单词计数已写入', outputFile);
}

// Map阶段:处理每个数据块并返回一个包含键值对的列表
async function mapChunks(chunks) {
  const mappedResults = await Promise.all(chunks.map(chunk => map(chunk)));  
  return mappedResults;
}

// 模拟Map函数,用于统计每个块中单词出现的次数
function map(chunk) {
  // 创建一个 Map 对象用于存储单词及其出现次数
  const wordCountMap = new Map();
  // 将块内容按空格分割成单词数组
  const words = chunk.split(/\s+/);
  
  // 遍历每个单词
  words.forEach(word => {
    // 将单词转换为小写并去除非字母字符
    word = word.toLowerCase().replace(/[^a-zA-Z]/g, '');
    // 如果单词不为空
    if (word) {
      // 更新单词在 Map 中的出现次数
      wordCountMap.set(word, (wordCountMap.get(word) || 0) + 1);
    }
  });
  
  // 返回包含单词及其出现次数的 Map 对象
  return wordCountMap;
}

// Shuffle和Sort阶段:按单词分组并按频率排序
function shuffleAndSort(mappedResults) {
  // 创建一个 Map 对象用于存储所有单词及其总出现次数
  const allCounts = new Map();
  // 遍历每个块的统计结果
  mappedResults.forEach(mapResult => {
    // 遍历当前块的单词统计结果
    mapResult.forEach((count, word) => {
      // 更新单词的总出现次数
      allCounts.set(word, (allCounts.get(word) || 0) + count);
    });
  });

  // 将所有单词及其总出现次数转换为数组,并按照出现频率降序排序
  return Array.from(allCounts.entries()).sort((entry1, entry2) => entry2[1] - entry1[1]);
}

// Reduce阶段:合并每个单词的计数(在这里已在Shuffle阶段完成)
function reduce(sortedWordCount) {
  return sortedWordCount;  // 直接返回排序后的结果
}

// 将最终的单词计数写入输出文件
async function writeToFile(sortedWordCount, outputFile) {
  // const outputData = sortedWordCount.map(([word, count]) => `${word}: ${count}`).join('\n');
  // await fs.promises.writeFile(outputFile, outputData, 'utf-8');
  const writeStream = fs.createWriteStream(outputFile, { encoding: 'utf-8' });
  for (const [word, count] of sortedWordCount) {
    writeStream.write(`${word}: ${count}\n`);
  }
  writeStream.end();
  console.log('written to', outputFile);
}

// 运行主函数
main();
相关推荐
微臣愚钝4 分钟前
前端【8】HTML+CSS+javascript实战项目----实现一个简单的待办事项列表 (To-Do List)
前端·javascript·css·html
傻小胖1 小时前
shallowRef和shallowReactive的用法以及使用场景和ref和reactive的区别
javascript·vue.js·ecmascript
YoloMari2 小时前
组件中的emit
前端·javascript·vue.js·微信小程序·uni-app
CaptainDrake2 小时前
力扣 Hot 100 题解 (js版)更新ing
javascript·算法·leetcode
追光少年33224 小时前
Learning Vue 读书笔记 Chapter 2
前端·javascript·vue.js·vue3
前端熊猫4 小时前
JavaScript 的 Promise 对象和 Promise.all 方法的使用
开发语言·前端·javascript
傻小胖5 小时前
vue3中自定一个组件并且能够用v-model对自定义组件进行数据的双向绑定
前端·javascript·vue.js
我想学LINUX5 小时前
【2024年华为OD机试】 (C卷,200分)- 机器人走迷宫(JavaScript&Java & Python&C/C++)
java·c语言·javascript·python·华为od·机器人
觉醒法师5 小时前
JS通过ASCII码值实现随机字符串的生成(可指定长度以及解决首位不出现数值)
开发语言·前端·javascript·typescript
fengfeng N6 小时前
Vue3在img标签中绑定数据模型中的url图片无法显示问题
开发语言·前端·javascript