深圳大学-智能网络与计算-实验四：云-边协同计算实验

实验目的与要求

了解MapReduce计算模型的原理
学会使用编程语言和工具实现MapReduce的Map和Reduce功能，并行实现特定任务的高效计算

方法，步骤

阅读经典论文，学习掌握MapReduce计算框架的基本原理
用JavaScript编程实现MapReduce功能

实验过程及内容

1. 阅读经典论文，学习掌握MapReduce计算框架的基本原理

（1）论文核心内容

① MapReduce定义与目的

·MapReduce是一个编程模型及其相关实现，用于处理和生成大型数据集。

·用户通过指定一个map函数（处理键值对以生成一系列中间键值对）和一个reduce函数（合并中间键值对以生成最终结果）来定义MapReduce任务。

② MapReduce运行环境与规模

·MapReduce在由大量普通机器组成的大型集群上运行，具有高度的可扩展性。

·典型的MapReduce计算能够处理数千台机器上的数TB数据。

③ MapReduce计算框架的容错性

·MapReduce库设计用于处理大量数据，使用数百或数千台机器，因此必须能够优雅地容忍机器故障。

·主节点（master）定期ping每个工作节点（worker），如果一段时间内未收到响应，则标记该工作节点为失败，并通知其他执行reduce任务的工作节点重新执行。

·MapReduce能够容忍大规模工作节点故障，例如在一个MapReduce操作中，运行中的集群进行网络维护导致部分节点故障，但任务仍能继续执行。

④ MapReduce计算框架的实现与优化

·MapReduce接口有多种实现方式，适用于不同的环境，如小型共享内存机器、大型NUMA多处理器、大型网络连接机器集合等。

·MapReduce通过局部性优化和负载均衡等技术来提高性能。

·用户可以提供特殊的分区函数来支持特定情况的数据分区需求。

⑤ MapReduce的广泛应用

·MapReduce编程模型在Google被成功用于多种不同目的。

·MapReduce易于使用，能够隐藏并行化、容错性、局部性优化和负载均衡等细节。

·大量问题可以很容易地表示为MapReduce计算，如生成Google生产Web搜索服务的数据、排序等。

（2）MapReduce计算框架的原理

MapReduce计算框架的原理基于两个主要函数：map和reduce。用户通过定义这两个函数来指定MapReduce任务。在Map阶段，输入数据被分割成小块，并独立地并行处理，每个小块由一个map函数处理，生成一系列中间键值对。在Shuffle和Sort阶段，中间键值对被分区并排序，以便相同的键的所有值都被发送到同一个reduce函数。在Reduce阶段，每个reduce函数并行地处理中间键值对的某个分区，并合并这些值以生成最终结果。整个过程中，MapReduce框架负责任务调度、容错性处理、性能优化等。

2. 用JavaScript编程实现MapReduce功能

（1）设计思路

根据以上MapReduce原理，借助JavaScript异步和并行的特性，将单词频率统计任务分解为多个独立的任务块，并对这些任务块并行处理。通过分阶段地处理数据（读取、Map、Shuffle、Sort、Reduce），程序能够高效地处理大规模的文本数据。尽管没有在真实分布式环境中运行，但能够模拟MapReduce处理大规模数据的过程。

（2）代码实现

① 读取输入文件并分割成多个块

设计一个函数，用于读取输入文件并将其按照固定大小分割成块。通过创建文件读取流和逐行读取接口，逐行读取文件内容并将每行内容逐次添加到当前块中，直至当前块大小达到设定阈值，然后将该块添加到一个数组中。最后，任何剩余的内容也会作为一个单独的块添加到数组中，并返回包含所有块的数组。

js 复制代码

// 读取输入文件并将其分割成多个块
async function readChunks(inputFile) {
  // 每个块的大小
  const chunkSize = 1000; 
  // 从文件中读取数据
  const fileStream = fs.createReadStream(inputFile, 'utf-8');
  // 创建逐行读取接口
  const rl = readline.createInterface({
    input: fileStream,
    crlfDelay: Infinity
  });
  // chunks用于存储分割后的块
  const chunks = [];
  // 当前块的内容
  let currentChunk = '';
  // 逐行读取文件内容
  for await (const line of rl) {
    // 将每行内容添加到当前块
    currentChunk += line + '\n';
    // 如果当前块大小达到指定大小，将当前块添加到chunks中并重置currentChunk
    if (currentChunk.length >= chunkSize) {
      chunks.push(currentChunk);
      currentChunk = '';
    }
  }
  // 如果还有剩余的内容，将其作为最后一个块添加到chunks中
  if (currentChunk) {
    chunks.push(currentChunk);
  }
  // 返回分割后的块数组
  return chunks;
}

② Map阶段：处理每个数据块并返回键值对

在Map阶段，mapChunks函数并行处理每个数据块，并将每个块的数据通过map函数转化为中间的键值对（单词和它们的出现次数）。使用Promise.all来并行处理每个块的映射操作，这种方式使得每个数据块都能独立地并行处理，提高了效率。

js 复制代码

// Map阶段：处理每个数据块并返回一个包含键值对的列表
async function mapChunks(chunks) {
  const mappedResults = await Promise.all(chunks.map(chunk => map(chunk)));  
  return mappedResults;
}

在map函数中，将输入的块内容按空格分割成单词数组words，然后遍历每个单词，将其转换为小写并去除非字母字符，然后更新该单词在wordCountMap 中的出现次数。map函数实现如下：

js 复制代码

// 模拟Map函数，用于统计每个块中单词出现的次数
function map(chunk) {
  // 创建一个 Map 对象用于存储单词及其出现次数
  const wordCountMap = new Map();
  // 将块内容按空格分割成单词数组
  const words = chunk.split(/\s+/);
  
  // 遍历每个单词
  words.forEach(word => {
    // 将单词转换为小写并去除非字母字符
    word = word.toLowerCase().replace(/[^a-zA-Z]/g, '');
    // 如果单词不为空
    if (word) {
      // 更新单词在 Map 中的出现次数
      wordCountMap.set(word, (wordCountMap.get(word) || 0) + 1);
    }
  });
  
  // 返回包含单词及其出现次数的 Map 对象
  return wordCountMap;
}

③ Shuffle和Sort阶段：合并结果并按频率排序

该函数接收一个包含多个块的单词统计结果的数组mappedResults，将这些结果合并计算每个单词在所有块中的总出现次数，然后按照单词出现频率降序排序，并返回排序后的数组。

js 复制代码

// Shuffle和Sort阶段：按单词分组并按频率排序
function shuffleAndSort(mappedResults) {
  // 创建一个 Map 对象用于存储所有单词及其总出现次数
  const allCounts = new Map();
  // 遍历每个块的统计结果
  mappedResults.forEach(mapResult => {
    // 遍历当前块的单词统计结果
    mapResult.forEach((count, word) => {
      // 更新单词的总出现次数
      allCounts.set(word, (allCounts.get(word) || 0) + count);
    });
  });

  // 将所有单词及其总出现次数转换为数组，并按照出现频率降序排序
  return Array.from(allCounts.entries()).sort((entry1, entry2) => entry2[1] - entry1[1]);
}

④ Reduce阶段：合并每个单词的计数

Reduce阶段通常用于处理每个单词的最终聚合。但这里reduce阶段只是直接返回已经排序的结果，因为前面shuffleAndSort阶段已经对单词进行了按照频率排序的处理，因此在reduce阶段没有进一步的聚合操作需要执行，所以直接返回已经排序好的结果即可。

js 复制代码

// Reduce阶段：合并每个单词的计数（在这里已在Shuffle阶段完成）
function reduce(sortedWordCount) {
  return sortedWordCount;  // 直接返回排序后的结果
}

⑤ 将结果写入输出文件

js 复制代码

async function writeToFile(sortedWordCount, outputFile) {
  const outputData = sortedWordCount.map(([word, count]) => `${word}: ${count}`).join('\n');
  await fs.promises.writeFile(outputFile, outputData, 'utf-8');
  console.log('单词计数已写入', outputFile);
}

⑥ 综合以上函数，main函数如下：

首先从输入文件中读取数据并将其分割成多个块，然后并行处理每个数据块，在Map阶段统计单词出现次数，接着在Shuffle和Sort阶段将结果合并并按照频率排序，最后在Reduce阶段对单词计数进行最终聚合，最终将处理结果写入输出文件。整个处理过程会计时，并在出现错误时捕获并打印错误信息。

js 复制代码

// 输入和输出文件路径
const inputFile = './A.txt';
const outputFile = './Sta_A.txt';

async function main() {
  try {
    // 开始总计时器
    console.time("Execution Time");  

    // 读取并将输入数据分割成多个块
    const chunks = await readChunks(inputFile);
    // Map阶段：并行处理每个数据块
    const mappedResults = await mapChunks(chunks);
    // Shuffle和Sort阶段：合并结果并按频率排序
    const shuffledAndSorted = shuffleAndSort(mappedResults);
    // Reduce阶段：聚合每个单词的计数
    const reducedResults = reduce(shuffledAndSorted);
    // 将最终结果写入文件
    await writeToFile(reducedResults, outputFile);
    // 结束总计时器
    console.timeEnd("Execution Time");  

  } catch (err) {
    console.error("error:", err);
  }
}

（3）代码运行结果

① 20KB大小的文件

其中词频最高的前5个单词分别为"the"，"of"，"and"，"to"，"a"。其较为符合常规文章中的词频出现规律，因此可以大致认为该结果正确。

② 1.5GB大小的文件

（4）代码优化

优化IO操作，通过异步stream写入来减少内存占用：

优化后运行时间：

优化后的程序时间为1.120s，比优化前快了0.085s

（5）分析程序运行慢的原因

① I/O操作瓶颈：读写文件的速度通常比处理内存中的数据要慢得多。即使是异步I/O操作，依然会受到磁盘速度的限制，尤其是在处理大文件时。逐行读取虽然能有效减少内存占用，但由于每次读取都需要文件系统响应，文件的读取速度可能跟不上处理速度。

② 数据处理效率低下：正则表达式虽然强大，但在处理大量文本时会变得比较慢，尤其是频繁调用replace()方法对每个单词进行清理。

③ JavaScript的单线程特性：JavaScript本身是单线程的，即使使用异步操作，所有计算仍然在同一个线程中进行。如果数据块处理非常耗时，整个程序的执行会被阻塞在CPU密集型任务上。

（6）分析MapReduce的实现困难

① 数据划分和分布问题：数据的大小、内容和分布模式可能导致划分后的任务负载不均，特别是处理的数据量极大时，可能会导致某些节点过载，影响整体性能。在实际的MapReduce框架中，任务调度会根据数据块的位置分配节点，但如果数据高度集中或存在热点数据，可能会导致处理瓶颈。

② Shuffle和Sort阶段的性能瓶颈：Shuffle阶段需要将Map结果进行全局合并，这个过程通常需要大量的内存和CPU资源。在处理非常大的数据集时可能会导致内存压力。

实验结论

MapReduce的两个阶段，Map阶段用于分割任务并生成键值对，Reduce阶段对这些键值对进行合并处理，展现了大规模数据处理的简洁性和高效性。
MapReduce框架可以将任务并行处理，提高计算效率，特别适合处理数据量大、计算密集的任务。
MapReduce有广泛的应用场景，如对大量日志数据进行分析、提取关键信息；
用于分布式机器学习算法的实现，加速模型训练过程；实现图算法的并行化处理；并行化处理搜索引擎的索引构建、查询处理，提高搜索效率等。
MapReduce模型的编程接口相对简单，开发人员只需关注map和reduce两个阶段的逻辑实现，不需要过多考虑并行化、分布式系统等细节。但实际应用中需要处理数据的转换、组合等操作，可能需要编写复杂的代码逻辑。

心得体会

通过理论学习，我理解了MapReduce框架在分布式计算中的重要性，并通过编程实现体会到了其设计的优雅与简洁。
本实验让我感受到大数据处理不仅需要高效的算法设计，还需要综合考虑内存、CPU、IO等资源的利用。

实验代码

js 复制代码

const fs = require('fs');
const readline = require('readline');

// 输入和输出文件路径
const inputFile = './A.txt';
const outputFile = './Sta_A.txt';

async function main() {
  try {
    // 开始总计时器
    console.time("Execution Time");  

    // 读取并将输入数据分割成多个块
    const chunks = await readChunks(inputFile);
    // Map阶段：并行处理每个数据块
    const mappedResults = await mapChunks(chunks);
    // Shuffle和Sort阶段：合并结果并按频率排序
    const shuffledAndSorted = shuffleAndSort(mappedResults);
    // Reduce阶段：聚合每个单词的计数
    const reducedResults = reduce(shuffledAndSorted);
    // 将最终结果写入文件
    await writeToFile(reducedResults, outputFile);
    // 结束总计时器
    console.timeEnd("Execution Time");  

  } catch (err) {
    console.error("error:", err);
  }
}

// 读取输入文件并将其分割成多个块
async function readChunks(inputFile) {
  // 每个块的大小
  const chunkSize = 1000; 
  // 从文件中读取数据
  const fileStream = fs.createReadStream(inputFile, 'utf-8');
  // 创建逐行读取接口
  const rl = readline.createInterface({
    input: fileStream,
    crlfDelay: Infinity
  });
  // chunks用于存储分割后的块
  const chunks = [];
  // 当前块的内容
  let currentChunk = '';
  // 逐行读取文件内容
  for await (const line of rl) {
    // 将每行内容添加到当前块
    currentChunk += line + '\n';
    // 如果当前块大小达到指定大小，将当前块添加到chunks中并重置currentChunk
    if (currentChunk.length >= chunkSize) {
      chunks.push(currentChunk);
      currentChunk = '';
    }
  }
  // 如果还有剩余的内容，将其作为最后一个块添加到chunks中
  if (currentChunk) {
    chunks.push(currentChunk);
  }
  // 返回分割后的块数组
  return chunks;
}

// 优化后的写入函数 - 一次性写入所有数据
async function writeToFile(sortedWordCount, outputFile) {
  const outputData = sortedWordCount.map(([word, count]) => `${word}: ${count}`).join('\n');
  await fs.promises.writeFile(outputFile, outputData, 'utf-8');
  console.log('单词计数已写入', outputFile);
}

// Map阶段：处理每个数据块并返回一个包含键值对的列表
async function mapChunks(chunks) {
  const mappedResults = await Promise.all(chunks.map(chunk => map(chunk)));  
  return mappedResults;
}

// 模拟Map函数，用于统计每个块中单词出现的次数
function map(chunk) {
  // 创建一个 Map 对象用于存储单词及其出现次数
  const wordCountMap = new Map();
  // 将块内容按空格分割成单词数组
  const words = chunk.split(/\s+/);
  
  // 遍历每个单词
  words.forEach(word => {
    // 将单词转换为小写并去除非字母字符
    word = word.toLowerCase().replace(/[^a-zA-Z]/g, '');
    // 如果单词不为空
    if (word) {
      // 更新单词在 Map 中的出现次数
      wordCountMap.set(word, (wordCountMap.get(word) || 0) + 1);
    }
  });
  
  // 返回包含单词及其出现次数的 Map 对象
  return wordCountMap;
}

// Shuffle和Sort阶段：按单词分组并按频率排序
function shuffleAndSort(mappedResults) {
  // 创建一个 Map 对象用于存储所有单词及其总出现次数
  const allCounts = new Map();
  // 遍历每个块的统计结果
  mappedResults.forEach(mapResult => {
    // 遍历当前块的单词统计结果
    mapResult.forEach((count, word) => {
      // 更新单词的总出现次数
      allCounts.set(word, (allCounts.get(word) || 0) + count);
    });
  });

  // 将所有单词及其总出现次数转换为数组，并按照出现频率降序排序
  return Array.from(allCounts.entries()).sort((entry1, entry2) => entry2[1] - entry1[1]);
}

// Reduce阶段：合并每个单词的计数（在这里已在Shuffle阶段完成）
function reduce(sortedWordCount) {
  return sortedWordCount;  // 直接返回排序后的结果
}

// 将最终的单词计数写入输出文件
async function writeToFile(sortedWordCount, outputFile) {
  // const outputData = sortedWordCount.map(([word, count]) => `${word}: ${count}`).join('\n');
  // await fs.promises.writeFile(outputFile, outputData, 'utf-8');
  const writeStream = fs.createWriteStream(outputFile, { encoding: 'utf-8' });
  for (const [word, count] of sortedWordCount) {
    writeStream.write(`${word}: ${count}\n`);
  }
  writeStream.end();
  console.log('written to', outputFile);
}

// 运行主函数
main();