MIT6.824 Lecture 1-Introduction

鼠鼠我(‘-ωก̀ )好困2025-02-08 19:56

balance：性能和容错

Faulty tolerance：

Availablity、Recoverability、NV storage（非易失性存储，比较贵）、Replication（多个数据副本）

consistency：

Put（key， value）

Get（key）->value

这两种操作组成了一个比较简单的存储系统

在分布式系统中数据可能有多个副本，当用户Put更新其中一个表，然后这个用户退出了，之前在申请的时候就有可能会碰上没有同步过的老数据。有strong一致性系统（更贵的通讯）也有weak一致性系统。假如使用异地容错的话，通信的代价会很高

MapReduce

目的：MapReduce是一个框架。computations on giant data on thousands of computers->让非专业人士撰写和运行巨型分布式计算

MapReduce在input上面运行Map函数，将文件作为input，key-value pairs作为输出

比如说生成（a, 1）,(a, 1), (b ,1), (b ,1), (c, 1)，然后接下来收集key=1对应的实例a传给一个Reduce函数，收集key=1对应的实例b传给一个Reduce函数......然后Reduce函数不需要做什么，只需要对于传给它的项目的数量进行统计，甚至不需要看传过来的是什么项目。然后Reduce函数会输出（value， value_count）。MapReduce的每一次调用都称为任务。

复制代码

Map(k, v):切割，k是文件名，v是Maps input file content，比如说单词计数的时候就是把v分割成单词
Map(k, v)
	split v into words
	for each word w
		emit(W, "1")


Reduce(k, v):k是该Reduce函数负责的key的值，比如说k是words，v全是1
Reduce(k, v)
	emit(len(v))
比如说我们v是1，这个时候就会emit出v=1的对应的数字的个数，如v=1对应a/b/c，此时emit出来是3