MIT6.824 Lecture 1-Introduction

balance:性能和容错

Faulty tolerance:

Availablity、Recoverability、NV storage(非易失性存储,比较贵)、Replication(多个数据副本)

consistency:

Put(key, value)

Get(key)->value

这两种操作组成了一个比较简单的存储系统

在分布式系统中数据可能有多个副本,当用户Put更新其中一个表,然后这个用户退出了,之前在申请的时候就有可能会碰上没有同步过的老数据。有strong一致性系统(更贵的通讯)也有weak一致性系统。假如使用异地容错的话,通信的代价会很高

MapReduce

目的:MapReduce是一个框架。computations on giant data on thousands of computers->让非专业人士撰写和运行巨型分布式计算

MapReduce在input上面运行Map函数,将文件作为input,key-value pairs作为输出

比如说生成(a, 1),(a, 1), (b ,1), (b ,1), (c, 1),然后接下来收集key=1对应的实例a传给一个Reduce函数,收集key=1对应的实例b传给一个Reduce函数......然后Reduce函数不需要做什么,只需要对于传给它的项目的数量进行统计,甚至不需要看传过来的是什么项目。然后Reduce函数会输出(value, value_count)。MapReduce的每一次调用都称为任务。

复制代码
Map(k, v):切割,k是文件名,v是Maps input file content,比如说单词计数的时候就是把v分割成单词
Map(k, v)
	split v into words
	for each word w
		emit(W, "1")


Reduce(k, v):k是该Reduce函数负责的key的值,比如说k是words,v全是1
Reduce(k, v)
	emit(len(v))
比如说我们v是1,这个时候就会emit出v=1的对应的数字的个数,如v=1对应a/b/c,此时emit出来是3
相关推荐
郝学胜-神的一滴6 小时前
基于C++的词法分析器:使用正则表达式的实现
开发语言·c++·程序人生·正则表达式·stl
程序员曦曦7 小时前
10:00开始面试,10:06就出来了,问的问题有点变态。。。
自动化测试·软件测试·功能测试·程序人生·面试·职场和发展
小木话安全15 小时前
ISO27001 高阶架构 之 支持 -2
网络·安全·职场和发展·学习方法
山中月侣2 天前
java集合 之 多列集合
java·开发语言·经验分享·学习方法
晨非辰3 天前
#C语言——学习攻略:自定义类型路线--结构体--结构体类型,结构体变量的创建和初始化,结构体内存对齐,结构体传参,结构体实现位段
c语言·开发语言·经验分享·学习·其他·学习方法·visual studio
郝学胜-神的一滴3 天前
C++中的`auto`与`std::any`:功能、区别与选择建议
开发语言·c++·程序人生·算法
遗憾皆是温柔3 天前
19. 重载的方法能否根据返回值类型进行区分
java·开发语言·面试·学习方法
草莓熊Lotso4 天前
《吃透 C++ 类和对象(中):构造函数与析构函数的核心逻辑》
c++·经验分享·笔记·程序人生·其他
碎像4 天前
uni-app实战教程 从0到1开发 画图软件 (学会画图)
前端·javascript·css·程序人生·uni-app
晨非辰5 天前
#C语言——刷题攻略:牛客编程入门训练(六):运算(三)-- 涉及 辗转相除法求最大公约数
c语言·开发语言·经验分享·学习·学习方法·visual studio