【Python机器学习】Hadoop流

Hadoop是一个开源的Java项目,为运行MapReduce作业提供了大量所需的功能。除了分布时计算之外,Hadoop自带分布式文件系统。

Hadoop可以运行Java之外的其他语言编写的分布式程序。Hadoop流很像Linux系统重的管道(管道使用符号 | ,可以将一个命令的输入作为另一个命令的输出)。如果用mapper.py调用mapper,用reducer.py调用reducer,那么Hadoop流就可以想Linux命令一样执行,例如

复制代码
cat inputFile.txt | python3 mapper.py | sort | python3 reducer.py > outputFile.txt

这样,类似的Hadoop流就可以在多台机器上分布式执行,用户可以通过Linux命令来测试python语言编写的MapReduce脚本。

分布式计算均值和方差的mapper

下面是一个在海量数据上构建的分布式计算均值和方差的MapReduce作业:

python 复制代码
import sys
from numpy import mat,mean,power

def read_input(file):
    for line in file:
        yield line.strip()

input = read_input(sys.stdin)
input=[float(line) for line in input]
numInputs=len(input)
input=mat(input)
sqInput=power(input,2)
print('%d\t%f\%f' % (numInputs,mean(input),mean(sqInput)))
print >> sys.stderr,'report: still alive'

Linux下的调用命令:

python 复制代码
cat inputFile.txt | python3 map.py

Windows系统下调用命令,在DOS窗口:

python 复制代码
python3 map.py < inputFile.txt

分布式计算均值和方差的reducer

mapper接受原始的输入并产生中间值传递给reducer。很多mapper是并行执行的,所以需要将这些mapper的输出合并成一个值。接下来是reducer的代码:将中间的key/value对进行组合:

python 复制代码
import sys
from numpy import mat,mean,power

def read_input(file):
    for line in file:
        yield line.strip()

input=read_input(sys.stdin)
mapperOut=[line.split('\t') for line in input]
cumVal=0.0
cumSumSq=0.0
cumN=0.0
for instance in mapperOut:
    nj=float(instance[0])
    cumN=cumN+nj
    cumVal=cumVal+float(instance[1])
    cumSumSq=cumSumSq+float(instance[2])
mean=cumVal/cumN
varSum=(cumSumSq-2*mean*cumVal+cumN*mean*mean)/cumN
print('%d\t%f\t%f' % (cumN,mean,varSum))
print >> sys.stderr,'report: still alive'

Linux下的调用命令:

python 复制代码
%cat inputFile.txt | python3 map.py | python3 reduce.py

Windows系统下调用命令,在DOS窗口:

python 复制代码
%python3 map.py < inputFile.txt | python3 reduce.py
相关推荐
jkyy20142 分钟前
顺应IoT与健康产业融合趋势,补齐中小企业健康数字化短板
大数据·人工智能·信息可视化·健康医疗
带带弟弟学爬虫__5 分钟前
dyAPP数据采集-个人主页、发布、搜索、评论
服务器·python·算法·flutter·java-ee·django
云栖梦泽在7 分钟前
AI安全实战:AI模型投毒攻击的检测与修复实战
大数据·人工智能·安全
还是鼠鼠8 分钟前
AI掘金头条新闻系统 (Toutiao News)-相关推荐
后端·python·mysql·fastapi·web
随身数智备忘录16 分钟前
安全生产法详解:安全生产法如何规范企业安全管理行为?
大数据·人工智能
数智工坊20 分钟前
PyCharm 运行 Python 脚本总自动进 Test 模式?附 RT-DETRv2 依赖缺失终极排坑
开发语言·ide·人工智能·python·pycharm
狒狒热知识22 分钟前
软文营销媒体发稿效果倍增逻辑内容渠道平台三维协同运营解析
大数据
程序猿追27 分钟前
行业新趋势:Agent 重构,企业大屏从静态展示走向智能交互
大数据·人工智能·microsoft
AI砖家32 分钟前
每日一个skill:web-artifacts-builder,构建复杂 Claude.ai HTML Artifact 的生产力工具包
java·前端·人工智能·python
彦为君38 分钟前
JavaSE-05-字符串(全面深入)
java·开发语言·python·ai·ai编程