Hadoop的streamingAPI与MapReduce[Python]

文章目录

  • 1.创建模拟文本
  • [2. 使用mapperduce统计标签分布和抽取指定标签](#2. 使用mapperduce统计标签分布和抽取指定标签)
  • [3. 运行Map函数并排序结果以模拟Reduce任务:](#3. 运行Map函数并排序结果以模拟Reduce任务:)
  • 4.运行在无网络开发机上

1.创建模拟文本

1.1 机器模拟生成

python 复制代码
from collections import namedtuple
from faker import Faker

# 初始化Faker
fake = Faker()

# 定义一个namedtuple类型,包含id, subject, text字段
GaokaoQuestion = namedtuple('GaokaoQuestion', 'id subject text')

# 定义生成模拟数据的函数
def generate_faker_data(num_samples):
    data = []
    for _ in range(num_samples):
        # 使用faker生成数据
        subject = fake.word()
        text = fake.sentence()
        
        # 使用md5生成id
        id_value = f"{text} {subject}"
        id_hash = hashlib.md5(id_value.encode('utf-8')).hexdigest()
        
        # 创建namedtuple实例
        question = GaokaoQuestion(id=id_hash, subject=subject, text=text)
        data.append(question)
    return data

# 生成3条模拟数据
samples = generate_faker_data(3)

# 打印生成的数据
for sample in samples:
    print(sample)

2.手动生成

shell 复制代码
cat > test_data.jsonl << EOF
{"id":"1", "subject":"Math", "text":"Math question"}
{"id":"2", "subject":"Science", "text":"Science question"}
{"id":"3", "subject":"Math", "text":"Another Math question"}
EOF

2. 使用mapperduce统计标签分布和抽取指定标签

python 复制代码
#!/usr/bin/env python3
import sys
import json
from collections import defaultdict

# 指定需要抽取的subject标签列表
TARGET_SUBJECTS = ["数学", "物理"]

def mapper():
    for line in sys.stdin:
        data = json.loads(line)
        if data['subject'] in TARGET_SUBJECTS:
            print(json.dumps(data))


def reducer():
    counts = defaultdict(int)
    for line in sys.stdin:
        subject, count = line.strip().split('\t')
        counts[subject] += int(count)
    for subject, count in counts.items():
        print(f"{subject}\t{count}")

if __name__ == "__main__":
    if len(sys.argv) > 1 and sys.argv[1] == 'reduce':
        reducer()
    else:
        mapper()

3. 运行Map函数并排序结果以模拟Reduce任务:

python 复制代码
cat test_data.jsonl | python3 mapper_reducer.py | sort -k1,1 | python3 mapper_reducer.py reduce

4.运行在无网络开发机上

Shell 复制代码
# 假设input_data.jsonl是HDFS上的输入文件路径
# 假设output是HDFS上输出结果的路径

# 运行Map任务
hadoop fs -get /path/to/input_data.jsonl input_data.jsonl
python \Auser\tmp\mapper_reducer_script\mapper_reducer.py | sort -k1,1 > mapped_output.txt

# 运行Reduce任务
python \Auser\tmp\mapper_reducer_script\mapper_reducer.py reduce < mapped_output.txt > reduced_output.txt

# 将结果上传到HDFS
hadoop fs -put reduced_output.txt /path/to/output/
相关推荐
冷雨夜中漫步8 小时前
Python快速入门(6)——for/if/while语句
开发语言·经验分享·笔记·python
郝学胜-神的一滴9 小时前
深入解析Python字典的继承关系:从abc模块看设计之美
网络·数据结构·python·程序人生
百锦再9 小时前
Reactive编程入门:Project Reactor 深度指南
前端·javascript·python·react.js·django·前端框架·reactjs
喵手10 小时前
Python爬虫实战:旅游数据采集实战 - 携程&去哪儿酒店机票价格监控完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集结果csv导出·旅游数据采集·携程/去哪儿酒店机票价格监控
2501_9449347310 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
helloworldandy10 小时前
使用Pandas进行数据分析:从数据清洗到可视化
jvm·数据库·python
肖永威12 小时前
macOS环境安装/卸载python实践笔记
笔记·python·macos
TechWJ12 小时前
PyPTO编程范式深度解读:让NPU开发像写Python一样简单
开发语言·python·cann·pypto
枷锁—sha12 小时前
【SRC】SQL注入WAF 绕过应对策略(二)
网络·数据库·python·sql·安全·网络安全
abluckyboy13 小时前
Java 实现求 n 的 n^n 次方的最后一位数字
java·python·算法