1.数据分批处理
-
原理:当处理大规模数据时,一次性将所有数据加载到内存中可能会导致内存溢出。将数据分成较小的批次进行处理可以有效避免这个问题。
-
示例代码 :假设通过淘宝 API 获取到了一个包含大量商品详情的 JSON 数据列表,每个元素代表一个商品的信息。可以使用如下代码进行分批处理:
import json # 假设这是从淘宝API获取的大规模数据(模拟数据) api_data_str = '[{"product_id": "1", "name": "商品1",...}, {"product_id": "2", "name": "商品2",...},...]' api_data_list = json.loads(api_data_str) batch_size = 100 for i in range(0, len(api_data_list), batch_size): batch = api_data_list[i:i + batch_size] # 在这里对每一批数据进行处理,比如打印商品名称 for product in batch: print(product.get("name"))
2.使用多线程或多进程
-
原理:多线程或多进程可以充分利用计算机的多核处理器,同时处理多个数据块,从而加快数据处理速度。多线程适用于 I/O 密集型任务(如网络请求、文件读取等),多进程适用于 CPU 密集型任务。
-
示例代码 - 多线程 :
import json import threading api_data_str = '[{"product_id": "1", "name": "商品1",...}, {"product_id": "2", "name": "商品2",...},...]' api_data_list = json.loads(api_data_str) lock = threading.Lock() def process_batch(batch): # 在这里对每一批数据进行处理,加锁是为了避免多个线程同时访问共享资源产生冲突 with lock: for product in batch: print(product.get("name")) num_threads = 4 batch_size = len(api_data_list) // num_threads threads = [] for i in range(0, len(api_data_list), batch_size): batch = api_data_list[i:i + batch_size] thread = threading.Thread(target=process_batch, args=(batch,)) thread.start() threads.append(thread) for thread in threads: thread.join()
示例代码 - 多进程(需要注意进程间通信和资源共享的复杂性):
import json import multiprocessing api_data_str = '[{"product_id": "1", "name": "商品1",...}, {"product_id": "2", "name": "商品2",...},...]' api_data_list = json.loads(api_data_str) def process_batch(batch): for product in batch: print(product.get("name")) num_processes = 4 batch_size = len(api_data_list) // num_processes processes = [] for i in range(0, len(api_data_list), batch_size): batch = api_data_list[i:i + batch_size] process = multiprocessing.Process(target=process_batch, args=(batch,)) process.start() processes.append(process) for process in processes: process.join()
3.使用数据库存储中间结果
-
原理:如果在处理数据过程中需要保存中间结果,或者需要对数据进行复杂的查询和筛选,将数据存储到数据库中是一个很好的选择。可以使用关系型数据库(如 MySQL、PostgreSQL)或非关系型数据库(如 MongoDB)。
-
示例代码 - 使用 MongoDB 存储数据(需要安装 pymongo 库) :
import json import pymongo api_data_str = '[{"product_id": "1", "name": "商品1",...}, {"product_id": "2", "name": "商品2",...},...]' api_data_list = json.loads(api_data_str) client = pymongo.MongoClient("mongodb://localhost:27017/") db = client["taobao_data"] collection = db["products"] collection.insert_many(api_data_list) # 从数据库中读取数据进行后续处理,例如查询价格大于某个值的商品 query_result = collection.find({"price": {"$gt": 100}}) for product in query_result: print(product.get("name"))
4.数据过滤和预处理
-
原理:在处理大规模数据之前,先对数据进行过滤和预处理,只保留需要的信息,可以减少数据量,提高处理效率。例如,如果只关心商品的价格和销量信息,可以在解析数据时只提取这两个字段。
-
示例代码 :
import json api_data_str = '[{"product_id": "1", "name": "商品1", "price": 10, "sales": 100}, {"product_id": "2", "name": "商品2", "price": 20, "sales": 200}]' api_data_list = json.loads(api_data_str) filtered_data = [] for product in api_data_list: filtered_product = {"price": product.get("price"), "sales": product.get("sales")} filtered_data.append(filtered_product) # 对过滤后的数据集进行处理 for product in filtered_data: print(product.get("price"), product.get("sales"))