Django实现下载100G的超大CSV文件

关注我的公众号「DevOps724」,获取最新的内容分享,带你探索DevOps的无限可能!分享最新的行业趋势、深入的技术分析和实用的工具,帮助你掌握自动化、云计算、持续集成和部署等核心概念。

在处理大数据集的时候,我们经常遇到的一个问题是内存使用。当我们试图生成一个大型文件,如 CSV,并尝试将其全部加载到内存中时,可能会遇到内存不足的问题。幸运的是,Django 提供了一个解决方案:流传输。本文将详细的讲述如何利用 Django 进行大型 CSV 文件的流传输。

流传输的基础概念

流传输是一种技术,允许你一次发送一小部分响应,而不是一次性加载整个响应到内存中。这种技术对于服务大文件,如图像,音频和大型数据集非常有用。

创建 Django StreamingHttpResponse 对象

StreamingHttpResponse 对象允许我们将响应内容按部分,或者说"流"的形式发送给客户端。试看以下代码:

python 复制代码
from django.http import StreamingHttpResponse

def big_file_download(request):
    def file_iterator(file_name, chunk_size=512):
        with open(file_name, "rb") as f:
            while True:
                c = f.read(chunk_size)
                if c:
                    yield c
                else:
                    break
    response = StreamingHttpResponse(file_iterator('big_file.csv'))
    return response

在这里,我们首先创建一个生成器函数 file_iterator,它以 chunk_size 为单位读取文件,然后用这个生成器函数作为 StreamingHttpResponse 的参数,从而创建出一个可以流传输的响应对象。

实现 Django 流传输大型 CSV 文件

现在,我们知道了如何创建 StreamingHttpResponse 对象,接着看一下如何用它来流传输大型 CSV 文件:

python 复制代码
import csv
from django.http import StreamingHttpResponse
from .models import Person

class Echo:
    def write(self, value):
        return value

def streaming_csv_view(request):
    persons = Person.objects.all().values_list('name', 'age', 'city')
    pseudo_buffer = Echo()
    writer = csv.writer(pseudo_buffer)
    
    response = StreamingHttpResponse((writer.writerow(person) for person in persons),
                                     content_type="text/csv")
    response['Content-Disposition'] = 'attachment; filename="persons.csv"'
    return response

在上述代码中,我们创建了一个 Echo 类,并将其实例 pseudo_buffer 作为 csv.writer 的参数。这样,我们可以以迭代的方式写入 CSV 行,而不必把它们全部加载到内存中。之后,我们把这个 writerow 方法的迭代器作为 StreamingHttpResponse 的参数。注意,我们此时仍需要设置正确的 MIME 类型和 Content-Disposition 头部。

总结

这就是如何使用 Django 的 StreamingHttpResponse 对象来流传输大型 CSV 文件。完成这个特性后,你应该能够更高效地处理大数据集,且大大降低了内存使用。希望这篇文章对你的开发工作有所帮助。

相关推荐
bjxiaxueliang22 分钟前
一文掌握SpringBoot:HTTP服务开发从入门到部署
spring boot·后端·http
野犬寒鸦13 小时前
从零起步学习并发编程 || 第一章:初步认识进程与线程
java·服务器·后端·学习
我爱娃哈哈13 小时前
SpringBoot + Flowable + 自定义节点:可视化工作流引擎,支持请假、报销、审批全场景
java·spring boot·后端
李梨同学丶15 小时前
0201好虫子周刊
后端
思想在飞肢体在追15 小时前
Springboot项目配置Nacos
java·spring boot·后端·nacos
Loo国昌18 小时前
【垂类模型数据工程】第四阶段:高性能 Embedding 实战:从双编码器架构到 InfoNCE 损失函数详解
人工智能·后端·深度学习·自然语言处理·架构·transformer·embedding
ONE_PUNCH_Ge19 小时前
Go 语言泛型
开发语言·后端·golang
良许Linux19 小时前
DSP的选型和应用
后端·stm32·单片机·程序员·嵌入式
不光头强19 小时前
spring boot项目欢迎页设置方式
java·spring boot·后端
怪兽毕设19 小时前
基于SpringBoot的选课调查系统
java·vue.js·spring boot·后端·node.js·选课调查系统