python:一个代理流量监控的媒体文件下载脚本

前言

一个mitmproxy代理服务应用,作用是监听系统流量,并自动下载可能的video媒体文件到本地。

如果你没有安装mitmproxy或没有做完准备工作,请参考我的这篇文章:

python:mitmproxy代理服务搭建-CSDN博客

文件架构目录

源码

python 复制代码
import os
import time
import threading
import requests
from mitmproxy import http

SAME_DOWNLOADS = []

# 设置代理
proxies = {
    'http': 'http://127.0.0.1:9099',
    'https': 'http://127.0.0.1:9099'
}


def go_download(url, save_path):
    if url in SAME_DOWNLOADS:
        return
    SAME_DOWNLOADS.append(url)
    r = requests.get(url, proxies=proxies, verify=False)
    with open(save_path, 'wb') as f:
        f.write(r.content)
    print(save_path, 'saved')


# 定义资源类型分类函数
def classify_resource(flow: http.HTTPFlow):
    url = flow.request.url
    content_type = flow.response.headers.get('Content-Type', '')

    # 媒体资源
    if any(ext in url for ext in ['.mp4', '.avi', '.mov', '.mkv', '.mp3', '.wav']):
        extensions = ['.mp4', '.avi', '.mov', '.mkv', '.mp3', '.wav']
        for ext in extensions:
            if ext in url:
                filename = str(int(time.time()) * 1000) + ext
                print(filename, 'downloading')
                a = threading.Thread(target=go_download, args=(url, os.path.join('save/video', filename)))
                a.start()
                break

        return '媒体资源'
    elif 'video/' in content_type or 'audio/' in content_type:
        filename = str(int(time.time()) * 1000) + '.' + content_type.split('/')[-1]
        print(filename, 'downloading')
        a = threading.Thread(target=go_download, args=(url, os.path.join('save/video', filename)))
        a.start()
        return '媒体资源'

    # 图片资源
    if any(ext in url for ext in ['.jpg', '.jpeg', '.png', '.gif', '.bmp']):
        return '图片资源'
    elif 'image/' in content_type:
        return '图片资源'

    # 页面资源
    if 'text/html' in content_type:
        return '页面资源'

    # CSS 资源
    if any(ext in url for ext in ['.css']):
        return 'CSS 资源'
    elif 'text/css' in content_type:
        return 'CSS 资源'

    # JS 资源
    if any(ext in url for ext in ['.js']):
        return 'JS 资源'
    elif 'application/javascript' in content_type:
        return 'JS 资源'

    # API 接口资源
    if '/api/' in url.lower() or 'application/json' in content_type:
        return 'API 接口资源'

    return '其他资源'


# 请求处理函数
def response(flow: http.HTTPFlow) -> None:
    if flow.response:
        resource_type = classify_resource(flow)
        print(f"URL: {flow.request.url}")
        print(f"Resource Type: {resource_type}")
        print("-" * 50)
        # 将资源类型添加到请求的注释中
        flow.request.comment = resource_type

运行指令:

python 复制代码
mitmdump -s simply_run.py -p 9099

结果展示:

相关推荐
FreakStudio39 分钟前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
用户0332126663672 小时前
使用 Python 从零创建 Word 文档
python
Csvn7 小时前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定
后端·python
曲幽8 小时前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了
python·docker·web·pot·translate·libretranslate·arogstranslate
用户556918817539 小时前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录
python·自动化运维
兵慌码乱1 天前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei1 天前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi001 天前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn1 天前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python