爬虫常用模板

这里记录的是我学习爬虫自己用到的一些东西,方便以后打开直接使用。我会不定期的往里面添加内容。

爬虫工具库-spidertools.cn

协程

模板1(通过loop):

python 复制代码
async def download()
    pass


async def main():
    # 创建任务队列
    tasks = []

    for..........{     
        # 使用for循环调用其它异步函数,添加到任务队列中
        asks.append(asyncio.create_task(download()))
    }

    # 打包提交队列
    await asyncio.gather(*tasks)


if __name__ == '__main__':
    # 创建loop
    loop = asyncio.get_event_loop()

    # 通过loop执行异步函数
    loop.run_until_complete(main())

模板2(通过asyncio):

python 复制代码
async def download()
    pass


async def main():
    # 创建任务队列
    tasks = []

    for..........{     
        # 使用for循环调用其它异步函数,添加到任务队列中
        asks.append(asyncio.create_task(download()))
    }

    # 等待任务结束
    await asyncio.wait(tasks)


if __name__ == '__main__':
    asyncio.run(main()) 

python运行js模板

python 复制代码
import execjs


# 打开本地js文件,读取文件内容后通过execjs.compile函数将其转换成js代码暂存在ctx中
with open('baidu.js', 'r', encoding='utf-8') as f:
    ctx = execjs.compile(f.read())


# 使用 ctx.call 函数来调用JS代码中的函数
# 第一个参数:想要调用的js中的函数
# 第二个参数:传入的值
res = ctx.call('hello', lis)

ffmpeg视频合成

在爬取视频的时候通常是通过m3u8来获取到视频的ts切片,需要把他们全部合成为一个视频切片。

复制代码
def concat():
    video = 'output.mp4'    # 视频输出地址
    ts_locat = './视频切片'      # ts文件路径 

    # 获取所有的 .ts 文件
    ts_files = [f for f in os.listdir(ts_locat) if f.endswith('.ts')]
    ts_files.sort()  # 排序以确保正确的顺序

    # 将排序好的ts文件目录按行依次写入到一个txt文本中
    with open('concat_list.txt', 'w', encoding='utf-8') as f:
        for ts_file in ts_files:
            f.write(f"file '{ts_locat+ '/' +ts_file}'\n")

    # 使用 ffmpeg 读取文本中的ts文件目录地址,按顺序拼接所有的 .ts 文件
    ffmpeg.input('concat_list.txt', format='concat', safe=0).output(video, c='copy').run()
相关推荐
深蓝电商API2 小时前
爬虫日志分析:快速定位被封原因
爬虫·python
是Dream呀3 小时前
自动化打造信息影响力:用 Web Unlocker 和 n8n 打造你的自动化资讯系统
运维·前端·爬虫·自动化
喵手7 小时前
Python爬虫实战:研究生招生简章智能采集系统 - 破解考研信息不对称的技术方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集研究生招生简章·考研信息不对称·采集考研信息数据csv导出
喵手8 小时前
Python爬虫实战:构建全球节假日数据库 - requests+lxml 实战时区节假日网站采集(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·构建全球节假日数据库·采集时区节假日数据·采集节假日sqlite存储
静谧空间8 小时前
linux安装Squid
linux·运维·爬虫
喵手8 小时前
Python爬虫实战:招聘会参会企业数据采集实战 - 分页抓取、去重与增量更新完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·增量·零基础python爬虫教学·招聘会参会企业数据采集·分页抓取去重
喵手8 小时前
Python爬虫实战:医院科室排班智能采集系统 - 从零构建合规且高效的医疗信息爬虫(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·医院科室排版智能采集系统·采集医疗信息·采集医疗信息sqlite存储
喵手9 小时前
Python爬虫实战:实现 Playwright 的动态名言“瀑布流”采集器,采集名言内容、作者及出处等信息(附 JSON 格式数据导出)!
爬虫·python·爬虫实战·playwright·零基础python爬虫教学·构建动态名言瀑布流采集器·采集数据json导出
喵手9 小时前
Python爬虫实战:全国旅游景区名录智能采集系统 - 构建文旅大数据的基石(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·全国旅游景区名采集系统·文旅大数据·采集旅游景区sqlite存储
J_bean11 小时前
AI 智能爬虫实战
爬虫·ai·大模型