一、asyncio是什么
- python 专门用来写并发代码的库
- 可以让程序同时处理了多件事
二、为什么要将asyncio用在爬虫/自动化里
- 当你发送一个请求,服务器相应可能需要1s
- 如果是同步,你的程序会卡在那里1s
- 如果是asyncio,程序在等网页返回的这1s内,可以去发另外10个请求
三、核心关键词解释
- async def (声明该函数为异步函数)
这个函数里面可能有需要等待的操作,它执行时不会阻塞主程序
python
async def get_message():
pass
-
await(在这里等待,但别卡死)
此处需要等待网络返回,程序可以先执行别的任务,等这边返回结果了,再继续往下执行
-
asyncio.run() (启动方式)
异步函数的调用
四、思考:asyncio是否为多线程?
不是,它是单线程,在任务空闲时切换到另一个任务,避免了多线程频繁切换上下文的开销,在处理高并发网络请求时比多线程更高效、更轻量。
五、async with 是什么?
自动化地处理那些"需要耗时申请、又必须安全释放"的资源。
即使你的爬虫中途报错挂了,async with 也会确保在后台悄悄把浏览器进程关掉,不会让内存残留。
六、思考:在爬虫里,为什么我们推荐用 async with httpx.AsyncClient() 而不是每次请求都写 httpx.get()?
因为 async with 可以创建一个 TCP 连接池。 如果你直接 get,每次请求都要经历 三次握手 和 四次挥手,非常耗时。 使用 async with 开启上下文,可以让多个请求复用同一个连接(Keep-Alive),效率提升非常明显,同时它还能保证在爬取结束时,自行关闭连接池