Python爬虫07_Requests爬取图片

一、爬取网页图片

即用 requests 下载一张网络图片,并以当前时间戳作为文件名保存到本地,初步理解实现程序化自动爬取图片数据。

python 复制代码
import requests
import time
import datetime

if __name__ == "__main__":
    #爬取图片数据
    url = 'https://pics5.baidu.com/feed/023b5bb5c9ea15ce37c1c2b207b6b5fe3b87b2a5.jpeg@f_auto?token=be26647100a6ad7e4a182c2f70dcebf7'
    #伪造userAgent
    userAgent = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'}
    #content返回的是二进制形式的图片数据
    #text(字符串),content(二进制),json()(对象)
    imgData = requests.get(url=url,headers=userAgent).content

    #获取当前日期和时间,时间戳形式
    current_time = time.time()
    current_timeStr = str(current_time)
    print("当前时间戳为:", current_timeStr)
    print('------------------------------------------------------------------')

    #获取当前时间,格式化可读形式
    dataTime = datetime.datetime.now()
    print("格式化时间为:", dataTime)
    print('------------------------------------------------------------------')

    #时间戳还原成可读日期时间格式
    timestamp = 1708009107.9769785  # 输入要还原的时间戳
    dt_object = datetime.datetime.fromtimestamp(timestamp)
    formatted_time = dt_object.strftime('%Y-%m-%d %H:%M:%S')
    print("还原后的时间为:", formatted_time)
    print('------------------------------------------------------------------')


    with open('E:/Reptile/img/'+ current_timeStr +'.jpeg','wb') as fp:
        fp.write(imgData)
        print("over! 保存成功!")

二、图片数据解析

必须以二进制方式返回图片数据的核心原因是:图片文件在底层就是一串原始字节(binary stream),而不是文本字符串;任何字符编码(如 UTF-8、GBK)都会破坏这些字节的原始顺序,导致图片打不开或损坏。
1、图片不是文本

text 属性会把服务器返回的内容先按某种字符编码(默认 UTF-8)解码成字符串,遇到非文本字节就可能丢码、替换或截断,从而破坏图片格式。
2、二进制 = 无损拷贝

使用 .content 直接拿到 未经任何编码转换的原始字节,写入文件时才能 1:1 还原服务器发来的位图数据。
3、文件系统写图片需要 bytes

open(..., 'wb') 要求写入 bytes 类型;如果误用 text(str 类型),Python 会尝试用默认编码把字符串再编码成字节,结果必然失真。

二进制是保证图片完整性的唯一正确方式。

相关推荐
右耳朵猫AI1 分钟前
Python周刊2026W23 | Polars 1.41、PyPy v7.3.23、Python 3.15、httpx2、dj-lite-tenant
开发语言·python
garmin Chen2 分钟前
prompt实战:nof1.ai Alpha Arena
java·人工智能·python·prompt
装不满的克莱因瓶5 分钟前
掌握条件生成对抗网络(Conditional GAN)模型结构——从无条件生成到可控生成的进阶
人工智能·pytorch·python·深度学习·神经网络·生成对抗网络·计算机视觉
昭昭颂桉a7 分钟前
TypeScript 前端的必修课,从 JS 到 TS
开发语言·前端·javascript·typescript
何以解忧,唯有..9 分钟前
Go 语言安装与环境配置完整指南
开发语言·后端·golang
菜鸟小九11 分钟前
hello agent(智能体经典范式、框架开发实践)
python·langchain·agent
Java面试题总结13 分钟前
MarkItDown 再次登顶GitHub榜
开发语言·c#·github
学逆向的16 分钟前
C++模板
开发语言·c++·网络安全
zyk_computer16 分钟前
AI Agent ,让循环收敛的那套闭环控制系统
人工智能·后端·python·ai·架构·agent·ai agent
nwsuaf_huasir17 分钟前
matlab绘制尺寸和字体合适的图片插入到latex的方法
android·开发语言·matlab