爬虫学习2

中国国家地理网

单张图片爬取

python 复制代码
import requests
url = 'http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AWujSAA_-xvEYLbU441.jpg@!rw9'
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
img_data = requests.get(url = url,headers=headers).content
with open('./img0.jpg','wb') as fp:
    fp.write(img_data)

多张爬取

python 复制代码
import requests
import re
import os
if not os.path.exists('./tupian'):
    os.mkdir('./tupian')

# UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
url= 'http://www.dili360.com/travel/sight/20400.htm'
page_text = requests.get(url=url,headers=headers).text
ex = '<div class="thumb-img">.*?<img src="(.*?)".*?</div>'
img_src_list = re_text = re.findall(ex,page_text,re.S)
print(img_src_list)
for src in img_src_list:
    img_data = requests.get(url=src).content
    img_name = src.split('/')[-1]
    img_name = img_name.split('@')[0]
    img_path = './tupian/'+img_name
    with open(img_path,'wb') as fp:
        fp.write(img_data)
        print(img_name,"success")

多页爬取

python 复制代码
import requests
import re
import os
if not os.path.exists('./tupian'):
    os.mkdir('./tupian')
# UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
url= 'http://www.dili360.com/Travel/sight/20400/%d.htm'
for page_num in range(1,6):
    new_url = format(url % page_num)
    page_text = requests.get(url=new_url,headers=headers).text

    ex = '<div class="thumb-img">.*?<img src="(.*?)".*?</div>'
    img_src_list = re_text = re.findall(ex,page_text,re.S)
    print(img_src_list)
    for src in img_src_list:
        img_data = requests.get(url=src).content
        img_name = src.split('/')[-1]
        img_name = img_name.split('@')[0]
        img_path = './tupian/'+img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,"success")
相关推荐
滴滴滴嘟嘟嘟.7 分钟前
Qt自定义列表项与QListWidget学习
开发语言·qt·学习
Yvonne爱编码27 分钟前
零基础学习数据采集与监视控制系统SCADA
学习·信息可视化·信息与通信·数据可视化
熊猫钓鱼>_>1 小时前
2025反爬虫之战札记:从robots.txt到多层防御的攻防进化史
开发语言·c++·爬虫
肥肠可耐的西西公主1 小时前
后端(JDBC)学习笔记(CLASS 1):基础篇(一)
笔记·学习
励志不掉头发的内向程序员1 小时前
从零开始的python学习——文件
开发语言·python·学习
悠哉悠哉愿意3 小时前
【数学建模学习笔记】无监督聚类模型:分层聚类
笔记·python·学习·数学建模
北冥电磁电子智能3 小时前
江协科技STM32学习笔记补充之004
笔记·科技·学习
一个响当当的名号3 小时前
c++primer 个人学习总结-模板和泛型编程
开发语言·c++·学习
落羽的落羽3 小时前
【C++】C++11的可变参数模板、emplace接口、类的新功能
开发语言·c++·学习
滴滴滴嘟嘟嘟.3 小时前
Qt对话框与文件操作学习
开发语言·qt·学习