爬虫学习2

中国国家地理网

单张图片爬取

python 复制代码
import requests
url = 'http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AWujSAA_-xvEYLbU441.jpg@!rw9'
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
img_data = requests.get(url = url,headers=headers).content
with open('./img0.jpg','wb') as fp:
    fp.write(img_data)

多张爬取

python 复制代码
import requests
import re
import os
if not os.path.exists('./tupian'):
    os.mkdir('./tupian')

# UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
url= 'http://www.dili360.com/travel/sight/20400.htm'
page_text = requests.get(url=url,headers=headers).text
ex = '<div class="thumb-img">.*?<img src="(.*?)".*?</div>'
img_src_list = re_text = re.findall(ex,page_text,re.S)
print(img_src_list)
for src in img_src_list:
    img_data = requests.get(url=src).content
    img_name = src.split('/')[-1]
    img_name = img_name.split('@')[0]
    img_path = './tupian/'+img_name
    with open(img_path,'wb') as fp:
        fp.write(img_data)
        print(img_name,"success")

多页爬取

python 复制代码
import requests
import re
import os
if not os.path.exists('./tupian'):
    os.mkdir('./tupian')
# UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
url= 'http://www.dili360.com/Travel/sight/20400/%d.htm'
for page_num in range(1,6):
    new_url = format(url % page_num)
    page_text = requests.get(url=new_url,headers=headers).text

    ex = '<div class="thumb-img">.*?<img src="(.*?)".*?</div>'
    img_src_list = re_text = re.findall(ex,page_text,re.S)
    print(img_src_list)
    for src in img_src_list:
        img_data = requests.get(url=src).content
        img_name = src.split('/')[-1]
        img_name = img_name.split('@')[0]
        img_path = './tupian/'+img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,"success")
相关推荐
电商API_1800790524740 分钟前
淘宝商品评论数据获取指南|批量自动化|api应用
java·爬虫·spring·性能优化·自动化
谙弆悕博士1 小时前
Python快速学习——第5章:集合
python·学习
码界奇点1 小时前
基于策略模式的多数据源爬虫系统设计与实现
爬虫·python·毕业设计·策略模式·源代码管理·数据库系统
南境十里·墨染春水1 小时前
linux学习进展 C语言连接mysql
linux·c语言·学习
笨鸟先飞的橘猫2 小时前
lua——哈希表详细学习
学习·lua·散列表
小新同学^O^2 小时前
初步了解--> SpringCloud
java·学习·spring·spring cloud
Slow菜鸟2 小时前
Skill 学习篇(九)| 编排框架 · OpenSpec 专篇(1→10 阶段)
学习
星幻元宇VR3 小时前
VR雷霆双翼助力航空航天科普教育
科技·学习·安全·vr
知识分享小能手3 小时前
R语言入门学习教程,从入门到精通,集成开发环境RStudio(2)
开发语言·学习·r语言
大都督会赢的3 小时前
数据结构(1)--顺序表
c语言·数据结构·学习·指针