Python网络爬虫是利用Python编程语言编写的自动化程序,用于从互联网上抓取数据。这些程序可以模拟人类的行为,自动访问网页并从中提取所需的信息。Python因其丰富的库支持和易用性,成为了构建网络爬虫的流行选择。
Python网络爬虫的基础知识点
Python基础知识
模块的导入和使用
            
            
              python
              
              
            
          
          import requests
from bs4 import BeautifulSoup变量作用域
            
            
              python
              
              
            
          
          def example():
    x = 10  # 局部变量
    print(x)
example()
# print(x)  # 会报错,因为x是局部变量类型转换
            
            
              python
              
              
            
          
          int_value = int("123")
str_value = str(123)
float_value = float("123.45")对象的概念
            
            
              python
              
              
            
          
          class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age
person = Person("Alice", 30)
print(person.name)Tuple/List/Dict/Set 的操作
            
            
              python
              
              
            
          
          my_tuple = (1, 2, 3)
my_list = [1, 2, 3]
my_dict = {'name': 'Alice', 'age': 30}
my_set = {1, 2, 3}字符串操作
            
            
              python
              
              
            
          
          my_string = "Hello World"
print(my_string.upper())
print(my_string.split(" "))控制结构(for/while/break/continue)
            
            
              python
              
              
            
          
          for i in range(5):
    print(i)
while True:
    break  # 终止循环
for i in range(5):
    if i == 3:
        continue  # 跳过本次循环
    print(i)字符编码
            
            
              python
              
              
            
          
          # 字符串的编码与解码
encoded_str = "hello".encode("utf-8")
decoded_str = encoded_str.decode("utf-8")
print(decoded_str)Unicode与ASCII、utf-8等编码的区别
            
            
              python
              
              
            
          
          # Unicode是一种字符集标准,包含了世界上大多数语言的字符。
# ASCII是一种较早的编码方式,只包含英文字符,共128个字符。
# UTF-8是一种可变长度的编码方式,兼容ASCII,支持全球各种语言的字符。
unicode_str = u"hello"  # Unicode字符串
ascii_str = "hello"     # ASCII字符串
utf8_str = "hello".encode("utf-8")  # UTF-8编码的字符串字符串的编码与解码
            
            
              python
              
              
            
          
          # 对字符串进行编码
encoded_str = "你好".encode("utf-8")
# 对编码后的字符串进行解码
decoded_str = encoded_str.decode("utf-8")
print(decoded_str)  # 输出: 你好常见的中文编码如GBK、GB18030等
            
            
              python
              
              
            
          
          gbk_encoded_str = "你好".encode("gbk")  # GBK编码的字符串
gb18030_encoded_str = "你好".encode("gb18030")  # GB18030编码的字符串HTTP协议
HTTP请求与响应
            
            
              python
              
              
            
          
          response = requests.get('http://example.com')  # 发送GET请求常见HTTP头信息(如User-Agent、Accept-Encoding、Authorization等)
            
            
              python
              
              
            
          
          headers = {
    'User-Agent': 'Mozilla/5.0',  # 模拟浏览器用户代理
    'Accept-Encoding': 'gzip, deflate',  # 接受压缩类型
    'Authorization': 'Bearer token'  # 认证令牌
}HTTP状态码的理解
            
            
              python
              
              
            
          
          if response.status_code == 200:
    print("请求成功")
elif response.status_code == 404:
    print("未找到页面")HTML/CSS/JavaScript基础
网页结构的理解
            
            
              html
              
              
            
          
          <!DOCTYPE html>
<html>
<head>
    <title>Page Title</title>
</head>
<body>
    <h1>Heading</h1>
    <p>Paragraph</p>
</body>
</html>如何使用BeautifulSoup或lxml等库解析HTML
            
            
              python
              
              
            
          
          soup = BeautifulSoup(html_content, 'html.parser')  # 解析HTML内容
title = soup.title.string  # 获取<title>标签中的文本处理JavaScript渲染的页面(如使用Selenium)
            
            
              python
              
              
            
          
          from selenium import webdriver
driver = webdriver.Chrome()  # 初始化Chrome WebDriver
driver.get('http://example.com')  # 访问指定网址
page_source = driver.page_source  # 获取渲染后的页面源码爬虫道德
尊重robots.txt文件
            
            
              python
              
              
            
          
          # 检查是否允许爬取
robot_url = "http://example.com/robots.txt"
robot_response = requests.get(robot_url)
print(robot_response.text)控制请求频率,避免给目标网站造成过大负担
            
            
              python
              
              
            
          
          import time
time.sleep(1)  # 控制请求频率,休眠一秒不滥用爬虫获取敏感信息
            
            
              python
              
              
            
          
          # 不抓取个人隐私信息构建基础网络爬虫的步骤
获取网页
            
            
              python
              
              
            
          
          # 使用requests库发送HTTP请求
response = requests.get('http://example.com')获取网页的HTML内容
            
            
              python
              
              
            
          
          html_content = response.text  # 获取HTML文本内容提取信息
            
            
              python
              
              
            
          
          # 使用BeautifulSoup或lxml解析HTML
soup = BeautifulSoup(html_content, 'html.parser')
# 提取所需的数据(如标题、链接、图片等)
title = soup.title.string
links = [a['href'] for a in soup.find_all('a', href=True)]  # 提取所有<a>标签的链接数据存储
存储数据到文件(如CSV、JSON)
            
            
              python
              
              
            
          
          import json
data = {'title': title, 'links': links}  # 将数据组织成字典形式
with open('data.json', 'w') as f:
    json.dump(data, f)  # 将数据写入JSON文件存储数据到数据库(如MySQL、MongoDB)
            
            
              python
              
              
            
          
          # 示例代码假定已经连接好了数据库
db = connect_to_database()
collection = db['data']
collection.insert_one(data)  # 插入数据到数据库集合数据清洗与处理
            
            
              python
              
              
            
          
          # 清洗数据(去除噪声、格式化)
cleaned_title = title.strip()  # 去除标题两端的空白字符数据分析(统计、可视化等)
            
            
              python
              
              
            
          
          # 可以使用pandas等库进行数据分析
import pandas as pd
df = pd.DataFrame(data)  # 创建DataFrame
print(df.describe())  # 输出描述性统计信息数据可视化
            
            
              python
              
              
            
          
          # 使用matplotlib绘制图表
import matplotlib.pyplot as plt
df['Salary'].hist(bins=10)  # 绘制工资分布直方图
plt.title('Salary Distribution')  # 设置图表标题
plt.xlabel('Salary')  # 设置X轴标签
plt.ylabel('Frequency')  # 设置Y轴标签
plt.show()  # 显示图表示例代码
以下是一个简单的Python网络爬虫示例,用于从一个网站抓取数据:
            
            
              python
              
              
            
          
          import requests
from bs4 import BeautifulSoup
# 发送GET请求
response = requests.get('http://example.com')
# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取页面标题
    title = soup.title.string
    
    # 输出标题
    print(f'The title of the page is: {title}')
else:
    print(f'Request failed with status code {response.status_code}')更高级的网络爬虫技术
Scrapy框架
用途: Scrapy是一个用于Python的开源网络爬虫框架,它非常适合用来构建复杂的爬虫项目。
特点:
- 异步处理: 支持异步请求处理,可以同时处理多个请求,提高爬取效率。
- 项目管理: 提供了项目管理和数据提取的功能,使得爬虫项目更加模块化和易于维护。
- 数据提取: 内置强大的选择器引擎,支持CSS和XPath表达式来精确提取网页上的数据。
示例代码:
            
            
              python
              
              
            
          
          import scrapy
class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']
    def parse(self, response):
        for item in response.css('div.item'):
            yield {
                'title': item.css('h2::text').get(),
                'link': item.css('a::attr(href)').get(),
            }Selenium
用途: 当需要爬取的网页是由JavaScript动态生成的,普通的HTTP请求无法获得完整的内容,这时可以使用Selenium来模拟浏览器行为。
特点:
- 模拟真实用户行为: 可以执行如点击、滚动等操作,从而获取动态加载的内容。
- 浏览器驱动: 需要安装对应浏览器的WebDriver,并在代码中初始化WebDriver实例。
示例代码:
            
            
              python
              
              
            
          
          from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://example.com')
driver.find_element_by_id('some_button').click()
page_source = driver.page_source异步IO
用途: 在处理大量请求时,使用异步IO可以显著提高爬虫的速度。
技术:
- asyncio: Python内置的异步IO框架,适用于编写并发应用程序。
- aiohttp: 一个基于asyncio的HTTP客户端/服务器框架,适用于构建高性能的服务端和客户端应用。
示例代码:
            
            
              python
              
              
            
          
          import aiohttp
import asyncio
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()
async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'http://example.com')
        print(html)
asyncio.run(main())反反爬虫策略
- 
用途: 在爬虫过程中可能会遇到目标网站采取的各种反爬措施,因此需要采取一定的策略来应对。 
- 
策略: 
- 
使用代理IP池: 通过轮换使用不同的代理IP地址来防止被封禁。 
- 
设置合理的请求间隔: 控制请求频率,避免短时间内发送过多请求导致被检测为爬虫。 
- 
模拟真实用户行为: 包括但不限于设置合理的User-Agent、随机化请求间隔、模仿用户的浏览行为等。 
示例代码:
            
            
              python
              
              
            
          
          import requests
import random
import time
proxies = [
    'http://proxy1.example.com:8080',
    'http://proxy2.example.com:8080',
]
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
proxy = random.choice(proxies)
response = requests.get('http://example.com', headers=headers, proxies={'http': proxy, 'https': proxy})
time.sleep(random.uniform(1, 3))  # 模拟真实的请求间隔通过上述介绍,可以了解到构建Python网络爬虫的基础知识和技术,以及如何构建一个简单的爬虫程序。随着实践经验的积累,可以逐渐过渡到更复杂的项目和技术。
一个完整的Python网络爬虫示例,它展示了如何使用requests和BeautifulSoup库来爬取网页数据,并将数据存储到SQLite数据库中。
            
            
              python
              
              
            
          
          # 导入必要的库
import requests
from bs4 import BeautifulSoup
import sqlite3
# 创建数据库连接
conn = sqlite3.connect('dd_articles.db')
c = conn.cursor()
# 创建表
# 表名为 dd_articles,包含 id、product_name、price 和 comments_count 字段
c.execute('''CREATE TABLE IF NOT EXISTS dd_articles (
             id INTEGER PRIMARY KEY AUTOINCREMENT,
             product_name TEXT,
             price TEXT,
             comments_count TEXT)''')
# 定义请求页面的函数
def fetch_page(url):
    try:
        # 设置请求头,模拟浏览器访问
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
        }
        # 发送GET请求
        response = requests.get(url, headers=headers)
        
        # 检查请求是否成功
        response.raise_for_status()  # 抛出HTTP错误
        
        # 返回页面的HTML内容
        return response.text
    except requests.RequestException as e:
        # 打印请求失败的信息
        print(f"Request failed: {e}")
        return None
# 定义解析HTML页面的函数
def parse_html(html):
    try:
        # 使用BeautifulSoup解析HTML
        soup = BeautifulSoup(html, 'html.parser')
        
        # 初始化列表来存储商品信息
        products = []
        
        # 寻找所有的商品元素,这里假设商品信息是在<li>标签内
        items = soup.find_all('li', class_='item')  # 根据实际网站结构调整class名
        
        for item in items:
            # 商品名称
            name = item.find('div', class_='product-name').text.strip()
            
            # 商品价格
            price = item.find('span', class_='price').text.strip()
            
            # 评论数
            comments = item.find('span', class_='comments-count').text.strip()
            
            # 将数据添加到列表中
            products.append({
                'product_name': name,
                'price': price,
                'comments_count': comments
            })
        
        # 返回所有商品的信息
        return products
    except Exception as e:
        # 打印解析HTML时发生的错误
        print(f"Error parsing HTML: {e}")
        return []
# 定义存储数据到数据库的函数
def store_data(data):
    try:
        # 插入数据到数据库
        c.executemany('INSERT INTO dd_articles (product_name, price, comments_count) VALUES (?, ?, ?)', 
                      [(d['product_name'], d['price'], d['comments_count']) for d in data])
        # 提交事务
        conn.commit()
    except sqlite3.Error as e:
        # 打印数据库操作时发生的错误
        print(f"Database error: {e}")
# 主函数
def main():
    # 设置要爬取的网页URL
    url = "http://dddddd.com/products"  # 替换为你想要爬取的网页URL
    # 获取页面内容
    html_content = fetch_page(url)
    
    if html_content:
        # 解析HTML并获取商品信息
        products = parse_html(html_content)
        
        # 存储数据到数据库
        store_data(products)
        
        # 输出结果
        for item in products:
            print(f"Product Name: {item['product_name']}\nPrice: {item['price']}\nComments Count: {item['comments_count']}\n")
    
    # 关闭数据库连接
    conn.close()
# 如果是直接运行此脚本
if __name__ == "__main__":
    # 调用主函数
    main()这个脚本实现了以下几个功能:
- 创建数据库连接:连接到SQLite数据库,并创建一个用于存储商品信息的表。
- 请求页面:定义了一个函数fetch_page来发送HTTP GET请求,并返回HTML内容。
- 解析HTML:定义了一个函数parse_html来解析HTML内容,并提取出商品的名称、价格和评论数。
- 存储数据:定义了一个函数store_data来将提取的数据存储到数据库中。
- 主函数:定义了一个main函数来调用上述函数,并输出结果。
请确保在实际使用时替换URL和类名以匹配你要爬取的具体网站。此外,在运行爬虫之前,请确认所爬取的数据符合网站的robots.txt规则,并且不会侵犯任何隐私或版权法律。