Python爬虫入门:从零到数据采集

Python爬虫基础指南

Python爬虫是自动化获取网络数据的技术,广泛应用于数据采集、市场分析等领域。以下是核心实现步骤:

1. 核心库选择
python 复制代码
import requests  # 发送HTTP请求
from bs4 import BeautifulSoup  # HTML解析
import pandas as pd  # 数据存储
2. 基础爬取流程
python 复制代码
# 发送请求
response = requests.get("https://example.com/books")
response.encoding = 'utf-8'  # 设置编码

# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 数据提取示例
book_titles = [h2.text for h2 in soup.select('.book-title')]
book_prices = [float(div.text.strip('¥')) 
               for div in soup.select('.price')]

# 存储数据
df = pd.DataFrame({'书名': book_titles, '价格': book_prices})
df.to_csv('book_data.csv', index=False)
3. 关键技巧
  • 反爬应对

    python 复制代码
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
        'Cookie': 'sessionid=abc123'
    }
    response = requests.get(url, headers=headers)
  • 动态页面处理(使用Selenium):

    python 复制代码
    from selenium import webdriver
    driver = webdriver.Chrome()
    driver.get(url)
    dynamic_content = driver.find_element_by_class('js-loaded-data').text
4. 完整案例:豆瓣图书爬虫
python 复制代码
def douban_spider():
    url = "https://book.douban.com/top250"
    res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
    soup = BeautifulSoup(res.text, 'lxml')
    
    books = []
    for item in soup.select('.item'):
        title = item.select_one('.pl2 a')['title']
        rating = item.select_one('.rating_nums').text
        books.append((title, float(rating)))
    
    return pd.DataFrame(books, columns=['书名', '评分'])

df = douban_spider()
df.to_excel('豆瓣图书TOP250.xlsx')
5. 注意事项
  1. 遵守规则

    • 检查robots.txt(如https://site.com/robots.txt
    • 设置请求间隔:time.sleep(random.uniform(1,3))
  2. 异常处理

    python 复制代码
    try:
        response = requests.get(url, timeout=10)
    except (requests.ConnectionError, requests.Timeout) as e:
        print(f"请求失败: {str(e)}")
  3. 数据清洗

    python 复制代码
    # 去除空白字符
    clean_text = re.sub(r'\s+', ' ', raw_text).strip()

提示:对于复杂网站建议使用Scrapy框架,其内置的异步处理、管道机制和中间件能显著提升效率。

相关推荐
2501_926978332 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
剑穗挂着新流苏3125 小时前
203_深度学习的第一步:线性回归模型与 SGD 优化算法实战
人工智能·深度学习·机器学习
是枚小菜鸡儿吖5 小时前
卷不动了?带你拆解 2026 深度学习核心版图:CNN、Transformer 与扩散模型的实战进化
深度学习·cnn·transformer
靴子学长6 小时前
Decoder only 架构下 - KV cache 的理解
pytorch·深度学习·算法·大模型·kv
刘简爱学习6 小时前
弱监督互斥多类脑肿瘤图像分割的类间可分离性损失
人工智能·深度学习·计算机视觉
bug大湿7 小时前
语音模型流式结构修改要点
深度学习·自然语言处理·语音识别
AI-Ming7 小时前
程序员转行学习 AI 大模型: 踩坑记录:服务器内存不够,程序被killed
服务器·人工智能·python·gpt·深度学习·学习·agi
龙腾AI白云7 小时前
如何利用知识图谱实现推理和计算
人工智能·深度学习·语言模型·自然语言处理·数据分析
Narrastory8 小时前
明日香 - Pytorch 快速入门保姆级教程(九)
人工智能·pytorch·深度学习
Hello.Reader9 小时前
深度学习 三次浪潮、三大驱动力与神经科学的恩怨(二)
人工智能·深度学习