基于Python的携程国际机票价格抓取与分析

一、项目背景与目标

携程作为中国领先的在线旅行服务平台，提供了丰富的机票预订服务。其国际机票价格受多种因素影响，包括季节、节假日、航班时刻等。通过抓取携程国际机票价格数据，我们可以进行价格趋势分析、性价比评估以及旅行规划建议等。

本项目的目标是：

利用Python爬虫技术抓取携程国际机票价格数据。
对抓取的数据进行清洗和存储。
进行数据分析，包括价格趋势、热门航线等。
提供可视化结果，帮助用户直观了解机票价格动态。

二、爬虫实现步骤

1 目标分析

携程国际机票页面（如 **flights.ctrip.com**）通常采用动态加载，数据可能通过AJAX请求返回JSON格式。我们需要：

分析网页请求：使用浏览器开发者工具（F12）查看XHR请求。
模拟请求：构造合理的请求头（Headers）和参数（Params）。
解析数据：提取航班号、出发/到达时间、航空公司、价格等信息。

2 代码实现

(1) 安装依赖

(2) 获取机票数据（静态页面方案）

如果携程的机票数据可以直接通过HTML获取（部分旧版页面适用），可以使用 **requests + Beautifu**

plain 复制代码

import requests
from bs4 import BeautifulSoup
import pandas as pd

def scrape_ctrip_flights(departure, arrival, date):
    url = f"https://flights.ctrip.com/international/{departure}-{arrival}?depdate={date}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    flights = []
    for flight in soup.select('.flight-item'):
        airline = flight.select_one('.airline-name').text.strip()
        departure_time = flight.select_one('.depart-time').text.strip()
        arrival_time = flight.select_one('.arrival-time').text.strip()
        price = flight.select_one('.price').text.strip()
        
        flights.append({
            'Airline': airline,
            'DepartureTime': departure_time,
            'ArrivalTime': arrival_time,
            'Price': price
        })
    
    return pd.DataFrame(flights)

# 示例：抓取上海到东京的2023-12-01航班
df = scrape_ctrip_flights('SHA', 'TYO', '2023-12-01')
print(df.head())

(3) 动态页面抓取（Selenium方案）

如果数据是动态加载的，需使用 **Selenium** 模拟浏览器操作：

plain 复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

def scrape_ctrip_dynamic(departure, arrival, date):
    driver = webdriver.Chrome()  # 需安装ChromeDriver
    url = f"https://flights.ctrip.com/international/{departure}-{arrival}?depdate={date}"
    driver.get(url)
    time.sleep(5)  # 等待页面加载
    
    flights = []
    for flight in driver.find_elements(By.CSS_SELECTOR, '.flight-item'):
        airline = flight.find_element(By.CSS_SELECTOR, '.airline-name').text
        departure_time = flight.find_element(By.CSS_SELECTOR, '.depart-time').text
        arrival_time = flight.find_element(By.CSS_SELECTOR, '.arrival-time').text
        price = flight.find_element(By.CSS_SELECTOR, '.price').text
        
        flights.append({
            'Airline': airline,
            'DepartureTime': departure_time,
            'ArrivalTime': arrival_time,
            'Price': price
        })
    
    driver.quit()
    return pd.DataFrame(flights)

# 示例：动态抓取数据
df = scrape_ctrip_dynamic('SHA', 'TYO', '2023-12-01')
print(df.head())

(4) 反爬策略

携程可能有反爬机制，需采取以下措施：

随机User-Agent：避免被识别为爬虫。
IP代理池：防止IP被封禁。
请求间隔：避免高频访问。

示例（使用 **fake_useragent** 和代理）：

plain 复制代码

from fake_useragent import UserAgent
import requests

# 初始化UserAgent对象
ua = UserAgent()

# 设置请求头
headers = {
    "User-Agent": ua.random,
    "Accept-Language": "en-US,en;q=0.9"
}

# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 构造代理服务器的认证信息
proxy_auth = f"{proxyUser}:{proxyPass}"

# 构造代理服务器的URL
proxies = {
    "http": f"http://{proxy_auth}@{proxyHost}:{proxyPort}",
    "https": f"https://{proxy_auth}@{proxyHost}:{proxyPort}"
}

# 目标URL
url = "https://example.com"  # 替换为你的目标URL

# 发送请求
response = requests.get(url, headers=headers, proxies=proxies)

# 打印响应内容
print(response.text)

三、数据分析与可视化

(1) 数据清洗

plain 复制代码

# 转换价格格式（如 "¥2,500" → 2500）
df['Price'] = df['Price'].str.replace('¥', '').str.replace(',', '').astype(float)

# 按价格排序
df_sorted = df.sort_values('Price')
print(df_sorted.head())

(2) 价格分布可视化

plain 复制代码

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.histplot(df['Price'], bins=20, kde=True)
plt.title('International Flight Price Distribution (Shanghai to Tokyo)')
plt.xlabel('Price (¥)')
plt.ylabel('Frequency')
plt.show()

(3) 航空公司价格对比

plain 复制代码

plt.figure(figsize=(12, 6))
sns.boxplot(x='Airline', y='Price', data=df)
plt.xticks(rotation=45)
plt.title('Flight Price Comparison by Airline')
plt.show()

四.、结论

本文介绍了如何使用Python爬取携程国际机票数据，并进行分析与可视化。关键点包括：

网页分析：确定数据加载方式（静态/动态）。
爬虫实现 ：使用 **Requests** 或 **Selenium** 抓取数据。
反爬策略：合理设置请求头、代理和访问频率。
数据分析 ：利用 **Pandas** 和 **Matplotlib** 进行价格趋势分析。

基于Python的携程国际机票价格抓取与分析

一、项目背景与目标

二、 爬虫实现步骤

1 目标分析

2 代码实现

(1) 安装依赖

(2) 获取机票数据（静态页面方案）

(3) 动态页面抓取（Selenium方案）

(4) 反爬策略

三、 数据分析与可视化

(1) 数据清洗

(2) 价格分布可视化

(3) 航空公司价格对比

四.、结论

二、爬虫实现步骤

三、数据分析与可视化