IBM官网新闻爬虫代码示例

通常我们使用Python编写爬虫,常用的库有requests(发送HTTP请求)和BeautifulSoup(解析HTML)。但这里需要注意的是,在爬取任何网站之前,务必遵守该网站的robots.txt文件和相关法律法规,尊重网站的版权和隐私政策。

由于IBM网站的具体结构可能会变化,以下代码示例是一个通用的爬虫框架,用于爬取IBM官网(例如ibm.com)的某个页面。在实际使用中,需要根据目标页面的具体HTML结构进行调整。

以下就是我用 Python 的 requestsBeautifulSoup 库爬取 IBM 官网新闻页面的完整代码示例。该脚本会提取新闻标题、描述、发布日期和链接。

python 复制代码
import requests
from bs4 import BeautifulSoup
import csv
from datetime import datetime

# 配置请求头模拟浏览器访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9"
}

def scrape_ibm_news(url):
    """爬取 IBM 新闻页面数据"""
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 查找新闻卡片容器(根据实际页面结构调整选择器)
    news_cards = soup.select('div.ibm--card > div.ibm--card__body')
    
    results = []
    for card in news_cards:
        try:
            title = card.select_one('h3.ibm--card__heading').text.strip()
            description = card.select_one('div.ibm--card__copy').text.strip()
            date_str = card.select_one('div.ibm--card__date').text.strip()
            link = card.select_one('a.ibm--card__footer')['href']
            
            # 转换日期格式(示例)
            date_obj = datetime.strptime(date_str, '%d %b %Y')
            formatted_date = date_obj.strftime('%Y-%m-%d')
            
            results.append({
                'title': title,
                'description': description,
                'date': formatted_date,
                'link': f"https://www.ibm.com{link}"
            })
        except Exception as e:
            print(f"解析错误: {str(e)}")
            continue
    
    return results

def save_to_csv(data, filename='ibm_news.csv'):
    """保存数据到CSV文件"""
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        fieldnames = ['title', 'description', 'date', 'link']
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(data)

if __name__ == "__main__":
    # IBM 新闻页面URL(示例页面)
    news_url = "https://www.ibm.com/news"
    
    print("开始爬取 IBM 新闻...")
    news_data = scrape_ibm_news(news_url)
    
    if news_data:
        save_to_csv(news_data)
        print(f"成功爬取 {len(news_data)} 条新闻,已保存到 ibm_news.csv")
    else:
        print("未找到新闻数据")

关键说明:

  1. 选择器调整

    • 实际使用时需根据 IBM 网站当前 HTML 结构更新 CSS 选择器
    • 打开浏览器开发者工具(F12)检查元素
    • 示例选择器基于常见类名(如 .ibm--card
  2. 反爬虫策略

    • 使用真实 User-Agent 头
    • 添加请求延时(避免高频请求)
    python 复制代码
    import time
    time.sleep(2)  # 每次请求间隔2秒
    • 使用代理 IP(如需大规模爬取)
    python 复制代码
    proxies = {
        'http': 'http://10.10.1.10:3128',
        'https': 'http://10.10.1.10:1080',
    }
    response = requests.get(url, proxies=proxies)
  3. 数据处理

    • 日期格式转换
    • 相对链接转绝对链接
    • 错误处理避免解析中断

输出示例 (CSV 文件):

csv 复制代码
title,description,date,link
"IBM Quantum System Two now operational","IBM's next-gen quantum system goes live",2023-11-15,https://www.ibm.com/news/quantum-system-two
"IBM partners with NASA on climate research","New AI models for climate pattern analysis",2023-11-10,https://www.ibm.com/news/nasa-partnership
...

法律注意事项:

  1. 遵守 robots.txt

    复制代码
    User-agent: *
    Allow: /news/
    Disallow: /search/
  2. 尊重版权信息

  3. 限制请求频率(>2秒/请求)

  4. 勿用于商业用途

上面就是有关爬取代码的相关示例,然后在我们实际开发中还是建议使用官方 API(若有提供),IBM Developer 的 API Hub 可能有相关数据接口。

相关推荐
专注VB编程开发20年1 小时前
javascript的类,ES6模块写法在VSCODE中智能提示
开发语言·javascript·vscode
Amy187021118235 小时前
赋能低压分布式光伏“四可”建设,筑牢电网安全新防线
分布式
黄雪超8 小时前
JVM——函数式语法糖:如何使用Function、Stream来编写函数式程序?
java·开发语言·jvm
ThetaarSofVenice8 小时前
对象的finalization机制Test
java·开发语言·jvm
思则变8 小时前
[Pytest] [Part 2]增加 log功能
开发语言·python·pytest
lijingguang9 小时前
在C#中根据URL下载文件并保存到本地,可以使用以下方法(推荐使用现代异步方式)
开发语言·c#
June bug9 小时前
【软考中级·软件评测师】下午题·面向对象测试之架构考点全析:分层、分布式、微内核与事件驱动
经验分享·分布式·职场和发展·架构·学习方法·测试·软考
¥-oriented9 小时前
【C#中路径相关的概念】
开发语言·c#
CoderCodingNo9 小时前
【GESP】C++四级考试大纲知识点梳理, (7) 排序算法基本概念
开发语言·c++·排序算法
恋猫de小郭10 小时前
Meta 宣布加入 Kotlin 基金会,将为 Kotlin 和 Android 生态提供全新支持
android·开发语言·ios·kotlin