python爬虫实战(9)--获取澎pai热榜

1. 需要的类包

复制代码
import pandas as pd
import requests

2. 请求地址

通过分析,数据可以直接从接口获取,无需解析页面标签,直接取出我们需要的数据即可。

复制代码
def fetch_hot_news(api_url):
    response = requests.get(api_url)

    if response.status_code == 200:
        data = response.json()
        hot_news = data.get("data", {}).get("hotNews", [])
        return hot_news
    else:
        print(f"Failed to retrieve data. Status code: {response.status_code}")
        return []

3. 导出表格

复制代码
def export_to_excel(hot_news_data):
    if not hot_news_data:
        return

    # Add the missing URL field
    base_url = "https://www.xxx.cn/newsDetail_forward_" #澎某pai
    hot_news_data = [{
        **news,
        "URL": f"{base_url}{news['contId']}"
    } for news in hot_news_data]

    # Create a DataFrame
    df = pd.DataFrame(hot_news_data)

    # Choose only relevant columns
    relevant_columns = ["contId", "name", "pubTime", "URL"]
    df = df[relevant_columns]

    # Export to Excel
    df.to_excel("pengpai-top.xlsx", index=False)
    print("Data exported to Excel successfully.")

处理url

复制代码
def main():
    api_url = "https:/xx/wwwIndex/xxx" #分析得到的需要请求的接口地址
    hot_news_data = fetch_hot_news(api_url)

    if hot_news_data:
        export_to_excel(hot_news_data)
    else:
        print("No hot news data found.")

4. 成果展示

相关推荐
Eward-an3 分钟前
Libvio.link爬虫技术全解析:从结构分析到合规实现
爬虫
我不听你讲话4 分钟前
Nginx核心功能
linux·服务器·python
亚马逊云开发者8 分钟前
MCP 协议实战:用 Amazon Bedrock 让 AI Agent 安全调用云服务的完整方案
开发语言·qt·安全
计算机徐师兄8 分钟前
Python基于数字水印的图像版权保护系统(附源码,文档说明)
python·数字水印·图像版权保护系统·python图像版权保护系统·python数字水印图像版权·python数字水印·数字水印图像版权保护系统
co_wait8 分钟前
【C++ STL】排序算法
开发语言·c++·排序算法
黑眼圈子14 分钟前
Java正则表达式基础知识
java·开发语言·正则表达式
小陳参上14 分钟前
使用Flask快速搭建轻量级Web应用
jvm·数据库·python
李昊哲小课15 分钟前
Python 线性数据结构详解
开发语言·数据结构·python
新诺韦尔API16 分钟前
身份证验证接口详细开发对接指南
大数据·python·api
WangYaolove131417 分钟前
基于python的多媒体资料管理系统(源码+文档)
python·mysql·django·毕业设计·源码