python搞资源来

python 复制代码
from datetime import datetime
import requests
from pyquery import PyQuery as pq
import os
import json
from json.decoder import JSONDecodeError

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.40'
}

host = 'https://www.dy2018.com/'

def load_existing_data():
    try:
        with open('movies.json', 'r', encoding='utf-8') as f:
            return json.load(f)
    except FileNotFoundError:
        return []
    except JSONDecodeError:
        print("Warning: Could not decode JSON in 'movies.json', starting with an empty list.")
        return []

def savejson(url: str = ''):
    if not url:
        print('URL 不能为空')
        return

    existing_movies = load_existing_data()
    content = requests.get(host + url, headers=headers)
    content.encoding = 'gb2312'  # 如果需要,可以手动设置
    magnet = pq(content.text).find("#downlist table tbody tr td a").attr('href')
    title = pq(content.text).find('title').text()

    if magnet:
        movie_data = {'title': title, 'link': magnet}
        if movie_data not in existing_movies:
            print(magnet, title)
            existing_movies.append(movie_data)

    with open('movies.json', 'w', encoding='utf-8') as f:
        json.dump(existing_movies, f, ensure_ascii=False, indent=4)

def getUrl(page: int = 1):
    url = f'{host}html/gndy/dyzz/index.html' if page < 2 else f'{host}html/gndy/dyzz/index_{page}.html'
    try:
        content = requests.get(url, headers=headers)
        co_content8 = pq(content.text).find('.co_content8 ul table')
        for i in co_content8.items():
            href = i.find('a').attr('href')
            if href:
                savejson(href)
    except Exception as e:
        print('只能是数字哦')

downloaded_pages = set()  # 存储已下载过的页码
next_page = 1  # 下一个默认页码

while True:
    # 显示已下载过的页数
    downloaded_str = ", ".join(map(str, sorted(downloaded_pages)))
    prompt_msg = f"请输入页码(已下载:[{downloaded_str}],直接回车默认为{next_page},输入q退出):"
    user_input = input(prompt_msg)

    if user_input == 'q':
        print("退出程序")
        break
    elif user_input == '':
        if next_page in downloaded_pages:
            print(f"页码 {next_page} 已经下载过。请输入新的页码或者下一页。")
            continue
        getUrl(next_page)
        downloaded_pages.add(next_page)
        next_page += 1  # 自动增加下一个默认页码
    else:
        try:
            page_number = int(user_input)
            if page_number in downloaded_pages:
                print(f"页码 {page_number} 已经下载过。请输入新的页码或者下一页。")
                continue
            getUrl(page_number)
            downloaded_pages.add(page_number)
            next_page = page_number + 1  # 自动增加下一个默认页码
        except ValueError:
            print("只能输入数字或 'q' 退出")
相关推荐
码界奇点39 分钟前
基于ASP.NET Core的内容管理系统设计与实现
c++·后端·车载系统·毕业设计·asp.net·源代码管理
IT_陈寒41 分钟前
React开发者都在偷偷用的5个性能优化黑科技,你知道几个?
前端·人工智能·后端
wuyaolong0071 小时前
Spring Boot 3.4 正式发布,结构化日志!
java·spring boot·后端
番茄去哪了1 小时前
Java基础面试题day01
java·开发语言·后端·javase·八股·面向对象编程
用户8356290780512 小时前
Python 设置 Excel 条件格式教程
后端·python·excel
XuCoder2 小时前
告别COS,用 GitHub + jsDelivr 搭建零成本图床
后端
武子康2 小时前
大数据-251 离线数仓 - Airflow 安装部署避坑指南:1.10.11 与 2.x 命令差异、MySQL 配置与错误排查
大数据·后端·apache hive
Memory_荒年2 小时前
自定义 Spring Boot Starter:手搓“轮子”,但要搓出兰博基尼!
java·后端
bugcome_com2 小时前
ASP 与ASP.NET核心解析:从经典 ASP 到ASP.NET的演进与实战
后端·asp.net
栈外2 小时前
我是IDEA重度用户,试了4款AI编程插件:有一款有并发Bug,有一款越用越香
java·后端