【Python爬虫】利用爬虫抓取双色球开奖号码,获取完整数据并通过随机森林和多层感知两种模型进行简单的预测

首先我们需要通过爬虫获取往期双色球号码并将其保存在csv文件中,这里我获取了1000期的数据,时间很久,大家可以修改代码少收集一些做尝试!

python 复制代码
import requests
import os
from bs4 import BeautifulSoup
import csv
import time

def download(url, page):
    while True:
        try:
            html = requests.get(url).text
            soup = BeautifulSoup(html, 'html.parser')
            list = soup.select('div.ball_box01 ul li')
            ball = []
            for li in list:
                ball.append(li.string)
            if not ball:
                raise ValueError("Empty data")
            write_to_excel(page, ball)
            print(f"第{page}期开奖结果录入完成")
            break
        except Exception as e:
            print(f"Attempt failed with error: {e}, retrying...")
            time.sleep(5)  # 等待5秒后重试

def write_to_excel(page, ball):
    with open('双色球开奖结果2.csv', 'a', encoding='utf_8_sig', newline='') as f:
        writer = csv.writer(f)
        writer.writerow([f'第{page}期'] + ball)

def turn_page():
    url = "https://kaijiang.500.com/ssq.shtml"
    html = requests.get(url).text
    soup = BeautifulSoup(html, 'html.parser')
    pageList = soup.select("div.iSelectList a")

    recent_pages = pageList[:1000]  # 获取最近1000期的页码

    for p in recent_pages:
        url = p['href']
        page = p.string
        download(url, page)

def main():
    if os.path.exists('双色球开奖结果2.csv'):
        os.remove('双色球开奖结果2.csv')
    turn_page()

if __name__ == '__main__':
    main()

这里是随机森林预测

python 复制代码
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor

# 读取数据
data = pd.read_csv('双色球开奖结果2.csv')  # ,encoding='gbk'

# 提取特征和标签
features = data.iloc[:, 1:7]  # 红色球特征
labels = data.iloc[:, 1:7]  # 红色球标签
blue_balls = data.iloc[:, 7]  # 蓝色球标签

# 创建随机森林回归模型
model = RandomForestRegressor(n_estimators=100, random_state=1)

# 拟合模型
model.fit(features, labels)

# 预测下一期的红色球号码
next_red_balls = model.predict(features.iloc[-1].values.reshape(1, -1))
next_red_balls = np.round(next_red_balls).astype(int)

# 预测下一期的蓝色球号码
blue_ball_model = RandomForestRegressor(n_estimators=100, random_state=1)
blue_ball_model.fit(features, blue_balls)
next_blue_ball = blue_ball_model.predict(features.iloc[-1].values.reshape(1, -1))
next_blue_ball = np.round(next_blue_ball).astype(int)

# 打印预测的红色球号码和蓝色球号码
print("预测的红色球号码:", next_red_balls)
print("预测的蓝色球号码:", next_blue_ball)

多层感知

python 复制代码
import pandas as pd
import numpy as np
from sklearn.neural_network import MLPRegressor

# 读取数据
data = pd.read_csv('双色球开奖结果2.csv')  # , encoding='gbk'

# 提取特征和标签
features = data.iloc[:, 1:7]  # 红色球特征
labels = data.iloc[:, 1:8]  # 红色球标签和蓝色球标签

# 创建多层感知机回归模型
model = MLPRegressor(hidden_layer_sizes=(100,), random_state=1)

# 拟合模型
model.fit(features, labels)
# 预测下一期的红色球号码和蓝色球号码
next_features = model.predict(features.iloc[[-1]])
next_features = np.round(next_features).astype(int)

# 打印预测的红色球号码和蓝色球号码
print("预测的红色球号码:", next_features[:6])
print("预测的蓝色球号码:", next_features[6])

杰哥这里仅做了简单的预测,闲暇时间无聊做的,大家想要更精确的结果需要更精细的调参!

相关推荐
郝学胜-神的一滴5 分钟前
张量维度操控心法:从reshape到升维降维,吃透PyTorch形状操作的底层逻辑
人工智能·pytorch·python·深度学习·程序人生·算法·机器学习
一点博客6 分钟前
城市公交运行客流数据分析与可视化大屏监控系统
数据挖掘·数据分析
王者鳜錸10 分钟前
闲鱼商品自动发布实战:基于Java实现API轮询与批量上架
java·开发语言·python·商品自动发布
源码之家11 分钟前
计算机毕业设计:汽车数据可视化分析系统 Django框架 Scrapy爬虫 可视化 数据分析 大数据 大模型 机器学习(建议收藏)✅
大数据·python·信息可视化·flask·汽车·课程设计·美食
asdzx6712 分钟前
使用 Python 将图片转换为 PDF (含合并)
前端·python·pdf
源码之家16 分钟前
计算机毕业设计:基于Python的二手车数据分析可视化系统 Flask框架 可视化 时间序列预测算法 逻辑回归 requests 爬虫 大数据(建议收藏)✅
大数据·hadoop·python·算法·数据分析·flask·课程设计
飞Link21 分钟前
深入剖析 langchain_huggingface 核心 API 与本地化大模型部署实战
开发语言·python·langchain
zero159730 分钟前
Python 8天极速入门笔记(大模型工程师专用):第五篇-函数(def定义,大模型代码复用核心)
开发语言·python·ai编程
七夜zippoe31 分钟前
Python生态未来展望:从AI到科学计算——社区趋势与技术方向深度解析
开发语言·人工智能·python·技术方向·社区趋势
Python资讯站32 分钟前
【Pycharm教程】如何让PyCharm使用Docker配置Python解释器?你只需要看这篇就够了!
python·docker·pycharm·python基础·python学习·python教学·配置python解释器