Python之requests实现github模拟登录

文章目录

github 模拟登录

前言

前面学习了requests模块的基础学习后,接下来做一个实战应用,会涉及到requests的post 请求,请求头headers的设置,利用sesson保持 cookie状态等

模拟登录流程

如下图是模拟登录的流程,在知道了具体的流体后,写代码才能流畅。

抓包操作

在使用 chrom进行抓包操作时,需要新开一个无痕窗口

查看登录表单的内容

  • 主要是看html结构,可以知道提交的目标地址,提交的方式(POST|GET),提交的表单的主要字段。
  • 同时需要开启Preserve.log,这样子页面在跳转时,也那个记录前面的请求会话

登录操作

  • 通过提交登录表单,触发session 接口,从 request headers,以及Form Data,方便为后端准备数据
  • 同时发现 auth_token 值在不同页面,是不一样的,根据 post数据源的几种类比较判断,具体在前面的 requests模块介绍的文章,其值是属于存在静态页面中的预设值,一开始进到登录页时已经生成

模拟登录操作

完整代码链接:https://gitee.com/allen-huang/python/blob/master/crawler/do-request/login_github.py

根据上面的流程,后端在做模拟登录时,需要做3步如下:

  1. 通过 session.get获得github登录页面 生成的auth_token
  2. 组装 /session的 from data和请求头 headers,通过 session.post调用/session 请求
  3. 正则分析个人页的 title来验证,登录状态的验证

在 main函数的调用

python 复制代码
if __name__ == '__main__':
    # todo 声明一个session对象,并设置请求头
    session = requests.session()
    session.headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    # todo: 1.获取登录页面的auth_token
    auth_token = get_auth_token(session)

    # todo:2.组装表单数据,使用 session.post(),请求/session,用来记录登录状态
    do_login(session)

    # todo: 3.通过请求github.com/用户名,验证是否登录成功
    chk_login_status(session)

    # insert_data = {
    #     "username": "hjc1985",
    #     "req_headers": resp.request.headers,
    #     "resp_headers": resp.request.headers,
    #     "resp_status": resp.status_code,
    #     "resp_body": resp.content.decode()
    # }
    # result = MongoPool().test.login_github.insert_one(insert_data)
    # print(result.inserted_id)

获得 auth_token

auth_token,这里是简写了,在 github 登录页中是authenticity_token,通过正则提取带有"authenticity_token"字段的值即可,代码如下:

python 复制代码
def get_auth_token(session: Session) -> str:
    """
    todo 先从github.com/login获取登录页面的html内容,然后通过正则表达式获取auth_token
    @param session:
    @return:
    """
    resp = session.get('https://github.com/login')
    if resp.status_code != 200:
        print("请求失败,请稍后再试!")
        exit(0)
    login_html = resp.content.decode()
    auth_token = re.findall(r'name="authenticity_token" value="(.*?)"', login_html)[0]
    return auth_token

调用/session接口登录处理

注意:为了安全性考虑,这里的密码属性,password在文档展示不是真实的密码,因为,github提交的密码属于明码,没有进行二次加密过的。真实密码的登录请求我已测试通过的

python 复制代码
def do_login(session: Session):
    """
    todo 组装表单数据,使用 session.post(),请求/session,用来记录登录状态
    @param session: session对象
    @return:
    """
    global resp
    post_data = {
        "commit": "Sign in",
        "authenticity_token": auth_token,
        "login": "hjc1985",
        "password": "123456",  # 登录密码,为了个人账号安全我这里不是真实密码
        "webauthn-conditional": "undefined",
        "javascript-support": "true",
        "webauthn-support": "supported",
        "webauthn-iuvpaa-support": "supported",
        "return_to": "https://github.com/login"
    }
    resp = session.post(url='https://github.com/session', data=post_data)
    if resp.status_code != 200:
        print("请求失败,请检查参数!")
    else:
        print("请求/session 成功!")

检测登录是否成功

在 github 中,个人中心地址github.com/用户名的标题内容结尾,是否含有GitHub,是判断登录状态的依据之一,如果 GitHub 不存在表示登录成功,反之则登录不成功。

python 复制代码
def chk_login_status(session: Session):
    """
    todo: 通过请求github.com/用户名,验证是否登录成功
    @param session:
    @return:
    """
    resp = session.get('https://github.com/hjc1985')
    html_content = resp.content
    res = re.findall(r'<title>(.+?)(GitHub)?</title>', html_content.decode('utf-8'))
    """
    todo 使用 try...except...来判断索引对应的值是否存在
    """
    try:
        end_str = res[0][1]
    except IndexError:
        end_str = ""

    if end_str == "":
        # 个人主页的title内容如果结尾没有GitHub,说明登录成功
        print("登录成功!")
    else:
        print("登录失败!")

    with open("github-profile.html", "wb") as f:
        f.write(html_content)
  • 登录成功的效果
  • 登录不成功的效果

总结:

  • 这是拿 github 模拟登录来对 requests模块的get, post方法,以及登录状态保持做的一个应用,主要是为了巩固知识点。
  • 它的登录机制还算是比较简单的,因为大部分值都是固定的可以获取到,像真正项目过程中,post 来源的数据都是需要调用接口,或 JS 逆向才能拿到。
相关推荐
HyperAI超神经9 分钟前
【vLLM 学习】Prithvi Geospatial Mae
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
逻极10 分钟前
Python MySQL防SQL注入实战:从字符串拼接的坑到参数化查询的救赎
python·mysql·安全·sql注入
赫凯17 分钟前
【强化学习】第一章 强化学习初探
人工智能·python·强化学习
Amewin19 分钟前
window 11 安装pyenv-win管理不同的版本的python
开发语言·python
小鸡吃米…1 小时前
Python编程语言面试问题二
开发语言·python·面试
eve杭2 小时前
AI、大数据与智能时代:从理论基石到实战路径
人工智能·python·5g·网络安全·ai
Honmaple2 小时前
中国四级城市联动数据,包含港澳台,内含json , sql , python 脚本
python·sql·json
BoBoZz192 小时前
Curvatures 曲率的计算、边缘曲率的调整以及曲率、颜色的映射
python·vtk·图形渲染·图形处理
少吃零食多运动2 小时前
【Jupyter notebook修改工作目录】
python·jupyter
Swizard3 小时前
别买树莓派了!3步教你在安卓手机上跑通 CPython + PaddleOCR,打造随身 AI 识别终端
python·ai·移动开发