Python之requests实现github模拟登录

文章目录

github 模拟登录

前言

前面学习了requests模块的基础学习后,接下来做一个实战应用,会涉及到requests的post 请求,请求头headers的设置,利用sesson保持 cookie状态等

模拟登录流程

如下图是模拟登录的流程,在知道了具体的流体后,写代码才能流畅。

抓包操作

在使用 chrom进行抓包操作时,需要新开一个无痕窗口

查看登录表单的内容

  • 主要是看html结构,可以知道提交的目标地址,提交的方式(POST|GET),提交的表单的主要字段。
  • 同时需要开启Preserve.log,这样子页面在跳转时,也那个记录前面的请求会话

登录操作

  • 通过提交登录表单,触发session 接口,从 request headers,以及Form Data,方便为后端准备数据
  • 同时发现 auth_token 值在不同页面,是不一样的,根据 post数据源的几种类比较判断,具体在前面的 requests模块介绍的文章,其值是属于存在静态页面中的预设值,一开始进到登录页时已经生成

模拟登录操作

完整代码链接:https://gitee.com/allen-huang/python/blob/master/crawler/do-request/login_github.py

根据上面的流程,后端在做模拟登录时,需要做3步如下:

  1. 通过 session.get获得github登录页面 生成的auth_token
  2. 组装 /session的 from data和请求头 headers,通过 session.post调用/session 请求
  3. 正则分析个人页的 title来验证,登录状态的验证

在 main函数的调用

python 复制代码
if __name__ == '__main__':
    # todo 声明一个session对象,并设置请求头
    session = requests.session()
    session.headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    # todo: 1.获取登录页面的auth_token
    auth_token = get_auth_token(session)

    # todo:2.组装表单数据,使用 session.post(),请求/session,用来记录登录状态
    do_login(session)

    # todo: 3.通过请求github.com/用户名,验证是否登录成功
    chk_login_status(session)

    # insert_data = {
    #     "username": "hjc1985",
    #     "req_headers": resp.request.headers,
    #     "resp_headers": resp.request.headers,
    #     "resp_status": resp.status_code,
    #     "resp_body": resp.content.decode()
    # }
    # result = MongoPool().test.login_github.insert_one(insert_data)
    # print(result.inserted_id)

获得 auth_token

auth_token,这里是简写了,在 github 登录页中是authenticity_token,通过正则提取带有"authenticity_token"字段的值即可,代码如下:

python 复制代码
def get_auth_token(session: Session) -> str:
    """
    todo 先从github.com/login获取登录页面的html内容,然后通过正则表达式获取auth_token
    @param session:
    @return:
    """
    resp = session.get('https://github.com/login')
    if resp.status_code != 200:
        print("请求失败,请稍后再试!")
        exit(0)
    login_html = resp.content.decode()
    auth_token = re.findall(r'name="authenticity_token" value="(.*?)"', login_html)[0]
    return auth_token

调用/session接口登录处理

注意:为了安全性考虑,这里的密码属性,password在文档展示不是真实的密码,因为,github提交的密码属于明码,没有进行二次加密过的。真实密码的登录请求我已测试通过的

python 复制代码
def do_login(session: Session):
    """
    todo 组装表单数据,使用 session.post(),请求/session,用来记录登录状态
    @param session: session对象
    @return:
    """
    global resp
    post_data = {
        "commit": "Sign in",
        "authenticity_token": auth_token,
        "login": "hjc1985",
        "password": "123456",  # 登录密码,为了个人账号安全我这里不是真实密码
        "webauthn-conditional": "undefined",
        "javascript-support": "true",
        "webauthn-support": "supported",
        "webauthn-iuvpaa-support": "supported",
        "return_to": "https://github.com/login"
    }
    resp = session.post(url='https://github.com/session', data=post_data)
    if resp.status_code != 200:
        print("请求失败,请检查参数!")
    else:
        print("请求/session 成功!")

检测登录是否成功

在 github 中,个人中心地址github.com/用户名的标题内容结尾,是否含有GitHub,是判断登录状态的依据之一,如果 GitHub 不存在表示登录成功,反之则登录不成功。

python 复制代码
def chk_login_status(session: Session):
    """
    todo: 通过请求github.com/用户名,验证是否登录成功
    @param session:
    @return:
    """
    resp = session.get('https://github.com/hjc1985')
    html_content = resp.content
    res = re.findall(r'<title>(.+?)(GitHub)?</title>', html_content.decode('utf-8'))
    """
    todo 使用 try...except...来判断索引对应的值是否存在
    """
    try:
        end_str = res[0][1]
    except IndexError:
        end_str = ""

    if end_str == "":
        # 个人主页的title内容如果结尾没有GitHub,说明登录成功
        print("登录成功!")
    else:
        print("登录失败!")

    with open("github-profile.html", "wb") as f:
        f.write(html_content)
  • 登录成功的效果
  • 登录不成功的效果

总结:

  • 这是拿 github 模拟登录来对 requests模块的get, post方法,以及登录状态保持做的一个应用,主要是为了巩固知识点。
  • 它的登录机制还算是比较简单的,因为大部分值都是固定的可以获取到,像真正项目过程中,post 来源的数据都是需要调用接口,或 JS 逆向才能拿到。
相关推荐
KuaFuAI几秒前
微软推出的AI无代码编程微应用平台GitHub Spark和国产AI原生无代码工具CodeFlying比到底咋样?
人工智能·github·aigc·ai编程·codeflying·github spark·自然语言开发软件
明月清风徐徐7 分钟前
Scrapy爬取豆瓣电影Top250排行榜
python·selenium·scrapy
theLuckyLong8 分钟前
SpringBoot后端解决跨域问题
spring boot·后端·python
Yongqiang Cheng11 分钟前
Python operator.itemgetter(item) and operator.itemgetter(*items)
python·operator·itemgetter
MavenTalk14 分钟前
Move开发语言在区块链的开发与应用
开发语言·python·rust·区块链·solidity·move
FksLiao26 分钟前
Superset安装
python
L Jiawen33 分钟前
【Python · PyTorch】卷积神经网络(基础概念)
pytorch·python·cnn
goomind38 分钟前
深度学习模型评价指标介绍
人工智能·python·深度学习·计算机视觉
->yjy1 小时前
wordcloud库基本介绍
python
2401_840192271 小时前
python基础大杂烩
linux·开发语言·python