python爬虫采集企查查数据

企查查,一个查询企业信息的网站,这个网站也是网络爬虫选择采集的对象,这个网站反爬提别厉害,没有一定的爬虫技术,是无法采集成功的。
网络爬虫从企查查采集企业信息,如果想要看到完成的企业信息就需要登录后点击详情才能看到信息,但是只能看到部分的信息,但是登录就会出现验证码,如果是爬虫行为就很容易被识别出来。这时候就需要使用爬虫代理IP 去解决,登陆之后获取企业信息的页面源码,解析所采集的数据,获取到企业的名称和数据代码,处理好验证码,避免爬虫行为被限制,大部分网站均限制了IP的访问量,对于爬虫频繁访问,导致被网站限制,我们还可以通过使用爬虫代理来解决。然后将采集的数据信息保存到文件中即可。
简单来说采集企查查的步骤很简单:
1、使用爬虫代理
2、采集企业信息页面
3、解析所采集的数据
4、储存采集的数据信息
以下是采集企查查的代码仅供参考:

python 复制代码
    #! -*- encoding:utf-8 -*-
    import requests
    import random
    import requests.adapters

    # 要访问的目标页面
    targetUrlList = [
        "https://httpbin.org/ip",
        "https://httpbin.org/headers",
        "https://httpbin.org/user-agent",
    ]

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host": proxyHost,
        "port": proxyPort,
        "user": proxyUser,
        "pass": proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }

    # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP
    s = requests.session()

    # 设置cookie
    cookie_dict = {"JSESSION":"123456789"}
    cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
    s.cookies = cookies

    for i in range(3):
        for url in targetUrlList:
            r = s.get(url, proxies=proxies)
            print r.text
相关推荐
染指11102 分钟前
6.第二阶段x64游戏实战-分析人物状态
开发语言·汇编·windows·游戏·游戏逆向·x64dbg·x64游戏
小小鸭程序员9 分钟前
Spring Boot项目连接MySQL数据库及CRUD操作示例
java·spring boot·python·mysql·spring
唐叔在学习13 分钟前
【Python爬虫高级技巧】BeautifulSoup高级教程:数据抓取、性能调优、反爬策略,全方位提升爬虫技能!
python·beautifulsoup·html解析·爬虫进阶·反爬策略
love530love23 分钟前
怎么使用嵌套虚拟环境实现项目部署之virtualenv嵌套conda绕开安装环境检测实现.venv部署facefusion
python·conda·virtualenv
forestsea29 分钟前
Java虚拟机面试题:内存管理(中)
java·开发语言
longlong int30 分钟前
【每日算法】Day 17-1:位图(Bitmap)——十亿级数据去重与快速检索的终极方案(C++实现)
开发语言·c++·算法
欧宸雅30 分钟前
Perl语言的文件系统
开发语言·后端·golang
写代码的小王吧1 小时前
【安全】Java幂等性校验解决重复点击(6种实现方式)
java·linux·开发语言·安全·web安全·网络安全·音视频
淘源码d1 小时前
如何运用C#.NET快速开发一套掌上医院系统?
开发语言·c#·.net·源码·掌上医院
一个程序员(●—●)1 小时前
xLua环境控制+xLua的Lua调用C#的1
开发语言·unity·c#·lua