#笔记# 写给自己用的小爬虫

最近完成了一个文旅行业信息聚合的小应用，实现仅从一个入口了解全行业的信息动态，不用一个一个翻看各网站，节省了不少检索时间。

一、基本思路

明确数据来源。基于前述目标，确定数据源为文化和旅游部管理部门官网，比如各省厅网站、各副省级城市网站，文化和旅游管理部门直属单位网站，中国文化报电子版，中国旅游报电子版等，目前大约有60多个网站。

写采集程序。日常使用 Win 系统+ Edge 浏览器，故采集程序使用 Python，配合 Selenium 4 来实现。获取到的数据（标题、链接），存储到 Sqlite3 数据库。

写展示网页。将抓取到的数据进行展示，打开页后，点击某个标题，即可跳转信息源网站，查看对应信息。

二、代码框架

整个项目代码框架如下

复制代码

├├─anhui_msg.py                    // 爬虫1├─get_bozhou.py                   // 爬虫2├─provinces_msg.py                // 爬虫3├─province_level_cities.py        // 爬虫4├─luyoubao_news.py                // 爬虫5├─wenhuabao_news.py               // 爬虫6├─newsspider.py                   // 爬虫共用代码├─txt2db.py                       // 抓取信息转存数据库├─auto_run.bat                    // 自动抓取、转存、更新脚本├─ahwlmsg.db                      // 保存所有数据的数据库文├─<DIR> html                      // 展示网页代码├─<DIR> provinces                 // 保存各省文化和旅游厅网站信息├─<DIR> province_level_cities     // 保存副省级城市文化旅部网站信息├─<DIR> txt                       // 保存安徽省市文化和旅部网站信息

html 目录下的文件如下：

复制代码

├├─<DIR>static                    // 内含 CSS、JS、图标├─<DIR>templates                 // 网页前端模板├─run.bat                        // 本地自动运行网站脚本├─ahwlmsg.db                     // 保存所有数据的数据库文件├─generate_html.py               // 网页后端

三、技术栈

采集程序: Python + Selenium4 + SQL

网页前端: Html + CSS + JQuery

网页后端 Python + Flask + SQL

四、代码实现

（一）网页信息获取

信息采集代码总体思路大体一致。均使用 Selenium 模拟浏览器打开相应网站，获取链接后，全部保存为本地文件；然后进一步梳理存入数据库。

以获取副省级城市文化旅游网站信息为例。基本代码如下：

python 复制代码

def grasp_all_a(url, driver):
    assert(driver)
    driver.get(url)
    print("\033[1;31;40m looking {}... \033[0m".format(url))
    try:
        # 等待网页打开15秒，直至可以定位到<a>标签。

        WebDriverWait(driver, 15).until(EC.visibility_of_element_located((By.TAG_NAME,'a')))
    except:
        print("timeout")
    # 获取网页上所有的<a>标签。
    a_tags = driver.find_elements(By.TAG_NAME, "a")
    #逐个分析<a>标签，并分别处理。
    filename = get_filename(url).rstrip('/')

    with open("./province_level_cities/" + filename+".txt", 'w', encoding='utf-8') as f:
        for tag in a_tags:
            title = tag.get_attribute('title').replace('\n','').strip(' ')
            href = tag.get_attribute('href')

            if title and href:
                if filename not in href:
                continue
            elif 'javascript' not in href:
                f.write(title + "\t" + href + "\n" )
            elif href:
                if 'javascript' in href:
                    continue
                else:
                    f.write(tag.text.replace('\n','').strip(" ") + "\t" + href + "\n" )
    driver.quit()

实现逻辑分三步：

准备工作。
打开网页后，获取该网页上所\<A>标签。
对每一个\<A>标签的title和href属性进行分析：没有title和href则跳出；同时存在时，一看href是不是指向本网站，二看href中是不是包括JavaScript，如果链接指向本网站且链接中不包括JavaScript，就把A标签的title、href属性保存到文件里；只有href属性且链接中不包括JavaScript时，做一点清理后，将href保存到文件中。

（二）网页避坑设置

由于各种原因，并非所有网页数据都能成功获取，所以在打开网页前需要做一些设置。通过反复调试，以下代码可满足多数情况下的需要。

python 复制代码

def ready_to_grasp():
    path = r"d:\\webdriver\\msedgedriver.exe"
    if os.path.exists(path):
        sys.path.append(path)
    else:
        print("Please install webdriver first.\n")
        exit(-1)

    options = Options()
    options.add_argument('headless')
    options.add_argument('disable-gpu')
    options.add_argument('no-sandbox')
    options.add_argument('incognito')
    options.add_argument("disable-blink-features=AutomationControlled")
    options.binary_location = r"C:\\Program Files (x86)\\Microsoft\\Edge\\Application\\msedge.exe"

    driver = webdriver.Edge(options=options)
    driver.execute_cdp_cmd('Network.setUserAgentOverride', \
            {"userAgent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 \
                Safari/537.36 Edg/119.0.0.0'
        })
    return driver

以上代码为三部分：一是准备工作；二是设置选项；三是调用执行。代码本身可以说明。

（三）网页展示

找个看着比较顺眼的网站，保存到本地，去掉不需要的功能，确定前端样式，形成网页模板。

后端主要是响应网页上的操作，查询数据库，并将查询结果从后端向前端传送等。

（最终网页效果）

五、结语

这个周末项目式的"小雪球"，断断续续重写了三遍。目前，程序每天在跑，每天在用，可浏览最近一周之内各省、副省级城市和安徽省各市文旅网站发布的信息资讯。

期间，也尝试接入目前流行的大模型。比如，在鼠标移到网页上某个标题时，自动连接大模型，在不跳转页面的情况下，对其内容进行摘要。