基于golang的文章信息抓取

基于golang的文章信息抓取

学习golang爬虫,实现广度爬取,抓取特定的网页地址:测试站点新笔趣阁(https://www.xsbiquge.com/)
主要学习golang的goroutine和channel之间的协作,无限爬取站点小说的地址仅限书目录地址,不进行文章内容爬取

在学习中遇到了一些问题:例如共享变量map写入竞争、连接提前关闭问题等等

福利彩蛋:没有好玩的 API 接口?上百款免费接口等你来,免费 API,免费 API 大全

为了解决map类型共享变量竞争问题,封装map类型添加读写锁限制,防止不同的goroutine之间出现写入竞争(虽然只有goroutine比较多的时候才会出现)

go 复制代码
package util

import "sync"

//封装一个map结构体,主要用来过滤相同的url地址
type VisitMap struct {
    sync.RWMutex
    visited map[string]bool
}

func (vis *VisitMap) ReadMap(url string) bool {
    vis.RLock()
    value := vis.visited[url]
    vis.RUnlock()
    return value
}

func (vis *VisitMap) WriteMap(url string) {
    vis.Lock()
    vis.visited[url] = true
    vis.Unlock()
}

//channel封装
type Pool struct {
    VisitMap *VisitMap
    queue    chan string
}

func New(size int) *Pool {
    if size < 1 {
        size = 1
    }
    visitMap := new(VisitMap)
    visitMap.visited = make(map[string]bool)

    return &Pool{
        VisitMap: visitMap,
        queue:    make(chan string, size),
        wg:       &sync.WaitGroup{},
    }
}

接下来是main函数处理

go 复制代码
package main

import (
    "fmt"
    "github.com/thinkeridea/go-extend/exstrings"
    "golang.org/x/net/html"
    "net/http"
    "net/url"
    "regexp"
    "reptile/demo/queue/dao"
    "reptile/demo/queue/model"
    "reptile/tools"
    "strings"
    "time"
)

func main() {

    //1,初始化Orm
    _, err := tools.OrmEngine()
    if err != nil {
        fmt.Println(err)
        panic(err)
    }

    bookUrl := "https://www.xsbiquge.com/"
    //bookUrl = "https://www.xsbiquge.com/68_68470/"
    pool := New(100)
    pool.queue <- bookUrl
    //根据主页面爬取子页面
    u, err := url.Parse(bookUrl)

    if err != nil {
        fmt.Println(err)
        return
    }
    hostName := u.Hostname()
    for uri := range pool.queue {
        go DownLoad(hostName, uri, pool)
        fmt.Println("range pool.queue  : " + uri)
    }

    fmt.Println("结束啦:" + bookUrl)

}

html抓取和信息处理,匹配小说列表链接

go 复制代码
/**
下载
*/
func DownLoad(host, bookUrl string, pool *Pool) {

    showTime("download start")

    pool.VisitMap.WriteMap(bookUrl)
    //http 客户端
    client := http.Client{}
    //创建请求
    req, err := http.NewRequest("GET", bookUrl, nil)
    if err != nil {
        fmt.Println(err)
    }

    //设置请求header
    req.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36")

    //执行请求
    showTime("client.Do start")
    resp, err := client.Do(req)
    showTime("client.Do end")

    if err != nil {
        fmt.Println(err)
    }
    //这里判断下,如果响应关闭。则直接返回,实测是存在这种情况的
    if resp == nil || resp.Close {
        return
    }
    defer resp.Body.Close()

    showTime("links start")
    body, err := html.Parse(resp.Body)
    links := visit(nil, body)
    showTime("links end")

    for _, link := range links {
        absolute := urlJoin(link, bookUrl)
        //fmt.Println(runtime.NumGoroutine())

        //匹配是否是文章页面
        rh, _ := regexp.Compile(host)
        host := rh.MatchString(absolute)
        //匹配是否是文章页面
        r, _ := regexp.Compile(`\.html`)
        html := r.MatchString(absolute)

        if bookUrl != " " && host && !html {

            len := strings.Index(absolute, "#")

            if len != -1 {
                absolute = exstrings.SubString(absolute, 0, len)
            }
            fmt.Println("current url: " + absolute)

            if !pool.VisitMap.ReadMap(absolute) {
                fmt.Println("add url: " + absolute)
                go urlQueue(absolute, pool)
            }
        }
    }
}

func urlQueue(url string, pool *Pool) {
    pool.queue <- url
}


func urlJoin(href, base string) string {
    uri, err := url.Parse(href)
    if err != nil {
        return " "
    }
    baseUrl, err := url.Parse(base)
    if err != nil {
        return " "
    }
    return baseUrl.ResolveReference(uri).String()
}


func showTime(action string) {
    //fmt.Println(fmt.Sprintf("%s :%s", action, time.Now().String()))
}

在页面链接处理过程中遇到了空指针问题:所以在处理之前先判断下 *html.Node指针是否是空指针

go 复制代码
//文档链接处理
func visit(links []string, n *html.Node) []string {
    if n != nil {
        if n.Type == html.ElementNode && n.Data == "a" {
            for _, a := range n.Attr {
                if a.Key == "href" {
                    links = append(links, a.Val)
                }
            }
        }
        for c := n.FirstChild; c != nil; c = c.NextSibling {
            links = visit(links, c)
        }
    }
    return links
}

学习收货:

读写锁的使用、不同goroutine之间通过channel通讯、url地址解析、html解析、html内容提去链接地址、通过map进行链接地址去重、go-extend扩展工具包使用

但是有一个问题,通过range来循环通道,如果通道内没有消息了就会处于等待状态,要如果退出?

福利彩蛋:没有好玩的 API 接口?上百款免费接口等你来,免费 API,免费 API 大全

相关推荐
方圆想当图灵15 小时前
《生产微服务》评估清单 CheckList
后端·微服务
服务端技术栈15 小时前
历时 1 个多月,我的第一个微信小程序「图片转 Excel」终于上线了!
前端·后端·微信小程序
计算机毕业设计指导15 小时前
基于Spring Boot的幼儿园管理系统
spring boot·后端·信息可视化
Blurpath15 小时前
如何利用静态代理IP优化爬虫策略?从基础到实战的完整指南
爬虫·网络协议·ip代理·住宅代理
2501_9159214315 小时前
小团队如何高效完成 uni-app iOS 上架,从分工到工具组合的实战经验
android·ios·小程序·uni-app·cocoa·iphone·webview
年轻的麦子15 小时前
Go 框架学习之:go.uber.org/fx项目实战
后端·go
小蒜学长15 小时前
django全国小米su7的行情查询系统(代码+数据库+LW)
java·数据库·spring boot·后端
liulilittle16 小时前
HTTP简易客户端实现
开发语言·网络·c++·网络协议·http·编程语言
程序员皮皮林16 小时前
Java jar 如何防止被反编译?代码写的太烂,害怕被人发现
java·开发语言·jar
wjayg22516 小时前
网络爬虫是自动从互联网上采集数据的程序
爬虫