【Go程序】爬虫获取豆瓣Top250

之前在网上下载了一个minigame的开源项目,就是电影日历。里面有一项使用了豆瓣的API,获取豆瓣的Top250的电影。但是由于豆瓣的OpenAPI改版了,又不好申请到OpenAPI的资格,想想也不是什么非法的事情,就稍微搞几部电影名字嘛。

一般来讲,我们经常用Python写爬虫来解析数据,主要是因为request库和beautifulsoup4库过于好用了点,每次都会忘记怎么用,每次看个例子又能用起来了。今天想想要不用Go来实现把,毕竟现在的程序用go写起来也很顺手了。

这里需要用到一个库,goquery,功能和bs4一样,用于解析获取到的xml,然后net/http方法用于替代python的request库。动手把。

Go 复制代码
package main

import (
	"fmt"
	"log"
	"math/rand"
	"net/http"
	"time"

	"github.com/PuerkitoBio/goquery"
)

// randomUserAgent 返回一个随机的 User-Agent 字符串
func randomUserAgent() string {
	userAgents := []string{
		"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
		"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36",
		"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36",
		"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0",
		"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:89.0) Gecko/20100101 Firefox/89.0",
	}

	rand.Seed(time.Now().UnixNano())
	return userAgents[rand.Intn(len(userAgents))]
}

func fetch(url string) (*goquery.Document, error) {
	req, err := http.NewRequest("GET", url, nil)
	if err != nil {
		return nil, err
	}

	userAgent := randomUserAgent()
	req.Header.Set("User-Agent", userAgent)

	client := &http.Client{}
	resp, err := client.Do(req)
	if err != nil {
		return nil, err
	}

	if resp.StatusCode != http.StatusOK {
		return nil, fmt.Errorf("request failed with status code: %d", resp.StatusCode)
	}
	defer resp.Body.Close()
	doc, err := goquery.NewDocumentFromReader(resp.Body)
	if err != nil {
		return nil, err
	}

	return doc, nil
}

func main() {
	baseURL := "https://movie.douban.com/top250"
	for page := 1; page <= 10; page++ { // 假设每页25部电影,共10页
		url := fmt.Sprintf("%s?start=%d&filter=", baseURL, (page-1)*25)
		doc, err := fetch(url)
		if err != nil {
			log.Fatal(err)
		}

		doc.Find(".item").Each(func(i int, s *goquery.Selection) {
			title := s.Find(".title").First().Text()
			rating := s.Find(".rating_num").First().Text()
			votes := s.Find(".star .pl").First().Prev().Text()

			fmt.Printf("Movie %d: %s, Rating: %s, Votes: %s\n", i+(page-1)*25+1, title, rating, votes)
		})
	}
}

得到结果如下

Go 复制代码
Movie 1: 肖申克的救赎, Rating: 9.7, Votes: 
Movie 2: 霸王别姬, Rating: 9.6, Votes: 
Movie 3: 阿甘正传, Rating: 9.5, Votes: 
Movie 4: 泰坦尼克号, Rating: 9.5, Votes: 
Movie 5: 千与千寻, Rating: 9.4, Votes: 
Movie 6: 这个杀手不太冷, Rating: 9.4, Votes: 
Movie 7: 美丽人生, Rating: 9.5, Votes: 
............

我们对代码解释一下:

这段 Go 代码是一个简单的网页爬虫,用于抓取豆瓣电影 Top 250 列表中的电影标题、评分和投票数。下面是代码的详细解释:

  1. 导入包:

main:主包。

fmt, log, math/rand, net/http, time:标准库包,分别用于格式化输出、日志记录、生成随机数、处理 HTTP 请求和时间操作。

"github.com/PuerkitoBio/goquery":一个用于解析 HTML 文档的第三方库。

  1. randomUserAgent 函数:

定义了一个字符串切片 userAgents,其中包含了多个不同的 User-Agent 字符串。

使用 rand.Seed(time.Now().UnixNano()) 初始化随机数生成器。

函数返回 userAgents 切片中的一个随机元素作为 User-Agent。

  1. fetch 函数:
  • 创建一个新的 HTTP GET 请求。
  • 设置请求头的 User-Agent 字段为一个随机值。
  • 使用 http.Client 发送请求并获取响应。
  • 检查 HTTP 响应状态码,如果不是 http.StatusOK(即 200 OK),则返回错误。
  • 使用 goquery.NewDocumentFromReader 从响应体创建一个 goquery.Document 对象。
  • 返回文档对象或错误。
  1. main 函数:
  • 定义了豆瓣电影 Top 250 的基础 URL。
  • 循环遍历 10 页(假设每页有 25 部电影)。
  • 构造每一页的完整 URL。
  • 调用 fetch 函数获取页面的 goquery.Document。
  • 使用 doc.Find(".item") 查找所有具有类 .item 的元素,这些元素代表单个电影条目。
  • 对于每个找到的电影条目,提取标题、评分和投票数。
  • 打印提取的信息。

代码中使用了 goquery 库来解析和选择 HTML 元素,以及 log.Fatal 来记录并终止程序在遇到错误时的运行。

相关推荐
Tech Synapse11 小时前
Python网络爬虫实践案例:爬取猫眼电影Top100
开发语言·爬虫·python
数据小爬虫@12 小时前
利用Python爬虫获取淘宝店铺详情
开发语言·爬虫·python
B站计算机毕业设计超人18 小时前
计算机毕业设计SparkStreaming+Kafka新能源汽车推荐系统 汽车数据分析可视化大屏 新能源汽车推荐系统 汽车爬虫 汽车大数据 机器学习
数据仓库·爬虫·python·数据分析·kafka·数据可视化·推荐算法
易辰君20 小时前
【Python爬虫实战】深入解析 Scrapy 爬虫框架:高效抓取与实战搭建全指南
开发语言·爬虫·python
风动也无爱20 小时前
Java的正则表达式和爬虫
java·爬虫·正则表达式
数据小爬虫@21 小时前
如何利用Python爬虫精准获得1688店铺的所有商品信息
开发语言·爬虫·python
好看资源平台1 天前
动态网站数据爬取——Selenium的使用
爬虫·python
兆。1 天前
python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具
爬虫·python·qt
吖吖耶3332 天前
【Python爬虫】Scrapy框架实战
爬虫·python·scrapy
Token_w2 天前
Python爬虫进阶实战项目:使用青果网代理高效爬取某手办网详情数据
大数据·网络·爬虫·python·tcp/ip·tcp