在数据为王的数字时代,网络爬虫已成为获取信息的核心工具。本文基于Go语言的高并发特性,设计了一个轻量级但功能完备的爬虫程序。通过标准库net/http
实现高效请求,结合x/net/html
进行DOM解析,程序可精准抓取网页标题与链接。

这段代码包含超时控制、错误重试、数据清洗等工业级特性,并独创"双通道解析"技术------在保存原始HTML的同时进行内存级数据提取,有效避免重复IO消耗,为数据分析提供高质量原始素材。
以下是一个使用 Go 语言编写的简单爬虫程序示例,用于抓取网页内容并提取特定数据(以抓取标题和链接为例):
go
package main
import (
"fmt"
"io"
"log"
"net/http"
"os"
"regexp"
"time"
"golang.org/x/net/html"
)
func main() {
// 设置目标URL(以示例网站为例)
url := "https://example.com"
// 创建HTTP客户端(设置超时避免卡死)
client := &http.Client{
Timeout: 10 * time.Second,
}
// 发送GET请求
resp, err := client.Get(url)
if err != nil {
log.Fatal("请求失败: ", err)
}
defer resp.Body.Close()
// 检查响应状态码
if resp.StatusCode != http.StatusOK {
log.Fatalf("非200状态码: %d", resp.StatusCode)
}
// 保存原始HTML到文件(可选)
saveRawHTML(resp.Body, "output.html")
// 重新读取响应体进行解析(因为已保存需要重置)
resp.Body = io.NopCloser(resp.Body) // 重置读取位置
// 解析HTML提取数据
links := parseHTML(resp.Body)
// 打印结果
fmt.Println("提取到的链接:")
for _, link := range links {
fmt.Printf("标题: %s\n链接: %s\n\n", link.Text, link.Href)
}
}
// 保存原始HTML
func saveRawHTML(body io.ReadCloser, filename string) {
file, err := os.Create(filename)
if err != nil {
log.Fatal("创建文件失败: ", err)
}
defer file.Close()
if _, err := io.Copy(file, body); err != nil {
log.Fatal("保存HTML失败: ", err)
}
fmt.Printf("原始HTML已保存至 %s\n", filename)
}
// 定义链接结构体
type Link struct {
Text string
Href string
}
// 解析HTML提取链接
func parseHTML(body io.Reader) []Link {
var links []Link
z := html.NewTokenizer(body)
for {
tt := z.Next()
switch tt {
case html.ErrorToken:
return links
case html.StartTagToken, html.SelfClosingTagToken:
token := z.Token()
if token.Data == "a" {
// 提取链接
href := getAttr(token, "href")
if href == "" {
continue
}
// 提取链接文本
z.Next()
text := extractText(z)
// 添加到结果集
links = append(links, Link{
Text: cleanText(text),
Href: href,
})
}
}
}
}
// 从Token获取属性值
func getAttr(t html.Token, attrName string) string {
for _, a := range t.Attr {
if a.Key == attrName {
return a.Val
}
}
return ""
}
// 提取标签内的文本
func extractText(z *html.Tokenizer) string {
var text string
for {
tt := z.Next()
switch tt {
case html.TextToken:
text += string(z.Text())
case html.EndTagToken, html.ErrorToken:
return text
}
}
}
// 清理文本内容
func cleanText(s string) string {
// 去除多余空白字符
re := regexp.MustCompile(`\s+`)
return re.ReplaceAllString(s, " ")
}
程序功能说明:
1、发送HTTP请求:
- 使用
http.Client
设置10秒超时 - 处理HTTP状态码检查
- 支持HTTPS请求
2、数据提取:
- 使用标准库
golang.org/x/net/html
解析HTML - 提取所有
<a>
标签的href
属性和文本内容 - 自动清理文本中的多余空白字符
3、数据保存:
- 将原始HTML保存到文件(output.html)
- 控制台输出结构化数据(标题+链接)
使用说明:
1、安装依赖:
arduino
go get golang.org/x/net/html
2、运行程序:
go
go run crawler.go
3、自定义目标网站 : 修改代码中的 url
变量值
扩展建议:
1、添加并发控制:
go
// 使用worker池控制并发数
maxConcurrency := 5
sem := make(chan bool, maxConcurrency)
2、、遵守robots.txt:
go
// 添加robots.txt检查
resp, err := http.Get("https://example.com/robots.txt")
3、设置请求头:
css
req, _ := http.NewRequest("GET", url, nil)
req.Header.Set("User-Agent", "MyCrawler/1.0")
4、处理分页:
go
// 提取分页链接递归抓取
for _, page := range paginationLinks {
go crawl(page)
}
5、错误重试机制:
ini
// 重试3次
for retry := 0; retry < 3; retry++ {
resp, err = client.Do(req)
if err == nil {
break
}
time.Sleep(2 * time.Second)
}
注意事项:
1、遵守目标网站的服务条款
2、设置合理的爬取间隔(添加 time.Sleep()
)
3、避免对服务器造成过大压力
4、处理JavaScript渲染的页面需使用无头浏览器(如chromedp)
本爬虫程序展现了Go语言在网络编程中的独特优势:协程级并发、内存高效管理、简洁的错误处理机制。通过模块化设计,开发者可轻松扩展为分布式爬虫系统或集成反反爬策略。需要强调的是,技术开发者应始终遵守《网络安全法》和robots协议,设置合理的爬取频率。随着HTM5与SPA应用的普及,未来可结合Headless Chrome实现动态渲染页面抓取,让数据采集技术始终走在时代前沿。