Golang goquery怎么解析HTML_Golang goquery教程【核心】

goquery 不能直接解析本地文件或HTML字符串,必须通过io.Reader;NewDocument仅支持URL,传入文件路径会因协议错误失败;正确做法是用os.ReadFile读取后经strings.NewReader转为Reader再调用NewDocumentFromReader。goquery 不能直接解析 HTML 字符串或文件路径,必须先转成 *http.Response 或 io.Reader ------ 这是绝大多数人卡住的第一步。为什么 doc, err := goquery.NewDocument("index.html") 总报错?因为 NewDocument 只接受 URL(会发起 HTTP 请求),不接受本地文件路径或 HTML 字符串。它底层调用的是 http.Get,所以传入 "index.html" 会被当成域名访问,自然 DNS 失败。正确做法:用 os.ReadFile 读取文件内容,再用 goquery.NewDocumentFromReader常见错误:把 "./index.html" 直接塞进 NewDocument,得到 Get "./index.html": unsupported protocol scheme ""如果 HTML 来自网络响应,确保 resp.Body 没被提前关闭或读取过 ------ goquery 需要可重读的 io.ReaderhtmlData, _ := os.ReadFile("./index.html")doc, _ := goquery.NewDocumentFromReader(strings.NewReader(string(htmlData)))Find() 找不到元素?检查选择器语法和文档加载状态goquery 的选择器基于 CSS,但不支持所有浏览器级语法(比如 :has()、:nth-child(2n)),也不处理动态渲染内容 ------ 它只解析静态 HTML DOM。确保 HTML 已完整加载:如果从 http.Response 创建,注意 Content-Type 是否为 text/html,否则可能被当成纯文本解析Find("div.content") 匹配失败?试试 Find("div").HasClass("content") 或打印 doc.Find("body").Html() 看实际结构嵌套查找别链式写错:doc.Find("ul").Find("li") 和 doc.Find("ul li") 行为一致;但 doc.Find("ul").Children("li") 只取直接子元素中文乱码或标签名变成小写?设置正确的字符编码goquery 默认用 UTF-8 解析,但如果 HTML 声明了 gbk 或 gb2312 却没转码,就会出现文字乱码、属性丢失、甚至 Find 失效(比如 class 属性读成空)。 云从科技AI开放平台 云从AI开放平台

相关推荐
花酒锄作田12 小时前
Pydantic校验配置文件
python
hboot12 小时前
AI工程师第四课 - 深度学习入门
pytorch·python·神经网络
GBASE17 小时前
G术时刻 |GBase 8s数据库事务并发控制之封锁技术介绍(下)
数据库
ZhengEnCi1 天前
P2M-Matplotlib折线图完全指南-从数据可视化到趋势分析的Python绘图利器
python·matlab·数据可视化
ZhengEnCi1 天前
P2L-Matplotlib饼图完全指南-从数据可视化到图表定制的Python绘图利器
python·matlab
曲幽1 天前
你的REST接口还在“过度投喂”数据吗?——FastAPI + GraphQL实战避坑指南
python·fastapi·web·graphql·route·cors·rest·strawberry
用户8358086187911 天前
基于 Self-RAG 与列表级重排序的进阶 RAG 系统设计与实现
python
xiezhr1 天前
逛GitHub发现了一款免费的带AI功能的数据库管理工具
数据库·ai编程·dba
Warson_L2 天前
Python `Annotated` 与 LangGraph Reducer 学习笔记
python
韩师傅2 天前
海天线算法的前世今生
python·计算机视觉