Golang goquery怎么解析HTML_Golang goquery教程【核心】

goquery 不能直接解析本地文件或HTML字符串,必须通过io.Reader;NewDocument仅支持URL,传入文件路径会因协议错误失败;正确做法是用os.ReadFile读取后经strings.NewReader转为Reader再调用NewDocumentFromReader。goquery 不能直接解析 HTML 字符串或文件路径,必须先转成 *http.Response 或 io.Reader ------ 这是绝大多数人卡住的第一步。为什么 doc, err := goquery.NewDocument("index.html") 总报错?因为 NewDocument 只接受 URL(会发起 HTTP 请求),不接受本地文件路径或 HTML 字符串。它底层调用的是 http.Get,所以传入 "index.html" 会被当成域名访问,自然 DNS 失败。正确做法:用 os.ReadFile 读取文件内容,再用 goquery.NewDocumentFromReader常见错误:把 "./index.html" 直接塞进 NewDocument,得到 Get "./index.html": unsupported protocol scheme ""如果 HTML 来自网络响应,确保 resp.Body 没被提前关闭或读取过 ------ goquery 需要可重读的 io.ReaderhtmlData, _ := os.ReadFile("./index.html")doc, _ := goquery.NewDocumentFromReader(strings.NewReader(string(htmlData)))Find() 找不到元素?检查选择器语法和文档加载状态goquery 的选择器基于 CSS,但不支持所有浏览器级语法(比如 :has()、:nth-child(2n)),也不处理动态渲染内容 ------ 它只解析静态 HTML DOM。确保 HTML 已完整加载:如果从 http.Response 创建,注意 Content-Type 是否为 text/html,否则可能被当成纯文本解析Find("div.content") 匹配失败?试试 Find("div").HasClass("content") 或打印 doc.Find("body").Html() 看实际结构嵌套查找别链式写错:doc.Find("ul").Find("li") 和 doc.Find("ul li") 行为一致;但 doc.Find("ul").Children("li") 只取直接子元素中文乱码或标签名变成小写?设置正确的字符编码goquery 默认用 UTF-8 解析,但如果 HTML 声明了 gbk 或 gb2312 却没转码,就会出现文字乱码、属性丢失、甚至 Find 失效(比如 class 属性读成空)。 云从科技AI开放平台 云从AI开放平台

相关推荐
小小测试开发5 小时前
安装 Python 3.10+
开发语言·人工智能·python
梦想不只是梦与想6 小时前
Python 中的装饰器
python·装饰器
我叫唧唧波6 小时前
Python+AI 全栈学习笔记
人工智能·python·学习
不会就选b7 小时前
MySQL之视图
数据库·mysql
copyer_xyf7 小时前
Python 异常处理
前端·后端·python
>no problem<7 小时前
基于cola5.0的基础设施层的多数据库切换方案思路
数据库·spring boot·mybatisplus·cola5.0·数据库迁移适配
OceanBase数据库官方博客7 小时前
OceanBase 赋能央国企:从发电到用电的全链路业务承载
数据库·oceanbase
麻雀飞吧7 小时前
期货多合约策略目标持仓怎么更新才不乱
python·区块链
Cthy_hy7 小时前
拓扑排序超详解:原理 + Kahn 贪心算法
python·算法·贪心算法
LSssT.8 小时前
【01】Python 机器学习
开发语言·python