goquery 不能直接解析本地文件或HTML字符串,必须通过io.Reader;NewDocument仅支持URL,传入文件路径会因协议错误失败;正确做法是用os.ReadFile读取后经strings.NewReader转为Reader再调用NewDocumentFromReader。goquery 不能直接解析 HTML 字符串或文件路径,必须先转成 *http.Response 或 io.Reader ------ 这是绝大多数人卡住的第一步。为什么 doc, err := goquery.NewDocument("index.html") 总报错?因为 NewDocument 只接受 URL(会发起 HTTP 请求),不接受本地文件路径或 HTML 字符串。它底层调用的是 http.Get,所以传入 "index.html" 会被当成域名访问,自然 DNS 失败。正确做法:用 os.ReadFile 读取文件内容,再用 goquery.NewDocumentFromReader常见错误:把 "./index.html" 直接塞进 NewDocument,得到 Get "./index.html": unsupported protocol scheme ""如果 HTML 来自网络响应,确保 resp.Body 没被提前关闭或读取过 ------ goquery 需要可重读的 io.ReaderhtmlData, _ := os.ReadFile("./index.html")doc, _ := goquery.NewDocumentFromReader(strings.NewReader(string(htmlData)))Find() 找不到元素?检查选择器语法和文档加载状态goquery 的选择器基于 CSS,但不支持所有浏览器级语法(比如 :has()、:nth-child(2n)),也不处理动态渲染内容 ------ 它只解析静态 HTML DOM。确保 HTML 已完整加载:如果从 http.Response 创建,注意 Content-Type 是否为 text/html,否则可能被当成纯文本解析Find("div.content") 匹配失败?试试 Find("div").HasClass("content") 或打印 doc.Find("body").Html() 看实际结构嵌套查找别链式写错:doc.Find("ul").Find("li") 和 doc.Find("ul li") 行为一致;但 doc.Find("ul").Children("li") 只取直接子元素中文乱码或标签名变成小写?设置正确的字符编码goquery 默认用 UTF-8 解析,但如果 HTML 声明了 gbk 或 gb2312 却没转码,就会出现文字乱码、属性丢失、甚至 Find 失效(比如 class 属性读成空)。 云从科技AI开放平台 云从AI开放平台
相关推荐
小小测试开发5 小时前
安装 Python 3.10+梦想不只是梦与想6 小时前
Python 中的装饰器我叫唧唧波6 小时前
Python+AI 全栈学习笔记不会就选b7 小时前
MySQL之视图copyer_xyf7 小时前
Python 异常处理>no problem<7 小时前
基于cola5.0的基础设施层的多数据库切换方案思路OceanBase数据库官方博客7 小时前
OceanBase 赋能央国企:从发电到用电的全链路业务承载麻雀飞吧7 小时前
期货多合约策略目标持仓怎么更新才不乱Cthy_hy7 小时前
拓扑排序超详解:原理 + Kahn 贪心算法LSssT.8 小时前
【01】Python 机器学习