goquery 不能直接解析本地文件或HTML字符串,必须通过io.Reader;NewDocument仅支持URL,传入文件路径会因协议错误失败;正确做法是用os.ReadFile读取后经strings.NewReader转为Reader再调用NewDocumentFromReader。goquery 不能直接解析 HTML 字符串或文件路径,必须先转成 *http.Response 或 io.Reader ------ 这是绝大多数人卡住的第一步。为什么 doc, err := goquery.NewDocument("index.html") 总报错?因为 NewDocument 只接受 URL(会发起 HTTP 请求),不接受本地文件路径或 HTML 字符串。它底层调用的是 http.Get,所以传入 "index.html" 会被当成域名访问,自然 DNS 失败。正确做法:用 os.ReadFile 读取文件内容,再用 goquery.NewDocumentFromReader常见错误:把 "./index.html" 直接塞进 NewDocument,得到 Get "./index.html": unsupported protocol scheme ""如果 HTML 来自网络响应,确保 resp.Body 没被提前关闭或读取过 ------ goquery 需要可重读的 io.ReaderhtmlData, _ := os.ReadFile("./index.html")doc, _ := goquery.NewDocumentFromReader(strings.NewReader(string(htmlData)))Find() 找不到元素?检查选择器语法和文档加载状态goquery 的选择器基于 CSS,但不支持所有浏览器级语法(比如 :has()、:nth-child(2n)),也不处理动态渲染内容 ------ 它只解析静态 HTML DOM。确保 HTML 已完整加载:如果从 http.Response 创建,注意 Content-Type 是否为 text/html,否则可能被当成纯文本解析Find("div.content") 匹配失败?试试 Find("div").HasClass("content") 或打印 doc.Find("body").Html() 看实际结构嵌套查找别链式写错:doc.Find("ul").Find("li") 和 doc.Find("ul li") 行为一致;但 doc.Find("ul").Children("li") 只取直接子元素中文乱码或标签名变成小写?设置正确的字符编码goquery 默认用 UTF-8 解析,但如果 HTML 声明了 gbk 或 gb2312 却没转码,就会出现文字乱码、属性丢失、甚至 Find 失效(比如 class 属性读成空)。 云从科技AI开放平台 云从AI开放平台
相关推荐
m0_746752302 小时前
golang如何编写Markdown转HTML工具_golang Markdown转HTML工具编写详解Bug 挖掘机2 小时前
一篇理清Prompt,Skill,MCP之间的区别weixin_424999362 小时前
C#怎么使用TopLevel顶级语句 C#顶级语句怎么写如何省略Main方法简化控制台程序【语法】L-影2 小时前
FastAPI全解析(下):除了快,它还能干多少脏活累活?qq_372154232 小时前
如何利用Bootstrap的Flex工具类快速排版qq_654366982 小时前
golang如何实现菜单权限动态加载_golang菜单权限动态加载实现详解寒秋花开曾相惜2 小时前
(学习笔记)4.1 Y86-64指令集体系结构(4.1.4 Y86-64异常&4.1.5 Y86-64程序)arronKler3 小时前
大数据量高并发的数据库优化Rick19933 小时前
Spring AI 如何进行权限控制