使用lxml解析本地html文件报错?

场景说明

使用 lxml 中的 parse 方法读取本地 html 文件报错,遇到这种问题该怎么解决呢?

python 复制代码
from lxml import etree


response = etree.parse('test.html')
tr_list = response.xpath('//table[@class="list-table"]/tbody/tr[not(@id)][position()>1]')
print(tr_list)

报错:

复制代码
Traceback (most recent call last):
  File "C:\Users\admin\Desktop\chipsmall\instock\spiders\test.py", line 39, in <module>
    main1()
  File "C:\Users\admin\Desktop\chipsmall\instock\spiders\test.py", line 5, in main1
    response = etree.parse('test.html')
               ^^^^^^^^^^^^^^^^^^^^^^^^
  File "src\lxml\etree.pyx", line 3541, in lxml.etree.parse
  File "src\lxml\parser.pxi", line 1879, in lxml.etree._parseDocument
  File "src\lxml\parser.pxi", line 1905, in lxml.etree._parseDocumentFromURL
  File "src\lxml\parser.pxi", line 1808, in lxml.etree._parseDocFromFile
  File "src\lxml\parser.pxi", line 1180, in lxml.etree._BaseParser._parseDocFromFile
  File "src\lxml\parser.pxi", line 618, in lxml.etree._ParserContext._handleParseResultDoc
  File "src\lxml\parser.pxi", line 728, in lxml.etree._handleParseResult
  File "src\lxml\parser.pxi", line 657, in lxml.etree._raiseParseError
  File "test.html", line 83
lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: link line 71 and head, line 83, column 347

报错原因

  • 根据报错信息,看起来是在解析HTML文件时出现了语法错误。具体错误是在test.html文件的第83行,link标签的开启和结束标签不匹配。
  • 这个错误可能是由于HTML文件本身存在语法问题导致的。你可以打开test.html文件,检查第83行的代码,确保link标签的开启和结束标签是正确匹配的。修复HTML文件中的语法错误后,再次运行代码应该就不会报错了。

解决方法

对于这种 HTML 文件不规范导致的报错有什么好的解决方法呢?

原则上对于这种 HTML 文件不规范导致的报错,修复 HTML 文件中的错误即可解决。但是这需要对 HTML 语法有基本的了解,并且如果有多个文件,每个文件错误的地方有可能不同,如果要修复文件就需要花费大量的精力!那么有什么更好的方法吗?

以下是更好的解决方法,如果遇到类似的问题可以参考:

python 复制代码
from lxml import etree


html_content = open('test.html', 'r', encoding='utf8').read()
parser = etree.HTMLParser()
tree = etree.fromstring(html_content, parser)

tr_list = tree.xpath('//table[@class="list-table"]/tbody/tr[not(@id)][position()>1]')
for otr in tr_list:
    web_product = otr.xpath('./td[@class="td-model"]/div/div/a/text()')[0]
    brand = otr.xpath('./td[@class="td-brand"]/div/text()')[0].strip()
    icon = otr.findtext('./td[@class="td-model"]/div/a/i', default=None)
    supplier = otr.xpath('./td[@class="j-company-td"]/p/a/text()')[0].strip()
    batch = otr.findtext('./td[@class="td-pproductDate"]/p', default=None)
    number = otr.findtext('./td[@class="td-stockNum"]/p[1]', default=None)
    package = otr.findtext('./td[@class="td-ppackage"]/p[1]', default=None)
    date = otr.xpath('./td[14]/p/text()')[0].strip()
    result = {
        'supplier': supplier,
        'product': web_product,
        'icon': icon,
        'brand': brand,
        'batch': batch,
        'number': number,
        'package': package,
        'date': date
    }
    print(result)

注意:该方法也适合读取网络文件,如:

python 复制代码
import requests
from lxml import etree

url = "https://example.com/test.html"

response = requests.get(url)
html_content = response.text

parser = etree.HTMLParser()
tree = etree.fromstring(html_content, parser)
tr_list = tree.xpath('//table[@class="list-table"]/tbody/tr[not(@id)][position()>1]')
print(tr_list)
相关推荐
IOT.FIVE.NO.116 小时前
Codex Skill 内部结构解析:从 SKILL.md 到 scripts、references、assets
前端·javascript·人工智能·笔记·html
我命由我1234518 小时前
前端开发概念 - 无障碍树
javascript·css·笔记·学习·html·html5·js
ZC跨境爬虫18 小时前
跟着 MDN 学 HTML day_29:(动态构建与更新 DOM 树)
前端·javascript·ui·html·html5·媒体
编程技术手记18 小时前
html table布局平衡
前端·html
ZC跨境爬虫20 小时前
跟着 MDN 学 HTML day_27:(深入理解 HTML 属性反射机制)
前端·javascript·ui·html·音视频·媒体
z19408920661 天前
在线生成背景:字号层级怎么做才像「正式物料」
前端·javascript·html
ZC跨境爬虫1 天前
跟着 MDN 学 HTML day_26:(DOM 的树形结构与节点导航)
前端·ui·html·音视频·视频编解码
华科大胡子1 天前
HTML头部元信息避坑指南
html
ZC跨境爬虫1 天前
跟着 MDN 学 HTML day_28:(使用选择器 API 在 DOM 树中进行选择与遍历)
前端·ui·html·音视频·webrtc
阿豪只会阿巴1 天前
【没事学点啥】TurboBlog轻量级个人博客项目——项目介绍
javascript·python·django·html