【Delphi 爬虫库 3】使用封装好的 HTML 解析库对 HTML 数据进行解析

文章目录

解析HTML的意义

HTML是Web页面的构建语言,每个Web开发者都需要了解HTML的基础知识。但是,通过手动阅读和解析需要极大的心智和时间投入。这时候,我们就需要使用HTML在线解析工具,方便直接地解析和编辑HTML代码。

通过使用HTML在线解析工具,我们能够实现快速编辑和预览HTML代码的功能。而且,随着科技发展,HTML在线解析工具被越来越多地应用到各种软件和Web应用程序中,具有越来越广泛的应用前景。

1、简单解析HTML代码

下面是一个经典的HTML解析的例子:

html 复制代码
<!DOCTYPE html>
<html>
<head>
  <title>Hello, World, This is title!</title>
</head>
<body>
  <h1>Hello, World, This is h1!</h1>
  <p>This is a paragraph1.</p>
  <p>This is a paragraph2.</p>  
</body>
</html>

我们的目标就是利用Html解析库提取出title h1 p 中的内容.。

核心代码:

js 复制代码
procedure TForm1.Button4Click(Sender: TObject);
var
  LHtml: IHtmlElement;
  LList: IHtmlElementList;
  ExtractedText: string;
begin
  LHtml := ParserHTML(Memo1.Text);
  if LHtml <> nil then
  begin
    ExtractedText := LHtml.Find('title').Text;
    Memo2.Lines.Add(ExtractedText);
    ExtractedText := LHtml.Find('h1').Text;
    Memo2.Lines.Add(ExtractedText);
    ExtractedText := LHtml.Find('p').Text;
    Memo2.Lines.Add(ExtractedText);
  end;
end;

运行返回:

复制代码
Hello, World, This is title!
Hello, World, This is h1!
This is a paragraph1.This is a paragraph2.

2、实战解析HTML代码

虎扑体育中的数据进行解析

HTML源代码非常的长,这里就不贴出了,我们需要对最后的<script id="__NEXT_DATA__" type="application/json">中的json数据解析出来.

核心代码:

js 复制代码
procedure TForm1.Button5Click(Sender: TObject);
var
  LHtml: IHtmlElement;
  LList: IHtmlElementList;
  Json: string;
begin
  LHtml := ParserHTML(Memo1.Text);
  if LHtml <> nil then
  begin
    LList := LHtml.Find('SCRIPT');
    for LHtml in LList do
    begin
      if LHtml.Orignal = '<script id="__NEXT_DATA__" type="application/json">' then
      begin
        Json:= LHtml.InnerHtml;
        Memo2.Lines.Add(Json);
      end;
    end;
  end;
end;

运行返回:

成功解析提取出Json,至于对Json怎么解析上一篇文章已经讲过了。

相关推荐
觉醒大王31 分钟前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
vx_biyesheji00011 小时前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts
深蓝电商API2 小时前
爬虫IP封禁后的自动切换与检测机制
爬虫·python
Never_Satisfied2 小时前
在JavaScript / HTML中,关于querySelectorAll方法
开发语言·javascript·html
喵手3 小时前
Python爬虫实战:公共自行车站点智能采集系统 - 从零构建生产级爬虫的完整实战(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集公共自行车站点·公共自行车站点智能采集系统·采集公共自行车站点导出csv
喵手4 小时前
Python爬虫实战:地图 POI + 行政区反查实战 - 商圈热力数据准备完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·地区poi·行政区反查·商圈热力数据采集
芷栀夏4 小时前
从 CANN 开源项目看现代爬虫架构的演进:轻量、智能与统一
人工智能·爬虫·架构·开源·cann
夏幻灵5 小时前
HTML5里最常用的十大标签
前端·html·html5
程序员猫哥_6 小时前
HTML 生成网页工具推荐:从手写代码到 AI 自动生成网页的进化路径
前端·人工智能·html
杨超越luckly6 小时前
HTML应用指南:利用GET请求获取中国500强企业名单,揭秘企业增长、分化与转型的新常态
前端·数据库·html·可视化·中国500强