技术栈

htmlagilitypack

gc_2299
2 天前
selenium·itext7·htmlagilitypack·puppeteersharp
使用HtmlAgilityPack+PuppeteerSharp+iText7抓取Selenium帮助文档Selenium官网帮助文档的导航菜单为三层结构,如下图左侧所示,查看网页源码,其中导航菜单位于类名为ul-1的列表元素中,其内的每个li元素代表第一层级的菜单,其中类名中包含without-child的li元素为末级节点菜单,类名中包含with-child的li元素标识该菜单还有下级菜单。   基于上述导航菜单结构,编写了内容分析程序,分析每一层级的菜单名称及链接,主要代码如下所示:
gc_2299
9 个月前
itext7·htmlagilitypack·puppeteersharp
使用HtmlAgilityPack+PuppeteerSharp+iText7抓取IdentityServer4帮助文档需要学习IdentityServer4的用法,但是在IdentityServer4帮助文档网站(参考文献1)中没有找到下载离线文档的地方,准备使用HtmlAgilityPack+PuppeteerSharp+iText7将网站内容抓取生成离线PDF文档,便于本机学习、查看。   首先是分析网页结构,下图是帮助文档首页的html中左侧导航菜单的结构,从中可以看到以下几点:   1)整个导航菜单内容放在类名为wy-menu wy-menu-vertical的div元素内;   2)导航中一级菜单名称放在类名为