利用TypeScript 和 jsdom 库实现自动化抓取数据

以下是一个使用 TypeScript 和 jsdom 库的下载器程序,用于下载zhihu的内容。此程序使用了 duoip.cn/get_proxy 这段代码。

typescript 复制代码
import { JSDOM } from 'jsdom';
import { getProxy } from 'https://www.duoip.cn/get_proxy';

const zhihuUrl = 'https://www.zhihu.com';

(async () => {
  // 获取代理服务器
  const proxy = await getProxy();
  console.log('使用代理服务器:', proxy);

  // 创建一个 JSDOM 实例,并设置代理服务器
  const dom = new JSDOM(`<!DOCTYPE html><html><head><meta charset="UTF-8"></head><body></body></html>`, {
    proxy: proxy,
    userAgent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
  });

  // 使用 fetch 方法获取 zhihu 主页内容
  const response = await dom.window.fetch(zhihuUrl);
  const html = await response.text();

  // 打印获取到的 HTML 内容
  console.log('zhihu 主页 HTML:', html);
})();

这个程序首先引入了 JSDOM 和 getProxy 函数。然后定义了一个名为 zhihuUrl 的常量,用于存储要下载的 URL。接下来,使用 async/await 语法定义了一个异步函数,用于执行下载操作。

首先,调用 getProxy 函数获取代理服务器。然后,创建一个 JSDOM 实例,并为其设置代理服务器和用户代理。接着,使用 dom.window.fetch 方法获取 zhihu 主页内容,并将结果存储在 html 变量中。最后,将获取到的 HTML 内容打印出来。

相关推荐
希望永不加班6 分钟前
SpringBoot 消息幂等性设计:防重复消费
java·开发语言·spring boot·后端·spring
l1t6 分钟前
DeepSeek总结的使用实体-组件-系统和基于存在性处理进行Python编程7-8
开发语言·python
我是一颗柠檬7 分钟前
【JDK8新特性】CompletableFuture异步编程Day10
java·开发语言·后端·intellij-idea
czt_java19 分钟前
线程的几种状态
java·开发语言
步里软件20 分钟前
2605.告别低效手动操作:扣子自动化生图工具的技术实现与效率提升实践
自动化·扣子·扣子自动化·扣子技能自动化·自动化生图程序
y = xⁿ25 分钟前
JUC八股:线程池及ThreadLocal
java·开发语言
半导体守望者25 分钟前
MKS AX7665-02 手侧 通讯 输入输出 接口定义 DB25S 信号描述 LCD Readout
经验分享·学习·机器人·自动化·制造
01_ice28 分钟前
Java多态
java·开发语言
AI人工智能+电脑小能手1 小时前
【大白话说Java面试题 第78题】【Mysql篇】第8题:解释下最左前缀原则?
java·开发语言·数据库·mysql·面试
Saniffer_SH1 小时前
【每日一题】不只是点亮画面:UniGraf 如何把 HDMI/DP 接口问题拆成可定位、可复现、可自动化验证的测试流程?
运维·人工智能·测试工具·fpga开发·性能优化·自动化·压力测试