利用TypeScript 和 jsdom 库实现自动化抓取数据

以下是一个使用 TypeScript 和 jsdom 库的下载器程序,用于下载zhihu的内容。此程序使用了 duoip.cn/get_proxy 这段代码。

typescript 复制代码
import { JSDOM } from 'jsdom';
import { getProxy } from 'https://www.duoip.cn/get_proxy';

const zhihuUrl = 'https://www.zhihu.com';

(async () => {
  // 获取代理服务器
  const proxy = await getProxy();
  console.log('使用代理服务器:', proxy);

  // 创建一个 JSDOM 实例,并设置代理服务器
  const dom = new JSDOM(`<!DOCTYPE html><html><head><meta charset="UTF-8"></head><body></body></html>`, {
    proxy: proxy,
    userAgent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
  });

  // 使用 fetch 方法获取 zhihu 主页内容
  const response = await dom.window.fetch(zhihuUrl);
  const html = await response.text();

  // 打印获取到的 HTML 内容
  console.log('zhihu 主页 HTML:', html);
})();

这个程序首先引入了 JSDOM 和 getProxy 函数。然后定义了一个名为 zhihuUrl 的常量,用于存储要下载的 URL。接下来,使用 async/await 语法定义了一个异步函数,用于执行下载操作。

首先,调用 getProxy 函数获取代理服务器。然后,创建一个 JSDOM 实例,并为其设置代理服务器和用户代理。接着,使用 dom.window.fetch 方法获取 zhihu 主页内容,并将结果存储在 html 变量中。最后,将获取到的 HTML 内容打印出来。

相关推荐
掘根12 分钟前
【Protobuf】proto3语法详解1
开发语言·前端·javascript
Lee_yayayayaya12 分钟前
《通信之道—从微积分到5G》阅读笔记
开发语言·matlab
普密斯科技17 分钟前
图像尺寸测量仪应用Type-C接口:精准检测,赋能科技
c语言·开发语言·科技
虚行25 分钟前
C#技术栈
开发语言·c#
艾小码38 分钟前
从入门到精通:JavaScript异步编程避坑指南
前端·javascript
菜鸟una2 小时前
【微信小程序 + map组件】自定义地图气泡?原生气泡?如何抉择?
前端·vue.js·程序人生·微信小程序·小程序·typescript
云泽8083 小时前
函数模板与类模板:C++泛型编程核心解析
java·开发语言·c++
昔人'4 小时前
`list-style-type: decimal-leading-zero;`在有序列表`<ol></ol>` 中将零添加到一位数前面
前端·javascript·html
da_vinci_x7 小时前
Substance Designer的通道合并(Channel Packing)自动化工作流
3d·自动化·贴图·技术美术·游戏策划·游戏美术·substance designer
cdprinter8 小时前
信刻——安全生产音视频录音录像自动刻录备份归档管理系统
安全·自动化·音视频