使用 Ruby 的 Nokogiri 库来解析

爬虫程序的主要目标是获取指定网站上的数据。在这里,我们将使用 Ruby 的 Nokogiri 库来解析 HTML,并使用 HTTParty 库来发送 HTTP 请求。下面是一个简单的示例,演示如何使用 Ruby 编写一个爬虫程序来爬取 1688 网站的数据。

ruby 复制代码
require 'nokogiri'
require 'httparty'


# 定义要爬取的 URL
url = "jshk.com.cn"

# 使用 HTTParty 发送 HTTP 请求
response = HTTParty.get(url, headers: { "Proxy-Host" => proxy_host, "Proxy-Port" => proxy_port })

# 使用 Nokogiri 解析 HTML
doc = Nokogiri::HTML(response.body)

# 获取网页中的所有商品链接
links = doc.css(".product-item")

links.each do |link|
  puts link["href"]
end

上述代码的工作步骤如下:

  1. 首先,我们引入了 Nokogiri 和 HTTParty 库。

  2. 然后,我们设置了代理信息,包括代理服务器的主机名和端口号。

  3. 接下来,我们定义了要爬取的 URL,即 1688 网站的首页。

  4. 使用 HTTParty 发送 HTTP 请求,并设置代理信息。

  5. 使用 Nokogiri 解析返回的 HTML。

  6. 使用 CSS 选择器获取网页中的所有商品链接。

  7. 最后,遍历所有链接,并打印出每个链接的 URL。

注意:在实际使用中,可能需要处理各种异常情况,例如网络连接错误、HTTP 请求错误等。

相关推荐
SsunmdayKT12 小时前
前后端项目部署与运行机制全流程详解
前端·后端
Reart12 小时前
从0解构tinyWeb项目--(Day:10)
前端·后端·架构
江南十四行12 小时前
Python生成器与协程:从迭代器到异步编程的进阶之路
开发语言·python
SamDeepThinking13 小时前
程序员如何接受工作内容毫无意义?
java·后端·程序员
测试员周周13 小时前
【AI测试功能3】AI功能测试的三层架构:单元测试 → 集成测试 → E2E测试——AI系统测试金字塔实战指南
开发语言·人工智能·python·功能测试·架构·单元测试·集成测试
lly20240613 小时前
AppML 案例原型
开发语言
_Evan_Yao13 小时前
一文搞懂:AI编程辅助工具——从GitHub Copilot到通义灵码,不同人群如何驾驭AI编程助手?
人工智能·后端·copilot·ai编程
jllllyuz13 小时前
MATLAB 回声抵消(AEC)、噪声抑制(NS)、自动增益控制(AGC)完整实现
开发语言·matlab
froginwe1113 小时前
Vue.js 计算属性
开发语言
05候补工程师13 小时前
【408 从零到一】线性表逻辑特征、存储结构对比与 C/C++ 动态内存分配避坑指南
c语言·开发语言·数据结构·c++·考研