使用 Ruby 的 Nokogiri 库来解析

爬虫程序的主要目标是获取指定网站上的数据。在这里,我们将使用 Ruby 的 Nokogiri 库来解析 HTML,并使用 HTTParty 库来发送 HTTP 请求。下面是一个简单的示例,演示如何使用 Ruby 编写一个爬虫程序来爬取 1688 网站的数据。

ruby 复制代码
require 'nokogiri'
require 'httparty'


# 定义要爬取的 URL
url = "jshk.com.cn"

# 使用 HTTParty 发送 HTTP 请求
response = HTTParty.get(url, headers: { "Proxy-Host" => proxy_host, "Proxy-Port" => proxy_port })

# 使用 Nokogiri 解析 HTML
doc = Nokogiri::HTML(response.body)

# 获取网页中的所有商品链接
links = doc.css(".product-item")

links.each do |link|
  puts link["href"]
end

上述代码的工作步骤如下:

  1. 首先,我们引入了 Nokogiri 和 HTTParty 库。

  2. 然后,我们设置了代理信息,包括代理服务器的主机名和端口号。

  3. 接下来,我们定义了要爬取的 URL,即 1688 网站的首页。

  4. 使用 HTTParty 发送 HTTP 请求,并设置代理信息。

  5. 使用 Nokogiri 解析返回的 HTML。

  6. 使用 CSS 选择器获取网页中的所有商品链接。

  7. 最后,遍历所有链接,并打印出每个链接的 URL。

注意:在实际使用中,可能需要处理各种异常情况,例如网络连接错误、HTTP 请求错误等。

相关推荐
白衣鸽子8 分钟前
【基础数据篇】数据遍历大师:Iterator模式
后端·设计模式
用户40993225021211 分钟前
想抓PostgreSQL里的慢SQL?pg_stat_statements基础黑匣子和pg_stat_monitor时间窗,谁能帮你更准揪出性能小偷?
后端·ai编程·trae
啊森要自信18 分钟前
【GUI自动化测试】Python 自动化测试框架 pytest 全面指南:基础语法、核心特性(参数化 / Fixture)及项目实操
开发语言·python·ui·单元测试·pytest
xuejianxinokok19 分钟前
什么是代数类型 ? java为什么要添加record,Sealed class 和增强switch ?
后端·rust
洛小豆19 分钟前
Git打标签仓库看不到?她说:豆子,你又忘了加 --tags!
git·后端·github
赵谨言29 分钟前
基于python智能家居环境质量分析系统的设计与实现
开发语言·经验分享·python·智能家居
元亓亓亓42 分钟前
考研408--组成原理--day1
开发语言·javascript·考研·计组
LawsonJin1 小时前
springboot实现微信小程序支付(服务商和普通商户模式)
spring boot·后端·微信小程序
Yurko131 小时前
【C语言】环境安装(图文)与介绍
c语言·开发语言·学习
仲星(._.)1 小时前
C语言:字符函数和字符串函数
c语言·开发语言