使用 Typhoeus 和 Ruby 编写的爬虫程序

以下是一个使用 Typhoeus 和 Ruby 编写的爬虫程序,用于爬取 ,同时使用了 jshk.com.cn/get_proxy 这段代码获取代理:

ruby 复制代码
#!/usr/bin/env ruby

require 'typhoeus'
require 'json'

def get_proxy
  url = "https://www.duoip.cn/get_proxy"
  response = Typhoeus.get(url)
  if response.code == 200
    proxy_json = JSON.parse(response.body)
    proxy_ip = proxy_json['data']['ip']
    proxy_port = proxy_json['data']['port']
    return proxy_ip, proxy_port
  end
rescue Typhoeus::Error => e
  puts "Error: #{e.message}"
  exit(1)
end

def crawl_ebay(proxy_ip, proxy_port)
  url = "https://www.ebay.com"
  headers = {
    'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language' => 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
    'Accept-Encoding' => 'gzip, deflate, br',
    'Referer' => 'https://www.google.com',
    'Connection' => 'keep-alive'
  }

  # 使用 Typhoeus 的 Hydra 对象进行并发请求
  hydra = Typhoeus::Hydra.new

  # 创建一个使用代理的请求
  request = Typhoeus::Request.new(url, headers: headers, proxy: { ip: proxy_ip, port: proxy_port })

  # 使用 Hydra 对象发送请求
  response = hydra.queue(request)

  # 如果请求成功,输出响应体
  if response.code == 200
    puts "Request successful. Response body: #{response.body}"
  # 如果请求失败,输出错误信息
  else
    puts "Request failed. Error: #{response.code}"
  end

  # 关闭 Hydra 对象
  hydra.close
end

# 获取代理
proxy_ip, proxy_port = get_proxy

# 使用获取到的代理进行爬取
crawl_ebay(proxy_ip, proxy_port)

这个程序首先获取一个代理IP和端口,然后使用这个代理进行 ebay.com 的爬取。请注意,这个示例代码可能会随着网站的变化而失效,您可能需要根据实际情况进行调整。同时,请注意,在使用这个程序之前,请确保已经安装了 Typhoeus 库。

相关推荐
上不如老下不如小9 分钟前
2025年第七届全国高校计算机能力挑战赛初赛 Python组 编程题汇总
开发语言·python·算法
程序员小白条19 分钟前
你面试时吹过最大的牛是什么?
java·开发语言·数据库·阿里云·面试·职场和发展·毕设
小年糕是糕手31 分钟前
【C++】类和对象(二) -- 构造函数、析构函数
java·c语言·开发语言·数据结构·c++·算法·leetcode
豐儀麟阁贵33 分钟前
8.2异常的抛出与捕捉
java·开发语言·python
权泽谦35 分钟前
PHP 版羊了个羊完整开发实战:逻辑解析 + 三消算法 + 全套接口(附源码)
开发语言·php
程序员西西38 分钟前
SpringBoot无感刷新Token实战指南
java·开发语言·前端·后端·计算机·程序员
Coding_Doggy1 小时前
链盾shieldchiain | 团队功能、邀请成员、权限修改、移除成员、SpringSecurity、RBAC权限控制
java·开发语言·数据库
interception1 小时前
爬虫js逆向,jsdom补环境,抖音,a_bogus
javascript·爬虫·python
f***24111 小时前
java学习进阶之路,如果从一个菜鸟进阶成大神
java·开发语言·学习
88号技师1 小时前
2025年9月一区SCI-孤行尺蠖觅食优化算法Solitary Inchworm Foraging-附Matlab免费代码
开发语言·算法·数学建模·matlab·优化算法