用rvest库来编写的爬虫程序使用HTTP教程

rvset 是 R 语言中用于抓取和解析网页内容的一个非常强大的库。你可以使用它来编写爬虫程序,提取网页中的数据。接下来我会为你提供一个使用 rvset 编写的爬虫程序示例,以及如何使用它来实现 HTTP 请求、下载网页内容并解析 HTML。

1、安装依赖

首先,你需要确保安装了 rvest 和其他相关的依赖库。可以通过以下命令安装:

bash 复制代码
install.packages("rvest")
install.packages("httr")  # 用于发送 HTTP 请求
install.packages("xml2")  # 用于解析 HTML 和 XML 数据

2、创建爬虫程序

以下是一个示例程序,展示如何使用 rvest 来抓取网页中的图片、链接或文本等信息:

示例程序:抓取网页中的图片链接

bash 复制代码
# 加载必要的库
library(rvest)
library(httr)
library(xml2)
​
# 定义要抓取的网页URL
url <- "https://example.com"  # 替换为你要爬取的网址
​
# 发送GET请求获取网页内容
response <- GET(url)
​
# 如果响应状态为200,表示请求成功
if (status_code(response) == 200) {
  
  # 解析网页内容
  html <- content(response, "text")
  
  # 使用rvest解析HTML
  webpage <- read_html(html)
  
  # 提取网页中所有图片的URL
  img_urls <- webpage %>%
    html_nodes("img") %>%
    html_attr("src")
  
  # 输出所有图片的URL
  print(img_urls)
  
  # 下载每个图片到本地(如果需要)
  for (img_url in img_urls) {
    # 处理相对URL,拼接成完整URL
    full_img_url <- ifelse(grepl("^http", img_url), img_url, paste0(url, img_url))
    
    # 下载图片
    img_data <- GET(full_img_url)
    img_name <- basename(full_img_url)
    
    # 将图片保存到本地
    writeBin(content(img_data, "raw"), img_name)
    cat("已下载图片:", img_name, "\n")
  }
  
} else {
  cat("请求失败,HTTP 状态码:", status_code(response), "\n")
}

代码解释:

  1. 导入库

    • rvest 用于解析 HTML 内容。
    • httr 用于处理 HTTP 请求。
    • xml2 用于解析网页内容。
  2. 发送 HTTP 请求

    • GET(url) 用于发送 HTTP GET 请求,获取网页内容。
    • status_code(response) 获取响应的 HTTP 状态码,确保请求成功。
  3. 解析 HTML

    • 使用 read_html() 函数解析获取的网页内容。
    • html_nodes("img") 用于提取页面中的所有 <img> 标签。
    • html_attr("src") 用于获取每个 <img> 标签的 src 属性,即图片的 URL。
  4. 下载图片

    • 通过 GET(full_img_url) 下载每个图片文件。
    • writeBin() 将下载的内容保存为文件。
  5. 处理相对 URL

    • 如果图片的 URL 是相对路径,使用 paste0(url, img_url) 拼接成完整的 URL。

3、运行程序

运行该 R 脚本后,它会输出网页中的所有图片 URL,并将每个图片文件下载到当前工作目录。

4、总结

这段代码演示了如何使用 rvesthttr 库进行简单的网页爬取工作,抓取网页中的图片 URL,并下载到本地。你可以根据需求修改此代码,比如抓取其他类型的资源(如文本、视频等),或是实现更复杂的抓取和解析逻辑。

你还可以根据目标网页的结构(比如使用 CSS 选择器或 XPath)进一步优化爬虫的抓取策略。

相关推荐
Jolyne_13 分钟前
前端从0开始的LangChain学习(一)
前端·langchain
掘金一周24 分钟前
掘友们,一人说一个你买过夯到爆的东西 | 沸点周刊 4.23
前端·人工智能·后端
Developer_Niuge28 分钟前
告别翻不动的 1000+ 书签:开源 Chrome / Edge 浏览器书签管理插件 Smart Bookmark 0.2 发布
前端·后端
WebInfra30 分钟前
Rsbuild 2.0 发布:即将支持 TanStack Start
前端·javascript·程序员
用户527096487449031 分钟前
前端性能指标速查手册
前端
淹死在鱼塘的程序猿34 分钟前
🚀 告别"一次性聊天":揭秘让 AI 智能体越用越聪明的秘密武器 —— Skills
前端·人工智能·agent
掘金安东尼38 分钟前
OpenMUSE 全面详解:非扩散Transformer文生图开源基座(对标GPT Image 2)
前端·javascript·面试
~ rainbow~1 小时前
前端转型全栈(六)——深入浅出:文件上传的原理与进阶
前端·http·文件上传
我就是马云飞1 小时前
我废了!大厂10年的我面了20家公司,面试官让我回去等通知!
android·前端·程序员
yizhiyang1 小时前
ECharts实战:滑动缩放+选中背景高亮,打造高颜值统计图表
前端