Java爬虫入门(2/5)

一、HTTP(超文本传输协议)是什么

HTTP(超文本传输协议):是一种用于网络传输超文本到本地浏览器的传输协议。定义了客户端和服务器之间请求和响应的格式。HTTP工作在TCP/IP模型之上,常用80 端口。

区别于HTTPS(超文本传输安全协议):是HTTP的安全版本,HTTP下增加了SSL/TLS协议,提供了数据加密、完整性校验和身份验证。常用443端口。

工作原理: 客户端发送请求▶️服务端处理请求▶️服务端返回响应▶️客户端渲染页面

二、网页的三种数据来源

  • 静态HTML(HTML基础内容)
  • 接口JSON(外部数据)
  • JS动态渲染(JS/CSS表现与交互)

三、HTTPClient、OKHttp的使用(发送HTTP请求)

四、Jsoup的使用(解析HTML)

五、Jackson、Fastjson的使用(解析JSON)

相关推荐
Mahir0813 分钟前
Spring 循环依赖深度解密:从问题本质到三级缓存源码级解析
java·后端·spring·缓存·面试·循环依赖·三级缓存
RyFit1 小时前
SpringAI 常见问题及解决方案大全
java·ai
石山代码2 小时前
C++ 内存分区 堆区
java·开发语言·c++
绝知此事2 小时前
【算法突围 01】线性结构与哈希表:后端开发的收纳术
java·数据结构·算法·面试·jdk·散列表
无风听海2 小时前
C# 隐式转换深度解析
java·开发语言·c#
一只大袋鼠3 小时前
Git 进阶(二):分支管理、暂存栈、远程仓库与多人协作
java·开发语言·git
德思特3 小时前
从 Dify 配置页理解 RAG 的重要参数
java·人工智能·llm·dify·rag
YOU OU4 小时前
Spring IoC&DI
java·数据库·spring
один but you4 小时前
从可变参数到 emplace:现代 C++ 性能优化的核心组合
java·开发语言
跨境数据猎手4 小时前
跨境商城反向海淘系统开发全流程逻辑(上)
人工智能·爬虫·系统架构