Java爬虫入门(2/5)

一、HTTP(超文本传输协议)是什么

HTTP(超文本传输协议):是一种用于网络传输超文本到本地浏览器的传输协议。定义了客户端和服务器之间请求和响应的格式。HTTP工作在TCP/IP模型之上,常用80 端口。

区别于HTTPS(超文本传输安全协议):是HTTP的安全版本,HTTP下增加了SSL/TLS协议,提供了数据加密、完整性校验和身份验证。常用443端口。

工作原理: 客户端发送请求▶️服务端处理请求▶️服务端返回响应▶️客户端渲染页面

二、网页的三种数据来源

  • 静态HTML(HTML基础内容)
  • 接口JSON(外部数据)
  • JS动态渲染(JS/CSS表现与交互)

三、HTTPClient、OKHttp的使用(发送HTTP请求)

四、Jsoup的使用(解析HTML)

五、Jackson、Fastjson的使用(解析JSON)

相关推荐
lee_curry8 小时前
第四章 jvm中的垃圾回收器
java·jvm·垃圾收集器
九转成圣9 小时前
Java 性能优化实战:如何将海量扁平数据高效转化为类目字典树?
java·开发语言·json
_.Switch9 小时前
东方财富股票数据JS逆向:secids字段和AES加密实战
开发语言·前端·javascript·网络·爬虫·python·ecmascript
直奔標竿9 小时前
Java开发者AI转型第二十七课!Spring AI 个人知识库实战(六)——全栈闭环收官,解锁前端流式渲染终极技巧
java·开发语言·前端·人工智能·后端·spring
金銀銅鐵10 小时前
[java] 编译之后的记录类(Record Classes)长什么样子(上)
java·jvm·后端
野生技术架构师12 小时前
金三银四面试总结篇,汇总 Java 面试突击班后的面试小册
java·面试·职场和发展
小袁拒绝摆烂12 小时前
多表关联大平层转JSON树形结构
java·json
码界奇点12 小时前
基于Python的新浪微博数据爬虫系统设计与实现
数据库·爬虫·python·毕业设计·新浪微博·源代码管理
ja哇13 小时前
大厂面试高频八股
java·面试·职场和发展