Java网络爬虫入门

文章目录

1、导入依赖

xml 复制代码
<dependencies>
    <!-- HttpClient -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.3</version>
    </dependency>

    <!-- 日志 -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.25</version>
    </dependency>
</dependencies>

2、CrawlerFirst

java 复制代码
package com.atguigu.crawler.test;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import java.io.IOException;
public class CrawlerFirst {
    public static void main(String[] args) throws IOException {
        //1、打开浏览器,创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2、输入网址,发起get请求,获取响应
        HttpGet httpGet = new HttpGet("https://blog.csdn.net/m0_65152767?spm=1010.2135.3001.5343");
        //3、使用 HttpClient 发起请求,获取响应
        CloseableHttpResponse response = httpClient.execute(httpGet);
        //4、解析响应,获取数据
        if (response.getStatusLine().getStatusCode() == 200) {
            HttpEntity httpEntity = response.getEntity();
            String content = EntityUtils.toString(httpEntity, "UTF-8");
            System.out.println(content);
        }
    }
}
相关推荐
likerhood4 小时前
设计模式-装饰器模式(java)
java·设计模式·装饰器模式
爱学习的小可爱卢4 小时前
Java抽象类与接口:面试高频考点全解析
java·javase
techdashen4 小时前
Rust 模块和文件不是一回事:一次讲清 `mod`、`use`、`pub use`
开发语言·后端·rust
Wy_编程4 小时前
go中的协程Goroutine
开发语言·golang
basketball6164 小时前
C++ 命名空间知识点总结:从入门到合理设计
开发语言·c++
WL_Aurora4 小时前
Java多线程详解(一)
java·开发语言
会编程的土豆4 小时前
Go 语言中的 `new` 关键字(创建指针)
java·算法·golang
逸Y 仙X4 小时前
文章三十一:ElasticSearch 管道聚合
java·大数据·elasticsearch·搜索引擎·全文检索
Full Stack Developme5 小时前
Spring 发展历史
java·后端·spring
RSTJ_16255 小时前
PYTHON+AI LLM DAY FOURTY-EIGHT
开发语言·人工智能·python·深度学习