用java语言写一个网页爬虫 用于获取图片

以下是一个简单的Java程序,用于爬取网站上的图片并下载到本地文件夹:

java 复制代码
import java.io.*;
import java.net.*;

public class ImageSpider {
    public static void main(String[] args) {
        // 确定要爬取的网站URL和本地保存目录
        String url = "https://www.example.com";
        String saveDir = "D:/images/";

        // 读取网页HTML源代码
        String html = getHtml(url);

        // 提取其中的图片URL
        String[] imgUrls = extractImgUrls(html);

        // 下载图片到本地
        for (String imgUrl : imgUrls) {
            downloadImage(imgUrl, saveDir);
        }
    }

    // 读取网页HTML源代码
    public static String getHtml(String url) {
        StringBuilder html = new StringBuilder();
        try {
            URLConnection conn = new URL(url).openConnection();
            BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String line;
            while ((line = reader.readLine()) != null) {
                html.append(line);
            }
            reader.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return html.toString();
    }

    // 提取图片URL
    public static String[] extractImgUrls(String html) {
        String[] imgUrls = html.split("<img");
        String[] result = new String[imgUrls.length - 1];
        for (int i = 1; i < imgUrls.length; i++) {
            String imgUrl = imgUrls[i].substring(imgUrls[i].indexOf("src=") + 5);
            imgUrl = imgUrl.substring(0, imgUrl.indexOf("\""));
            result[i - 1] = imgUrl;
        }
        return result;
    }

    // 下载图片到本地
    public static void downloadImage(String imgUrl, String saveDir) {
        try {
            URL url = new URL(imgUrl);
            HttpURLConnection conn = (HttpURLConnection) url.openConnection();
            conn.setRequestMethod("GET");
            conn.setConnectTimeout(5 * 1000);
            InputStream inStream = conn.getInputStream();
            byte[] data = readInputStream(inStream);
            File file = new File(saveDir + imgUrl.substring(imgUrl.lastIndexOf("/") + 1));
            FileOutputStream outStream = new FileOutputStream(file);
            outStream.write(data);
            outStream.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 读取输入流并转换为字节数组
    public static byte[] readInputStream(InputStream inputStream) throws IOException {
        ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
        byte[] buffer = new byte[1024];
        int len;
        while ((len = inputStream.read(buffer)) != -1) {
            outputStream.write(buffer, 0, len);
        }
        inputStream.close();
        return outputStream.toByteArray();
    }
}

这个程序首先读取指定网址的HTML源码,然后从中提取出所有的图片URL。最后,程序利用 Java 的 IO 功能下载这些图片并保存到指定的本地文件夹中。

需要注意的是,该程序只是一个简单的演示,实际使用时需要注意合法性和合理性问题,比如设置超时时间、判断文件是否存在等。此外,爬虫在爬取网站时需要遵守网站的爬取协议和法律法规,不能侵犯他人的权益。以下是一个简单的Java程序,用于爬取网站上的图片并下载到本地文件夹:

java 复制代码
import java.io.*;
import java.net.*;

public class ImageSpider {
    public static void main(String[] args) {
        // 确定要爬取的网站URL和本地保存目录
        String url = "https://www.example.com";
        String saveDir = "D:/images/";

        // 读取网页HTML源代码
        String html = getHtml(url);

        // 提取其中的图片URL
        String[] imgUrls = extractImgUrls(html);

        // 下载图片到本地
        for (String imgUrl : imgUrls) {
            downloadImage(imgUrl, saveDir);
        }
    }

    // 读取网页HTML源代码
    public static String getHtml(String url) {
        StringBuilder html = new StringBuilder();
        try {
            URLConnection conn = new URL(url).openConnection();
            BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String line;
            while ((line = reader.readLine()) != null) {
                html.append(line);
            }
            reader.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return html.toString();
    }

    // 提取图片URL
    public static String[] extractImgUrls(String html) {
        String[] imgUrls = html.split("<img");
        String[] result = new String[imgUrls.length - 1];
        for (int i = 1; i < imgUrls.length; i++) {
            String imgUrl = imgUrls[i].substring(imgUrls[i].indexOf("src=") + 5);
            imgUrl = imgUrl.substring(0, imgUrl.indexOf("\""));
            result[i - 1] = imgUrl;
        }
        return result;
    }

    // 下载图片到本地
    public static void downloadImage(String imgUrl, String saveDir) {
        try {
            URL url = new URL(imgUrl);
            HttpURLConnection conn = (HttpURLConnection) url.openConnection();
            conn.setRequestMethod("GET");
            conn.setConnectTimeout(5 * 1000);
            InputStream inStream = conn.getInputStream();
            byte[] data = readInputStream(inStream);
            File file = new File(saveDir + imgUrl.substring(imgUrl.lastIndexOf("/") + 1));
            FileOutputStream outStream = new FileOutputStream(file);
            outStream.write(data);
            outStream.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 读取输入流并转换为字节数组
    public static byte[] readInputStream(InputStream inputStream) throws IOException {
        ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
        byte[] buffer = new byte[1024];
        int len;
        while ((len = inputStream.read(buffer)) != -1) {
            outputStream.write(buffer, 0, len);
        }
        inputStream.close();
        return outputStream.toByteArray();
    }
}

这个程序首先读取指定网址的HTML源码,然后从中提取出所有的图片URL。最后,程序利用 Java 的 IO 功能下载这些图片并保存到指定的本地文件夹中。

需要注意的是,该程序只是一个简单的演示,实际使用时需要注意合法性和合理性问题,比如设置超时时间、判断文件是否存在等。此外,爬虫在爬取网站时需要遵守网站的爬取协议和法律法规,不能侵犯他人的权益。

相关推荐
计算机毕设小月哥14 分钟前
【Hadoop+Spark+python毕设】中风患者数据可视化分析系统、计算机毕业设计、包括数据爬取、Spark、数据分析、数据可视化、Hadoop
后端·python·mysql
Keep_Trying_Go15 分钟前
基于Zero-Shot的目标计数算法详解(Open-world Text-specified Object Counting)
人工智能·pytorch·python·算法·多模态·目标统计
q***441526 分钟前
Spring Security 新版本配置
java·后端·spring
计算机毕设匠心工作室29 分钟前
【python大数据毕设实战】强迫症特征与影响因素数据分析系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习、实战教学
后端·python·mysql
o***741735 分钟前
Springboot中SLF4J详解
java·spring boot·后端
孤独斗士38 分钟前
maven的pom文件总结
java·开发语言
CoderYanger1 小时前
递归、搜索与回溯-记忆化搜索:38.最长递增子序列
java·算法·leetcode·1024程序员节
面试鸭1 小时前
科大讯飞,你好大方。。。
java·计算机·职场和发展·求职招聘
韩立学长2 小时前
【开题答辩实录分享】以《智慧物业管理系统的设计与实现》为例进行答辩实录分享
java·后端·mysql