网络爬虫--生成假数据

爬取网址中的数据。

下面3个分别是姓、女孩名字、男孩名字的网址。

java 复制代码
        String familyURLStr = "http://www.baijiaxing.net.cn/";
        String girlNameURLStr = "https://wannianli.tianqi.com/qiming/news/16536.html";
        String boyNameURLStr = "https://wannianli.tianqi.com/qiming/news/883.html";

如何爬取呢?

1、首先有一个网址

这是一个百家姓的网址。

java 复制代码
String familyURLStr = "http://www.baijiaxing.net.cn/";

2、爬取网址中的全部数据

注意注释中的细节。

java 复制代码
    //爬取全部数据
    private static String webUrl(String URLStr) throws IOException {
        //先转换为url对象
        URL url = new URL(URLStr);
        //打开连接
        URLConnection conn = url.openConnection();
        //利用IO流进行读取
        //1.由于url对象提供字节流进行读取,无法读取中文,所以转换为字符流
        InputStreamReader isr = new InputStreamReader(conn.getInputStream());
        //使用一次read()方法只能读取一个字符
        //使用sb把读取出来的字符存起来
        StringBuilder sb = new StringBuilder();
        int b;
        while ((b = isr.read()) != -1) {
            sb.append((char)b);
        }
        return sb.toString();
    }

输出结果是以下html这种格式的,由服务器传过来的原本就是html,只不过平时被浏览器解析了而已。

3、提取需要的信息

对我们有用的只有其中的姓氏而已,所以利用正则表达式进行匹配。

①下面是利用正则表达式读取数据的代码:

java 复制代码
    private static ArrayList<String> getData(String str, String regex) {
        ArrayList<String> list = new ArrayList<>();
        //转换为正则表达式对象
        Pattern pattern = Pattern.compile(regex);
        //将字符串与正则表达式进行匹配
        Matcher matcher = pattern.matcher(str);
        //是否有与正则表达式匹配的值,有则返回true,无则返回false
        while (matcher.find()){
            //将匹配到的值进行返回
            list.add(matcher.group());
        }
        return list;
    }

②正则表达式如何书写?

观察百家姓可以看到都是4个汉字一组,并且后面跟着中文的","或者中文的"。",所以正则表达式可写为

复制代码
".{4},|。"

输出结果如下:

输出为什么是这种格式?

因为这种情况下,把".{4},"看作一个逻辑,"。"看作一个逻辑,所以应该把,|。括起来,正确的是

复制代码
.{4}(,|。)

但是又出现一个问题,返回结果我们只想要前面的4个汉字,不想要后面中文的","或者中文的"。",这种情况下有两种解决办法。

(1)这种需求很常见,所以专门提出了一个符号去解决这个问题,就是?=,将匹配结果进行返回时忽略?=后面的东西,但是匹配的时候还是参与的,因此正则表达式可写为

复制代码
".{4}(?=,|。)"

(2)将正则表达式使用括号进行分组,然后在使用matcher.group()将匹配结果进行返回时,可以选择返回哪些组。

正则表达式可写为

复制代码
"(.{4})(,|。)"

这种情况下,提取需要的数据的方法就需要额外加上一个参数,就是要返回的组号。

关于组号有一些说明:组号从1开始编,也存在一个特殊的0,表示全部数据。

java 复制代码
    private static ArrayList<String> getData(String str, String regex, int index ) {
        ArrayList<String> list = new ArrayList<>();
        //转换为正则表达式对象
        Pattern pattern = Pattern.compile(regex);
        //将字符串与正则表达式进行匹配
        Matcher matcher = pattern.matcher(str);
        //是否有与正则表达式匹配的值,有则返回true,无则返回false
        while (matcher.find()){
            //将匹配到的值进行返回
            list.add(matcher.group(index));
        }
        return list;
    }

返回结果:

错误1:在与网址建立连接时抛错:Server returned HTTP response code: 403 for URL,如下图:

解决办法:在建立完连接之后加上

复制代码
conn.setRequestProperty("User-Agent", "Mozilla/4.76");
java 复制代码
        //打开连接
        URLConnection conn = url.openConnection();
        conn.setRequestProperty("User-Agent", "Mozilla/4.76");

如何写女生名字的正则表达式呢?

首先看到2个汉字一组,并且后面跟着中文的"、"或者中文的"。",所以正则表达式可写为

复制代码
".{2}(?=、|。)"

返回结果如下:

可以看到把一些不是名字的汉字也给返回了,原因就是也符合正则表达式。那怎么解决呢?

把"露怡、琦倩、澜蕾、思琳、"看作一组进行匹配,正则表达式可写为

复制代码
"(.{2}(、|。)){4}"

返回结果如下:

如何写男生名字的正则表达式呢?

下面是一个男生名字的网址:

100个好听的男孩名字,古风儒雅、洒脱大气的好名字! - 知乎 (zhihu.com)

网址中的数据如下:

如果依旧按照前面的把4个看作一组进行匹配,会把前面的序号也进行匹配,这不是我们想要的,所以要限定为中文。

有一个插件AnyRule,可以搜索常见需求的正则表达式,鼠标右键一下可看到:

打开之后搜索中文的正则表达式:

复制:[\u4E00-\u9FA5]

因此正则表达式写为

复制代码
"([\\u4E00-\\u9FA5]{2}(、|\\n)){4}"

输出结果一直为空,刚开始以为是正则表达式有问题,后面怀疑知乎是不是有反爬啊。

测试一下,输出爬取的全部数据:

答案确实是这样,知乎将数据处理成密文了,所以无法匹配到与正则表达式相符的数据,导致输出一直为空。

只能换个网址了。

换成这个:【男孩名字】好听的男孩名字大全_男孩独特少见的名字_男孩简单大气的名字_亲子百科_太平洋亲子网 (pcbaby.com.cn)

结果还是有问题,爬取的中文无法解析,是乱码的。

又接连试了好几个网址,都是同样的问题,都怀疑是不是代码有问题了,于是又回去测试了一下姓的爬取,也没有问题啊。

只能不断寻找不乱码的网址,终于找到一个:

男宝宝起名大全 100个好听的男孩名字 - 万年历 (tianqi.com)

输出结果如下:

下面对爬取的数据再次进行处理:

首先对姓进行处理,对于集合中的一个元素来说是有4个姓的,所以现在要拆开。

代码如下:

可以看到有错误提示:

使用强制类型转换无法将char转为String, 那怎么办呢?

解决办法就是使用+将字符和空字符串""进行拼接就可以转换了。

正确的代码如下:

java 复制代码
    private static ArrayList<String> processData(ArrayList<String> familyNameTempList) {
        ArrayList<String> familyNameList = new ArrayList<>();
        for (String s : familyNameTempList) {
            for (int i = 0; i < s.length(); i++) {
                familyNameList.add("" + s.charAt(i));
            }
        }
        return familyNameList;
    }

对名字进行处理,代码如下:

java 复制代码
    //由于男孩和女孩的格式差不多,由一个方法进行处理
    private static ArrayList<String> processName(ArrayList<String> nameTempList) {
        ArrayList<String> nameList = new ArrayList<>();
        for (String s : nameTempList) {
            String[] ss = s.split("、");
            for (String name : ss) {
                nameList.add(name);
            }
        }
        return nameList;
    }

姓和名处理之后的结果如下:

下面将姓和名进行拼接,生成姓名,代码如下:

java 复制代码
    private static HashSet<String> getFullName(ArrayList<String> familyNameList, ArrayList<String> nameList, int number) {
        //由于名字不能重复,所以选用HashSet存
        HashSet<String> fullNamehs = new HashSet<>();
        for (int i = 0; i < number; i++) {
            //1.首先随机选取姓和名
            //没有使用随机数的方式,而是集合工具类的shuffle()方法
            Collections.shuffle(familyNameList);
            Collections.shuffle(nameList);
            //选取索引0处的元素
            String familyName = familyNameList.get(0);
            String name = nameList.get(0);
            //将姓和名进行拼接并添加到集合中
            fullNamehs.add(familyName + name);
        }
        return fullNamehs;
    }

生成指定格式的数据,代码如下:

java 复制代码
     //生成男生信息
    private static HashSet<String> getBoyInfo(HashSet<String> fullBoyNamehs) {
        HashSet<String> infohs = new HashSet<>();
        //生成年龄
        Random r = new Random();
        for (String fullName : fullBoyNamehs) {
            int age = r.nextInt(10) + 18;
            infohs.add(fullName + "-男-" + age);
        }
        return infohs;
    }

    //生成女生信息
    private static HashSet<String> getGirlInfo(HashSet<String> fullGirlNamehs) {
        HashSet<String> infohs = new HashSet<>();
        //生成年龄
        Random r = new Random();
        for (String fullName : fullGirlNamehs) {
            int age = r.nextInt(8) + 18;
            infohs.add(fullName + "-女-" + age);
        }
        return infohs;
    }

将其写入到外部设备中,代码如下:

java 复制代码
    //写到外部设备中
    private static void writeInfo(HashSet<String> girlInfo, HashSet<String> boyInfo) throws IOException {
        ArrayList<String> infoList = new ArrayList<>();
        infoList.addAll(girlInfo);
        infoList.addAll(boyInfo);
        Collections.shuffle(infoList);
        BufferedWriter bw = new BufferedWriter(new FileWriter("name.txt"));
        for (String info : infoList) {
            bw.write(info);
            bw.newLine();
        }
        bw.close();
    }

可以看到已写入到文件中:

总结一下全部过程就是:爬取数据--对数据进行处理--写入文件。

相关推荐
Dylanioucn23 分钟前
【编程底层思考】什么是GC Roots
java·jvm
_晓夏_24 分钟前
【JVM 工具命令】JAVA程序线上问题诊断,JVM工具命令的使用,jstat, jstack,jmap命令的使用
java·开发语言·jvm·jvm命令工具·java程序线上问题定位命令·java程序问题故障排查命令·jvm线上问题故障排查
Ty_110642 分钟前
深入理解Java虚拟机:Jvm总结-虚拟机字节码执行引擎
java·开发语言·jvm
蔚一1 小时前
Java设计模式—面向对象设计原则(一) ----->开闭原则OCP(完整详解,附有代码+案例)
java·后端·设计模式·intellij-idea·开闭原则
cesske1 小时前
java 学习从零到精通之历程
java
爱吃香蕉的猴哥1 小时前
Spring AOP
java·后端·spring
Sebastian Wang2 小时前
【学习归纳自我总结版】尚硅谷学习第一天
java·学习
青灯古佛初照2 小时前
EasyExcel 动态表头+表头合并
java·excel
goldfishsky2 小时前
Gson转换
java·开发语言
小巫医初春2 小时前
【EasyExcel】@ColumnWidth(value = 20) EasyExcel设置列宽不生效
java