java基础概念37:正则表达式2-爬虫

一、定义

【回顾】正则表达式的作用

  • 作用一:校验字符串是否满足规则
  • 作用二:在一段文本中查找满足要求的内容------爬虫

二、本地爬虫VS网络爬虫

2-1、本地爬虫

示例:

代码优化:

java 复制代码
public static void main(String[] args) {
        // 大串
        String str = "Java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11,因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在未来不久|ava17也会逐渐登上历史舞台";

        // 获取正则表达式对象
        Pattern p = Pattern.compile("Java\\d{0,2}");
        // 获取文本匹配去对象
        Matcher m = p.matcher(str);

        while (m.find()){
            String s1 = m.group();
            System.out.println(s1);
        }

    }

2-2、网络爬虫

示例:

三、带条件爬取VS贪婪爬取VS非贪婪爬取

3-1、带条件爬取

示例:

**?=:**意味着它用于匹配一个位置,该位置后面的字符序列能够匹配一个特定的模式,但本身不消耗任何字符。

3-2、贪婪爬取VS非贪婪爬取

  • 贪婪爬取:在爬取数据的时候尽可能的多获取数据;
  • 非贪婪爬取:在爬取数据的时候尽可能的少获取数据。

示例:

示例:

java 复制代码
public static void main(String[] args) {
        String str = "Java自从95年问世以来,abbbbbbbbbbbbaaaaaaaaaaaaaaaaaa经历了很多版本,目前企业中用的最多的是!ava8和Java11,因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在未来不久Java17也会逐渐登上历史舞台";

        // 贪婪爬取
        String regex = "ab+";

        Pattern p = Pattern.compile(regex);
        Matcher m = p.matcher(str);
        while (m.find()){
            // abbbbbbbbbbbb
            System.out.println(m.group());
        }

        // 非贪婪爬取
        String regex2 = "ab+?";
        Pattern p2 = Pattern.compile(regex2);
        Matcher m2 = p2.matcher(str);
        while (m2.find()){
            // ab
            System.out.println(m2.group());
        }
    }

四、正则表达式在字符串方法中的使用

4-1、replaceAll方法

4-2、split方法

相关推荐
sanggou3 小时前
Spring Cloud Gateway 转发 SSE 的那些坑
java
それども3 小时前
理解 Java21 虚拟线程
java
毕设源码-赖学姐3 小时前
【开题答辩全过程】以 基于JAVA的宠物医院管理系统的设计为例,包含答辩的问题和答案
java·开发语言
Kratzdisteln3 小时前
【1902】0121-1 Dify工作流节点详细配置(方案B最终版)
java·前端·javascript
lbb 小魔仙3 小时前
【Java】Java JVM 调优实战:GC 调优参数 + 内存泄漏排查,线上性能提升实战
java·开发语言·jvm
大柏怎么被偷了3 小时前
【Linux】线程的概念
java·linux·jvm
IT 行者3 小时前
基于Servlet的纯原生Java Web工程之工程搭建:去除依赖的繁琐,返璞归真
java·前端·servlet
wenjianhai3 小时前
若依(RuoYi-Vue-Plus)框架使用WebSocket(2)
java·若依·websocke4t
ID_180079054733 小时前
淘宝平台商品详情API(item_get)深度解析
java·服务器·前端
梦想的旅途23 小时前
基于RPA的多线程企微外部群异步推送架构
java·开发语言·jvm