使用正则表达式str.split(“\\W+“)拆分句子

正则表达式

java 复制代码
String sentence = "The quick brown fox... jumps over the lazy dog?";
String[] words = sentence.split("\\W+");  //  \\W+怎么理解?

/*打印words会输出:
The
quick
brown
fox
jumps
over
the
lazy
dog
*/

在 Java 中,使用 split() 方法处理字符串时,这个表达式的作用是寻找并匹配所有"非单词字符"作为拆分的间隔点

我们可以把这段代码拆解开来看:

  1. \W (大写 W) : 这是一个特殊的元字符,代表"任何非单词字符 "。在正则表达式中,单词字符 通常指的是字母(a-z, A-Z)、数字(0-9)和下划线(_)。因此,\W 会匹配空格、标点符号(如 ...?,)、感叹号等任何不是字母或数字的符号。
  2. + : 这是一个修饰符,表示"一次或多次 "。它意味着如果连续出现多个非单词字符(比如句子里的 ... 或者空格加标点),程序会将它们看作是一个整体,而不是把每一个符号都拆开。
  3. "\\W+" 中的双反斜杠 \\ : 在 Java 字符串中,反斜杠 \ 是转义字符。为了表示正则表达式里的 \W,我们需要用另一个反斜杠额外转义一下,所以写成 \\W

举个例子:

如果你有一个句子:"Hello!!!World"

  • 当你用 "\\W+" 去拆分时:
    • !!! 会被识别为一组"非单词字符"。
    • 程序会以 !!! 为界限,将原始字符串拆分成 "Hello""World" 两个部分。

总结逻辑

使用 sentence.split("\\W+") 的逻辑就是:"帮我把这个句子里所有的标点符号、空格等'非单词'的部分全部删掉,并以这些位置为切割点,把句子拆分成一个个纯粹的单词数组。"

相关推荐
无限的鲜花5 小时前
反射(原创推荐)
java·开发语言
IT二叔5 小时前
Java项目部署-03-teamcity-cicd-docker镜像流水线方式部署
java·ci/cd·持续部署
一路向北he5 小时前
字节钢铁军团--“提供情境,而非控制”
java·开发语言·前端
超级数据查看器6 小时前
超级数据查看器 v10.0 发布
java·大数据·数据库·sqlite·安卓
折哥的程序人生 · 物流技术专研7 小时前
《Java 100 天进阶之路》第50篇:阻塞队列与并发容器(2026版)
java·面试题·java进阶·blockingqueue·并发容器·集合源码·java100天进阶
ai_coder_ai7 小时前
编写自动化脚本,在自己后端服务中使用Open Api进行设备相关操作
java·运维·自动化
硕风和炜8 小时前
【LeetCode: 2492. 两个城市间路径的最小分数 + DFS】
java·算法·leetcode·深度优先·dfs·bfs·并查集
格子软件8 小时前
2026年GEO贴牌代理:分布式多级分账状态机源码深度解构
java·vue.js·分布式·vue·geo
我是一颗柠檬9 小时前
【Java项目技术亮点】加权轮询负载均衡算法
java·算法·负载均衡
灯厂码农9 小时前
C语言动态内存分配完全指南(malloc、calloc、realloc、free)
java·c语言·算法