Java过滤HTML标签,即提取HTML中的纯文本,不使用正则表达式【jsoup方式,超级简单】,附富文本方式

服务器端提取方案(Jsoup方式)

如果你想从带HTML标签的字符串中提取纯文本的话,可以使用jsoup工具包,非常简单

应用场景,比如你的网站有个富文本编辑器,富文本编辑器中带有很多html标签,比如p标签,img标签等等,这些在富文本编辑器中时非常常见的,而富文本提交的信心带标签,我们有的时候不是要把添加的内容完全展示,而是展示缩略信息就好(也就是纯文本信息),这样简略也不影响布局,就想我们CSDN的文字缩略信息,就是从富文本内容中提取了纯文本信息(我猜的)


版权声明:本文为CSDN博主「BigBug博客」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/qq_31384551/article/details/81326812

实现:使用jsoup,这个是干嘛的百度去,导入jar包,链接

复制代码
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.16.1</version>
</dependency>
复制代码
<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
不使用maven的自己下载去jar下载地址
这样就实现了过滤标签/提取纯文本

客户端方案(富文本方式)
在网页中发布文章的时候提取纯文本,一般是使用富文本编辑器编写文章,大多富文本都提供有提取富文本中纯文本的api

百度UEditor 

ue.getContentTxt();
wangEditor

editor.txt.text();
其他的编辑器请仔细阅读文档
————————————————
版权声明:本文为CSDN博主「BigBug博客」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_31384551/article/details/81326812

当遇到这个需求的时候第一反应就是使用正则的!进行非匹配筛选,看了一些别人写的,表示看不懂。。。

然后有点投机取巧的意思可以把不要的匹配出来然后在替换掉

提取文本

思路:去掉所有标签

复制代码
	/**
     * 正则预编译
     */
    private static final Pattern pattern = Pattern.compile("(<.+?>)|(</.+?>)");
       
	/**
     * @Description: 去掉富文本标签
     * @param content 富文本
     * @Author: zlh
     * @Date: 2020/7/10 10:06
     * @Return java.lang.String
     */
    public String dealContent(String content){
       // 匹配标签
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()){
            // 替换图片
            content= matcher.replaceAll("").replace(" ", "");
        }

        return content;
    }

提取中文

思路:匹配中文

复制代码
	/**
     * 正则预编译
     */
   private static final Pattern pattern = Pattern.compile("([\\u4e00-\\u9fa5]+)");

	public static String getZh(String str) {
	        String zh = "";
	
	        Matcher matcher = Pattern.compile(regx).matcher(str);
	        while (matcher.find()) {
	            zh += match.group(0)
	        }
	        return zh;
    }
  • 这个只是匹配中文如果你的标签中含有中文也会匹配,文本中含有数组,字符不会匹配。
相关推荐
RReality3 分钟前
【Unity Shader URP】Matcap 材质捕捉实战教程
java·ui·unity·游戏引擎·图形渲染·材质
那个失眠的夜1 小时前
AspectJ
java·开发语言·数据库·spring
杨凯凡1 小时前
【014】基本类型与包装类:缓存、相等性、NPE
java·数据结构·缓存
emmjng3691 小时前
使用飞算JavaAI实现在线图书借阅平台
java
CoderYanger1 小时前
14届蓝桥杯省赛Java A 组Q1~Q3
java·开发语言·线性代数·算法·职场和发展·蓝桥杯
钮钴禄·爱因斯晨1 小时前
他到底喜欢我吗?赛博塔罗Java+前端实现,一键解答!
java·开发语言·前端·javascript·css·html
Watermelo6171 小时前
理解 JavaScript 中的“ / ”:路径、资源与目录、nginx配置、请求、转义的那些事
前端·javascript·vue.js·chrome·nginx·正则表达式·seo
词元Max1 小时前
Java 转 AI Agent 开发学习路线(2026年3月最新版)
java·人工智能·学习
亚历克斯神1 小时前
Java 云原生开发最佳实践:构建现代化应用
java·spring·微服务
布说在见1 小时前
企业级 Java 登录注册系统构建指南(附核心代码与配置)
java·开发语言