【Java】Jsoup格式化html问题(文本空格折叠等)解决方法

问题说明

Jsoup格式化html文本时,如:

java 复制代码
Document document = Jsoup.parse(html);

这里在对html进行格式化的时候会将如下内容:

html 复制代码
<p>      aaa   </p>

解析成如下格式:

html 复制代码
<p> aaa </p>

即空格折叠问题(HTML的格式规范);

解决方式

在看Jsoup的源码中发现有outputSettings设置类,并且有个属性"prettyPrint",属性在Jsoup的构造函数中是默认设置为true的,也就是会按照html格式规范进行格式化,将此属性设置为false即可将html原样输出,即:

java 复制代码
document.outputSettings(new Document.OutputSettings().prettyPrint(false));

即输出不必再按照html规范进行格式化,即可将处理后的html原样输出。

end。

相关推荐
胚芽鞘68125 分钟前
关于java项目中maven的理解
java·数据库·maven
岁忧1 小时前
(LeetCode 面试经典 150 题 ) 11. 盛最多水的容器 (贪心+双指针)
java·c++·算法·leetcode·面试·go
CJi0NG1 小时前
【自用】JavaSE--算法、正则表达式、异常
java
Hellyc2 小时前
用户查询优惠券之缓存击穿
java·redis·缓存
今天又在摸鱼2 小时前
Maven
java·maven
老马啸西风2 小时前
maven 发布到中央仓库常用脚本-02
java·maven
代码的余温2 小时前
MyBatis集成Logback日志全攻略
java·tomcat·mybatis·logback
一只叫煤球的猫4 小时前
【🤣离谱整活】我写了一篇程序员掉进 Java 异世界的短篇小说
java·后端·程序员
斐波娜娜4 小时前
Maven详解
java·开发语言·maven
Bug退退退1234 小时前
RabbitMQ 高级特性之事务
java·分布式·spring·rabbitmq