【Java】Jsoup格式化html问题(文本空格折叠等)解决方法

问题说明

Jsoup格式化html文本时,如:

java 复制代码
Document document = Jsoup.parse(html);

这里在对html进行格式化的时候会将如下内容:

html 复制代码
<p>      aaa   </p>

解析成如下格式:

html 复制代码
<p> aaa </p>

即空格折叠问题(HTML的格式规范);

解决方式

在看Jsoup的源码中发现有outputSettings设置类,并且有个属性"prettyPrint",属性在Jsoup的构造函数中是默认设置为true的,也就是会按照html格式规范进行格式化,将此属性设置为false即可将html原样输出,即:

java 复制代码
document.outputSettings(new Document.OutputSettings().prettyPrint(false));

即输出不必再按照html规范进行格式化,即可将处理后的html原样输出。

end。

相关推荐
9523624 分钟前
SpringBoot统一功能处理
java·spring boot·后端
Lyyaoo.27 分钟前
优惠券秒杀业务分析
java·开发语言
消失的旧时光-194328 分钟前
统一并发模型:线程、Reactor、协程本质是一件事(从线程到协程 · 第6篇·终章)
java·python·算法
勿忘初心122131 分钟前
Java 国密 SM4 加密工具类实战(Hutool + BouncyCastle)|企业级数据加密 + 兼容 JDK8
java·数据安全·数据加密·后端开发·企业级开发·国密 sm4
庞轩px35 分钟前
第8篇:原子类与CAS底层原理——无锁并发的实现
java·cas·乐观锁·aba·无锁编程·自旋
rleS IONS1 小时前
SpringBoot中自定义Starter
java·spring boot·后端
苍煜1 小时前
慢SQL优化实战教学
java·数据库·sql
AI进化营-智能译站1 小时前
ROS2 C++开发系列16-智能指针管理传感器句柄|告别ROS2节点内存泄漏与野指针
java·c++·算法·ai
TeDi TIVE2 小时前
springboot和springframework版本依赖关系
java·spring boot·后端
二哈赛车手2 小时前
新人笔记---ES和kibana启动问题以及一些常用的linux的错误排查方法,以及ES,数据库泄密解决方案[超详细]
java·linux·数据库·spring boot·笔记·elasticsearch