【Java】Jsoup格式化html问题(文本空格折叠等)解决方法

问题说明

Jsoup格式化html文本时,如:

java 复制代码
Document document = Jsoup.parse(html);

这里在对html进行格式化的时候会将如下内容:

html 复制代码
<p>      aaa   </p>

解析成如下格式:

html 复制代码
<p> aaa </p>

即空格折叠问题(HTML的格式规范);

解决方式

在看Jsoup的源码中发现有outputSettings设置类,并且有个属性"prettyPrint",属性在Jsoup的构造函数中是默认设置为true的,也就是会按照html格式规范进行格式化,将此属性设置为false即可将html原样输出,即:

java 复制代码
document.outputSettings(new Document.OutputSettings().prettyPrint(false));

即输出不必再按照html规范进行格式化,即可将处理后的html原样输出。

end。

相关推荐
万亿少女的梦1689 分钟前
基于Spring Boot的楚雄旅游景区门票售卖系统设计与实现
java·spring boot·mysql·vue·系统设计
不会写代码的ys9 分钟前
C++复习篇
java·开发语言·c++
我是个假程序员34 分钟前
实例化动作脚本类,并执行,执行类似N_F1_SAVE.java这种
java·nc
青山木1 小时前
Hot 100 --- LRU 缓存
java·数据结构·算法·leetcode·链表·缓存·哈希
花生了什么事o1 小时前
Java 线程池:从参数到拒绝策略
java·jvm
长孙豪翔1 小时前
引发事件的问题
java·linux·数据库
happyprince1 小时前
09-vLLM KV Cache 系统完整分析
java·spring·vllm
掉鱼的猫1 小时前
ReActAgent 使用指南:构建会思考、能行动的 AI Agent
java·llm·agent
pp起床1 小时前
黑马点评 - 短信验证码登录实现
java·开发语言·tomcat
CodeStats1 小时前
《源纹天书》第121-125章:源匠归来——全栈重构与归元圣域的2.0时代
java·开发语言·源纹天书