【Java】Jsoup格式化html问题(文本空格折叠等)解决方法

问题说明

Jsoup格式化html文本时,如:

java 复制代码
Document document = Jsoup.parse(html);

这里在对html进行格式化的时候会将如下内容:

html 复制代码
<p>      aaa   </p>

解析成如下格式:

html 复制代码
<p> aaa </p>

即空格折叠问题(HTML的格式规范);

解决方式

在看Jsoup的源码中发现有outputSettings设置类,并且有个属性"prettyPrint",属性在Jsoup的构造函数中是默认设置为true的,也就是会按照html格式规范进行格式化,将此属性设置为false即可将html原样输出,即:

java 复制代码
document.outputSettings(new Document.OutputSettings().prettyPrint(false));

即输出不必再按照html规范进行格式化,即可将处理后的html原样输出。

end。

相关推荐
碳基硅坊24 分钟前
Spring AI:把大模型接进 Spring 应用
java·人工智能·spring ai
黄毛火烧雪下31 分钟前
Java 核心知识点总结(一)
java·开发语言
技术小结-李爽1 小时前
【工具】Maven的下载、安装、使用
java·maven
极创信息1 小时前
Linux挖矿病毒深度清理实战教程,从进程隐藏、Rootkit驻留到彻底根除
java·大数据·linux·运维·安全·tomcat·健康医疗
努力成为AK大王1 小时前
并发编程的核心挑战、优化方案与核心知识点总结
java·开发语言·数据库
云烟成雨TD1 小时前
Agent Scope Java 2.x 系列【10】技能(Skill)
java·人工智能·agent
摇滚侠1 小时前
SpringMVC 入门到实战 DispatcherServlet 源码解读 92-95
java·后端·spring·maven·intellij-idea
键盘歌唱家2 小时前
Spring AI 入门分享:它和“直接调 API“到底差在哪
java·人工智能·spring
宸丶一2 小时前
Day 10:LangGraph - Agent 的图执行引擎
java·windows·python
hikktn2 小时前
Excel 导出 OOM 预防实战:30 万行从堆溢出到 50MB 的演进
java·excel·easyexcel