【Java】Jsoup格式化html问题(文本空格折叠等)解决方法

问题说明

Jsoup格式化html文本时,如:

java 复制代码
Document document = Jsoup.parse(html);

这里在对html进行格式化的时候会将如下内容:

html 复制代码
<p>      aaa   </p>

解析成如下格式:

html 复制代码
<p> aaa </p>

即空格折叠问题(HTML的格式规范);

解决方式

在看Jsoup的源码中发现有outputSettings设置类,并且有个属性"prettyPrint",属性在Jsoup的构造函数中是默认设置为true的,也就是会按照html格式规范进行格式化,将此属性设置为false即可将html原样输出,即:

java 复制代码
document.outputSettings(new Document.OutputSettings().prettyPrint(false));

即输出不必再按照html规范进行格式化,即可将处理后的html原样输出。

end。

相关推荐
_日拱一卒7 小时前
LeetCode:矩阵置零
java·数据结构·线性代数·算法·leetcode·职场和发展·矩阵
weixin_408099677 小时前
【实战教程】懒人精灵如何实现 OCR 文字识别?接口调用完整指南(附可运行示例)
java·前端·人工智能·后端·ocr·api·懒人精灵
花千树-0107 小时前
Java Agent 集成 MCP 工具协议:让 AI 真正驱动企业系统
java·ai·langchain·ai agent·mcp·harness·j-langchain
橘子编程7 小时前
GoF 23 种设计模式完整知识总结与使用教程
java·c语言·开发语言·python·设计模式
君以思为故8 小时前
认识Linux -- 线程同步与互斥
java·开发语言
被摘下的星星8 小时前
Java接口需要注意的细节
java·开发语言
培风图南以星河揽胜8 小时前
幻想简历!博主本人期望的 AI Agent 全栈简历:Java + Python + Vue3 跨语言实战,代码已开源!
java·人工智能·python
鬼先生_sir8 小时前
Dubbo:从入门到精通
java·dubbo·springcloud
艾莉丝努力练剑8 小时前
【Linux线程】Linux系统多线程(四):线程ID及进程地址空间布局,线程封装
java·linux·运维·服务器·c语言·c++·学习
有味道的男人8 小时前
电商效率翻倍:用 Open Claw 对接 1688 接口,快速实现图片选品 + 货源监控
java·开发语言·数据库