Java：XML被自动转义

在Java中处理XML响应被自动转义的问题时，需结合XML规范及工具特性进行针对性处理。以下是常见原因及解决方案的总结：

‌ 一、XML自动转义的原因 ‌

‌字符安全性处理 ‌
XML中的保留字符（如 <、>、&）会被自动转义为实体（如 <、>、&），以避免破坏XML结构。
示例：若直接拼接字符串生成XML，<script> 会被转义为 <script>，导致数据无法按预期解析。
‌工具库的默认行为 ‌
使用如 StringEscapeUtils.escapeXml() 或某些XML生成库时，可能默认开启转义。

‌ 二、解决方案 ‌

‌ 1. 使用DOM API生成XML（推荐） ‌

通过Java内置的DOM API（如 DocumentBuilder）生成XML，工具会自动处理转义逻辑：

DocumentBuilderFactory docFactory = DocumentBuilderFactory.newInstance();

DocumentBuilder docBuilder = docFactory.newDocumentBuilder();

Document doc = docBuilder.newDocument();

Element root = doc.createElement("root");

Text textNode = doc.createTextNode("Unescaped content: < > &");

root.appendChild(textNode);

doc.appendChild(root);

// 输出时，特殊字符会被正确转义

Transformer transformer = TransformerFactory.newInstance().newTransformer();

transformer.transform(new DOMSource(doc), new StreamResult(System.out));

‌ 2. 禁用第三方库的自动转义 ‌

‌Apache Commons Text ‌
若需保留原始字符，避免使用 StringEscapeUtils.escapeXml()，或使用 unescapeXml() 反转义4。
‌DOM4j ‌
在生成节点时直接设置文本内容，而非手动拼接字符串3：

Element element = document.addElement("data");

element.setText("Raw content: < > &"); // 自动转义

‌ 3. 使用CDATA区块 ‌

通过 <! $CDATA\[...$ ]> 包裹内容，避免XML解析器处理特殊字符：

String content = "<! $CDATA\[\alert('xss')\$ ]>";

element.appendChild(document.createCDATASection(content));

输出效果：

‌ 4. 手动控制转义逻辑 ‌

若需部分转义，可自定义转义规则（慎用）：

public static String escapeManual(String input) {

return input.replace("&", "&")

.replace("<", "<")

.replace(">", ">");

}

‌ 三、注意事项 ‌

‌ 四、验证工具 ‌