urlencode、html实体编码、unicode

目录

urlencode

html实体编码

Unicode编码


urlencode

URL编码也称为百分号编码,用于将URL中的特殊字符转换为安全传输的格式。英文数字一般不编码

特点:

  • 使用%后跟两个十六进制数字表示字符

  • 空格编码为+%20

  • 保留字符(; / ? : @ & = + $ ,) 等在不同URL部分有特殊含义

  • 其他字符:转换为UTF-8字节序列,然后每个字节用%XX表示

html实体编码

HTML实体用于表示HTML中的特殊字符,防止与标签混淆。

类型:

  1. 命名实体:&lt;表示<

  2. 数字实体:&#60;&#x3C;表示<

常见实体:

字符 命名实体 十进制 十六进制
< &lt; &#60; &#x3C;
> &gt; &#62; &#x3E;
& &amp; &#38; &#x26;
" &quot; &#34; &#x22;
空格 &nbsp; &#160; &#xA0;

Unicode编码

Unicode为世界上所有字符提供唯一编号(码点)

表示方式:

环境 格式 示例
JavaScript \uXXXX(4位)或\u{X...}(1-6位) \u6D4B\u{6D4B}
Python \uXXXX\UXXXXXXXX \u6d4b
HTML &#xXXXX;&#NNNNN;
Java \uXXXX \u6D4B
C/C++ \uXXXX\UXXXXXXXX \u6D4B