技术栈
组队学习
墨心@
3 小时前
人工智能
·
自然语言处理
·
nlp
·
datawhale
·
cs336
·
组队学习
Byte-Pair Encoding (BPE) Tokenizer
Unicode是一种文本编码标准,它将字符映射到整数代码点。(2024年9月发布),该标准在168个脚本中定义了154,998个字符。(通常表示为U+0073,其中U+是常规前缀,0073是十六进制的115),字符“”的代码点为29275。在Python中,你可以使用ord()函数将单个Unicode字符转换为它的整数表示。chr()函数将整数Unicode码位转换为具有相应字符的字符串。
我是有底线的