在 .NET 9 中,微软引入了 Microsoft.ML.Tokenizers
库,为 .NET 开发者提供了强大的文本标记化功能。
一、什么是Microsoft.ML.Tokenizers
Microsoft.ML.Tokenizers
是一个用于文本标记化的库,是 .NET 生态系统中的一个强大库旨在将文本转换为令牌(tokens)
以便在自然语言处理(NLP)任务中使用。该库支持多种标记化算法,包括字节对编码(BPE)、SentencePiece 和 WordPiece,满足不同模型和应用的需求。
二、主要应用场景
-
自然语言处理(NLP):在训练和推理阶段,将文本转换为模型可处理的令牌格式。
-
预处理步骤:在文本分析、情感分析、机器翻译等任务中,对输入文本进行标记化处理。
-
自定义词汇表:开发者可以导入自定义词汇表,使用 BPE Tokenizer 处理特定领域的文本数据。
三、支持的模型和服务
Microsoft.ML.Tokenizers
针对多种流行的模型系列进行了优化,包括:
-
-
GPT 系列:如 GPT-4、GPT-o1 等。
-
Llama 系列。
-
Phi 系列。
-
Bert 系列。
-
此外,该库还与其他 AI 服务集成,如 Azure、OpenAI 等,为开发者提供统一的 C# 抽象层,简化与 AI 服务的交互。
四、主要类Class
1. Tokenizer
类
Tokenizer
类充当文本处理的管道,接受原始文本输入并输出 TokenizerResult
对象。它允许设置不同的模型、预处理器和规范化器,以满足特定需求。
主要方法:
-
-
Encode(string text)
: 将输入文本编码为包含令牌列表、令牌 ID 和令牌偏移映射的对象。 -
Decode(IEnumerable<int> ids, bool skipSpecialTokens = true)
: 将给定的令牌 ID 解码回字符串。 -
TrainFromFiles(Trainer trainer, ReportProgress reportProgress, params string[] files)
: 使用输入文件训练标记器模型。
-
主要属性:
-
-
Model
: 获取或设置标记器使用的模型。 -
PreTokenizer
: 获取或设置标记器使用的预处理器。 -
Normalizer
: 获取或设置标记器使用的规范化器。 -
Decoder
: 获取或设置标记器使用的解码器。
-
2. Model
类
Model
类是标记化过程中使用的模型的抽象基类,如 BPE、WordPiece 或 Unigram。具体模型(如 Bpe
)继承自该类,并实现其方法。
主要方法:
-
-
GetTrainer()
: 获取用于训练模型的训练器对象。 -
GetVocab()
: 获取将令牌映射到 ID 的词汇表。 -
GetVocabSize()
: 获取词汇表的大小。 -
TokenToId(string token)
: 将令牌映射到标记化 ID。 -
IdToToken(int id, bool skipSpecialTokens = true)
: 将标记化 ID 映射到令牌。 -
Tokenize(string sequence)
: 将字符串序列标记化为令牌列表。 -
Save(string vocabPath, string mergesPath)
: 将模型数据保存到词汇和合并文件中。
-
3. Bpe
类
Bpe
类表示字节对编码(Byte Pair Encoding)模型,是 Model
类的具体实现之一。它用于将文本拆分为子词单元,以提高对未登录词的处理能力。
主要属性:
-
-
UnknownToken
: 获取或设置未知令牌。在遇到未知字符时使用。 -
FuseUnknownTokens
: 获取或设置是否允许多个未知令牌融合。 -
ContinuingSubwordPrefix
: 用于仅存在于另一个子词后面的任何子词的可选前缀。 -
EndOfWordSuffix
: 用于描述词尾子词特征的可选后缀。
-
主要方法:
-
-
Save(string vocabPath, string mergesPath)
: 将模型数据保存到词汇和合并文件中。 -
Tokenize(string sequence)
: 将字符串序列标记化为令牌列表。 -
GetTrainer()
: 获取用于训练模型的训练器对象,并生成词汇和合并数据。
-
4. EnglishRoberta
类
EnglishRoberta
类是专门为英语 Roberta 模型设计的标记器模型。它继承自 Model
类,并实现了特定于 Roberta 的标记化逻辑。
主要属性:
-
-
PadIndex
: 获取符号列表中填充符号的索引。 -
SymbolsCount
: 获取符号列表的长度。
-
主要方法:
-
-
AddMaskSymbol(string maskSymbol)
: 将掩码符号添加到符号列表。 -
IdsToOccurrenceRanks(IReadOnlyList<int> ids)
: 将令牌 ID 列表转换为最高出现次数排名。 -
OccurrenceRanksIds(IReadOnlyList<int> ranks)
: 将最高出现次数排名的列表转换为令牌 ID 列表。 -
Save(string vocabPath, string mergesPath)
: 将模型数据保存到词汇、合并和匹配项映射文件中。
-
5. RobertaPreTokenizer
类
RobertaPreTokenizer
类是为英语 Roberta 标记器设计的预处理器。它负责在标记化之前对文本进行初步拆分和处理。
主要方法:
-
PreTokenize(string text)
: 对输入文本进行预标记化处理。
6. Split
类
Split
类表示将原始字符串拆分后的子字符串。每个子字符串由一个标记表示,最终可能代表原始输入字符串的各个部分。
主要属性:
-
TokenString
: 获取基础拆分令牌。
五、示例代码
使用 Microsoft.ML.Tokenizers
库对文本进行标记化,以适配 GPT-4 模型,可以按照以下步骤进行:
-
安装必要的 NuGet 包 :确保项目引用了
Microsoft.ML.Tokenizers
包。 -
加载 GPT-4 的词汇表和合并对文件 :从官方或可信来源获取 GPT-4 模型的词汇表(
vocab.json
)和合并对(merges.txt
)文件。 -
初始化 BPE 模型并加载词汇表 :使用
Microsoft.ML.Tokenizers
库中的Bpe
类加载词汇表和合并对文件。 -
创建标记器并进行文本标记化和解码 :使用
Tokenizer
类对输入文本进行标记化,并根据需要解码回原始文本。
以下是示例代码:
using System;
using Microsoft.ML.Tokenizers;
class Program
{
static void Main(string[] args)
{
// 初始化 BPE 模型
var bpe = new Bpe();
// 加载 GPT-4 的词汇表和合并对文件
bpe.Load("path_to_vocab.json", "path_to_merges.txt");
// 创建标记器
var tokenizer = new Tokenizer(bpe);
// 输入文本
var inputText = "这是一个用于测试的文本。";
// 对文本进行标记化
var encoded = tokenizer.Encode(inputText);
// 输出标记化结果
Console.WriteLine("Tokens:");
foreach (var token in encoded.Tokens)
{
Console.WriteLine(token);
}
// 解码回原始文本
var decodedText = tokenizer.Decode(encoded.Ids);
Console.WriteLine($"Decoded Text: {decodedText}");
}
}
-
路径设置 :将
"path_to_vocab.json"
和"path_to_merges.txt"
替换为实际的文件路径。 -
词汇表和合并对文件的获取:确保从官方或可信来源获取与 GPT-4 模型兼容的词汇表和合并对文件。
-
模型兼容性:虽然此代码使用了通用的 BPE 标记器,但在实际应用中,可能需要根据 GPT-4 模型的具体要求进行调整。
周国庆
2025/1/6