中文分类 - 中文分类技术,学习,经验文章

DreamNotOver

2 年前

使用spark mllib训练中文文本分类器的该代码首先读取训练数据。训练数据包括文本内容和文本类别两列。然后，我们使用中文分词器将文本内容转换为分词结果。在本例中，我们使用了 Spark MLlib 提供的 RegexTokenizer 类。