技术栈

中文分类

DreamNotOver
1 年前
spark-ml·中文分类
使用spark mllib训练中文文本分类器的该代码首先读取训练数据。训练数据包括文本内容和文本类别两列。然后,我们使用中文分词器将文本内容转换为分词结果。在本例中,我们使用了 Spark MLlib 提供的 RegexTokenizer 类。
DreamNotOver
1 年前
spark-ml·集群·中文分类
使用 Spark MLlib 使用 jieba 分词训练中文分类器github.com/DanielReider/bde-project在 Spark 集群上实现中文分类器,可以使用以下步骤: