技术栈
质量过滤
gz7seven
1 天前
人工智能
·
大模型
·
数据清洗
·
质量过滤
大模型学习笔记------数据清洗(质量过滤)
这类模型适用于处理海量原始数据(如 Common Crawl),其核心优势是速度极快、计算成本低。fastText (Facebook) 用途:最主流的质量过滤模型。常用于识别语种、过滤低质量文本(如广告、乱码)。 案例:FineWeb、Ultra-FineWeb 等知名数据集均使用 fastText 训练质量分类器。 原理:基于简单的 n-gram 和线性分类,能够以每秒处理数十万文档的速度运行。
我是有底线的