技术栈

质量过滤

gz7seven
1 天前
人工智能·大模型·数据清洗·质量过滤
大模型学习笔记------数据清洗(质量过滤)这类模型适用于处理海量原始数据(如 Common Crawl),其核心优势是速度极快、计算成本低。fastText (Facebook) 用途:最主流的质量过滤模型。常用于识别语种、过滤低质量文本(如广告、乱码)。 案例:FineWeb、Ultra-FineWeb 等知名数据集均使用 fastText 训练质量分类器。 原理:基于简单的 n-gram 和线性分类,能够以每秒处理数十万文档的速度运行。
我是有底线的