技术栈

预训练数据

羽星_s
10 个月前
深度学习·自然语言处理·大语言模型·预训练数据
预训练数据指南:衡量数据年龄、领域覆盖率、质量和毒性的影响原论文:A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity