技术栈
预训练数据
羽星_s
2 个月前
深度学习
·
自然语言处理
·
大语言模型
·
预训练数据
预训练数据指南:衡量数据年龄、领域覆盖率、质量和毒性的影响
原论文:A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity