技术栈
overfitting
强哥之神
2 个月前
人工智能
·
深度学习
·
神经网络
·
机器学习
·
llm
·
过拟合
·
overfitting
谈谈LLM训练中的“过拟合”与“欠拟合”
如今,由于其出色的理解、生成和操纵人类语言的能力,语言模型已经成为焦点。据最新调查数据显示,大概30%的企业计划使用非结构化数据来提高大型语言模型(LLM)的准确性。在训练这些语言模型时,一个基本挑战是找到复杂性和泛化之间的正确平衡。也就是说,训练这些模型的时候,得找到一个刚刚好的点,就是别太复杂也别太简单,这个平衡点挺难抓的。这个平衡点就是咱们常说的过拟合和欠拟合,这俩概念在训练模型的时候特别关键,能大大影响最后模型的表现。