基于学习的人工智能(5)机器学习基本框架

四、数据

**数据是机器学习的"粮食",是知识的原始载体。**机器学习的目的就是将分散在数据中的知识提取来并保存在模型中。要训练一个优秀的机器学习模型,必须对数据进行精心选择。一般来说,数据需要具备以下几个条件:

质量:数据必须具备较高质量,特别是经过人工标注的数据,其标注准确率应足够高。

数量:数据量必须充足,否则难以训练出合理的模型。

场景覆盖度:数据应涵盖各种场景。例如,一个人脸识别数据库应包含不同光照、角度下的人脸图片,否则训练出来的模型可能难以实用。

近年来,随着大语言模型的发展,对数据的要求越来越高。例如,GPT-3.5 的训练使用了 45TB 的文本语料。如此庞大的数据量,如何清除劣质数据、平衡各数据源,以及如何让模型高效地学习,都是亟待解决的问题。此外,有科学家预测,人工智能可能会很快用尽人类的所有数据,如何应对"数据枯竭"也十分重要。

相关推荐
高洁01几秒前
数字孪生底层逻辑和技术
人工智能·深度学习·信息可视化·数据挖掘·transformer
L-影1 分钟前
下篇:从静态到动态,Embedding的进化之路
人工智能·ai·embedding
不懒不懒2 分钟前
【矿物数据缺失值填充:六种方法的实现与对比】
人工智能·机器学习
Mr.Cheng.2 分钟前
A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive
人工智能
badhope3 分钟前
Python、C、Java 终极对决!谁主沉浮?谁将消亡?
java·c语言·开发语言·javascript·人工智能·python·github
薛不痒3 分钟前
模型部署:基于flask和pytorch
人工智能·pytorch·python·深度学习·flask
linxinglu6 分钟前
DeepMind:解开智能之谜与「科学发现」的终极自动化杠杆
运维·人工智能·自动化
AEIC学术交流中心6 分钟前
【快速EI检索 | ACM ICPS出版】2026年人工智能、虚拟现实与文化遗产国际学术会议 (AIVRCH 2026)
人工智能·vr
金山几座8 分钟前
C#学习记录-泛型
开发语言·学习·c#
wenzhangli78 分钟前
OUC NLP双链路闭环设计:基于ooderAgent的LLM+知识库+RAG架构深度解析
人工智能·自然语言处理·架构