基于学习的人工智能(5)机器学习基本框架

四、数据

**数据是机器学习的"粮食",是知识的原始载体。**机器学习的目的就是将分散在数据中的知识提取来并保存在模型中。要训练一个优秀的机器学习模型,必须对数据进行精心选择。一般来说,数据需要具备以下几个条件:

质量:数据必须具备较高质量,特别是经过人工标注的数据,其标注准确率应足够高。

数量:数据量必须充足,否则难以训练出合理的模型。

场景覆盖度:数据应涵盖各种场景。例如,一个人脸识别数据库应包含不同光照、角度下的人脸图片,否则训练出来的模型可能难以实用。

近年来,随着大语言模型的发展,对数据的要求越来越高。例如,GPT-3.5 的训练使用了 45TB 的文本语料。如此庞大的数据量,如何清除劣质数据、平衡各数据源,以及如何让模型高效地学习,都是亟待解决的问题。此外,有科学家预测,人工智能可能会很快用尽人类的所有数据,如何应对"数据枯竭"也十分重要。

相关推荐
齐鲁大虾10 小时前
2026高考生填报志愿是保专业还是保学校
大数据·人工智能
guoketg10 小时前
Vision Transformer(ViT)的讲解和面试题目讲解
人工智能·python·深度学习·vit
Dontla10 小时前
Mock Interview模拟面试,20260108,MNC第二面技术面,AI Engineer
人工智能·面试·职场和发展
小咖自动剪辑10 小时前
免费超强图片压缩工具:批量操作 + 高效传输不失真
人工智能·音视频·语音识别·实时音视频·视频编解码
纠结哥_Shrek10 小时前
不均衡分布原则进行选品
大数据·人工智能
北京耐用通信10 小时前
耐达讯自动化“通关文牒”:Canopen转Profibus网关,贴片机的“协议通关秘籍”
人工智能·科技·网络协议·自动化·信息与通信
_codemonster10 小时前
计算机视觉入门到实战系列(六)边缘检测sobel算子
人工智能·计算机视觉
杀生丸学AI10 小时前
【平面重建】3D高斯平面:混合2D/3D光场重建(NeurIPS2025)
人工智能·平面·3d·大模型·aigc·高斯泼溅·空间智能
九河_10 小时前
四元数 --> 双四元数
人工智能·四元数·双四元数
Gofarlic_oms110 小时前
从手动统计到自动化:企业AutoCAD许可管理进化史
大数据·运维·网络·人工智能·微服务·自动化