




机器学习介绍
机器学习是人工智能的重要分支,它让计算机能像人类一样 "学习"。从定义看,对于给定任务 T,在合理性能度量方案 P 下,计算机程序可自主学习任务 T 的经验 E,且随着优质、大量经验 E 的积累,程序对任务 T 的性能会逐步提升。简单来说,就是计算机通过不断执行任务、积累经验,实现性能的优化。
机器学习的运作,依赖计算机系统依据训练数据按特定方式学习,随着训练次数增加,系统性能不断改进,经参数优化的学习模型能预测相关问题输出。
人类学习有从 "无知" 到掌握知识的过程,涉及语言、颜色、形状等特征统计。机器学习也借鉴了人类学习模式,分为有监督学习(如识别物体)、无监督学习(无监督学习就像是让计算机自己在一堆杂乱的数据里找规律、做分类,不需要人提前告诉它 "答案"。有点自主意识说白了就是自己去找想要的)、增强学习(如模拟走路、踢球时的反馈学习)。
机器学习能解决给定数据的预测问题,涵盖数据清洗、特征选择、确定算法模型与参数优化、结果预测等环节。但它并非万能,无法直接解决大数据存储、并行计算,也不能单独造出一个机器人。比如在排球场景中,机器学习可基于数据得出 "盯住 2 号位,她很容易起快球" 的预测,而传统算法则是依据排球规则来制定策略。
最后不要忘了咱们机器学习或者深度学习开发流程走获取数据集,构造模型,训练模型,评估模型哈哈哈。
补充一点无监督学习心得,咱们举个网络安全中红队模型的小案例,在红队SQL注入实战中,不管有没有防火墙都无法突破主机,核心往往在Payload,目标应用的代码层过滤、参数校验等 "隐形防护",会拦截通用Payload。无监督学习在此展现独特价值:无需人工标注有效样本(实战中咱们一般很难提前获取目标防护规则),但是咱们可通过聚类、异常检测等算法,对海量Payload及目标响应数据自主分析,挖掘 "绕过防护" 的隐蔽特征,比如关键词替代写法、注释符嵌套规律等。实战中需注重 "数据多样性 + 实战反馈闭环",用覆盖多攻击类型、多防护场景的数据集训练模型,再将生成新的Payload的实战效果模型优化,让其持续产出适配未知防护的有效Payload,突破人工构造的局限 。