什么是机器学习,机器学习与人工智能的区别是什么(一)?
人工智能和计算机游戏领域的先驱阿瑟·塞缪尔(Arthur Samuel)创造了 "机器学习"一词。他将机器学习定义为 "一个让计算机无需明确编程即可学习的研究领域" 。通俗地说,机器学习(ML)可以解释为根据计算机的经验自动化和改进计算机的学习过程,而无需实际编程,即无需任何人工帮助。该过程首先提供高质量的数据,然后通过使用数据和不同算法构建机器学习模型来训练我们的机器(计算机)。算法的选择取决于我们拥有什么类型的数据以及我们想要自动化的任务类型。
什么是机器学习?
机器学习 是人工智能的一个分支,它通过学习数据集的隐藏模式来开发算法,并使用它来对新的相似类型数据进行预测,而无需为每个任务进行显式编程。
传统机器学习 将数据与统计工具相结合来预测可用于形成可行见解的输出。
机器学习用于许多不同的应用,从图像和语音识别到自然语言处理、推荐系统、欺诈检测、投资组合优化、自动化任务等等。机器学习模型还用于为自动驾驶汽车、无人机和机器人提供动力,使它们更加智能并能够适应不断变化的环境。
强化学习是另一种类型的机器学习,可用于改进基于推荐的系统。在强化学习中,代理学习根据其环境的反馈做出决策,并且该反馈可用于改进向用户提供的建议。例如,系统可以跟踪用户观看推荐电影的频率,并使用此反馈来调整未来的推荐。
基于机器学习的个性化推荐在许多行业中越来越受欢迎,包括电子商务、社交媒体和在线广告,因为它们可以提供更好的用户体验并增加对平台或服务的参与度。
这一突破源于这样一种想法:机器可以从数据(即示例)中单独学习以产生准确的结果。
机器学习与传统编程的区别
机器学习与传统编程的区别如下:
机器学习 | 传统编程 | 人工智能 |
---|---|---|
机器学习是人工智能 (AI) 的一个子集,专注于从数据中学习以开发可用于进行预测的算法。 | 在传统编程中,基于规则的代码是由开发人员根据问题陈述编写的。 | 人工智能涉及使机器变得尽可能强大,以便它能够执行通常需要人类智能的任务。 |
机器学习使用数据驱动的方法,通常根据历史数据进行训练,然后用于对新数据进行预测。 | 传统编程通常是基于规则的和确定性的。它没有机器学习和人工智能等自学习功能。 | 人工智能可以涉及许多不同的技术,包括机器学习和深度学习,以及传统的基于规则的编程。 |
机器学习可以在大型数据集中找到人类可能难以发现的模式和见解。 | 传统的编程完全依赖于开发人员的智慧。因此,它的能力非常有限。 | 有时,人工智能会结合使用数据和预定义规则,这使其在以高精度解决复杂任务方面具有巨大优势,而这对于人类来说似乎是不可能的。 |
机器学习是人工智能的子集。现在它被用于各种基于人工智能的任务,如聊天机器人问答、自动驾驶汽车等。 | 传统编程通常用于构建具有特定功能的应用程序和软件系统。 | 人工智能是一个广泛的领域,包括许多不同的应用,包括自然语言处理、计算机视觉和机器人技术。 |
机器学习算法如何工作
机器学习以以下方式工作。
- 前向传递: 在前向传递中,机器学习算法接收输入数据并产生输出。根据模型算法计算预测。
- 损失函数: 损失函数也称为误差或成本函数,用于评估模型预测的准确性。该函数将模型的预测输出与实际输出进行比较,并计算它们之间的差异。这种差异称为错误或损失。模型的目标是通过调整其内部参数来最小化误差或损失函数。
- 模型优化过程: 模型优化过程是调整模型内部参数以最小化误差或损失函数的迭代过程。这是使用优化算法(例如梯度下降) 来完成的。优化算法计算误差函数相对于模型参数的梯度,并使用该信息来调整参数以减少误差。该算法重复此过程,直到误差最小化到令人满意的水平。
一旦模型在训练数据上进行了训练和优化,它就可以用于对新的、看不见的数据进行预测。模型预测的准确性可以使用各种性能指标进行评估,例如准确度、精确度、召回率和 F1 分数。
机器学习生命周期:
机器学习项目的生命周期涉及一系列步骤,其中包括:
-
研究问题: 第一步是研究问题。此步骤涉及理解业务问题并定义模型的目标。
-
数据收集: 当问题明确后,我们就可以收集模型所需的相关数据。数据可能来自各种来源,例如数据库、API 或网络抓取。
-
数据准备:
收集与问题相关的数据时。那么最好正确检查数据并将其设置为所需的格式,以便模型可以使用它来查找隐藏的模式。这可以通过以下步骤完成:
- 数据清洗
- 数据转换
- 解释性数据分析和特征工程
- 拆分数据集以进行训练和测试。
-
模型选择: 下一步是选择适合我们问题的机器学习算法。此步骤需要了解不同算法的优点和缺点。有时我们使用多个模型并比较它们的结果并根据我们的要求选择最佳模型。
-
模型构建和训练:
选择算法后,我们必须构建模型。
- 在传统机器学习的情况下,构建模式很容易,只需进行一些超参数调整即可。
- 在深度学习的情况下,我们必须定义分层架构以及输入和输出大小、每层的节点数、损失函数、梯度下降优化器等。
- 使用预处理的数据集训练该模型之后。
-
模型评估: 模型训练完成后,可以使用分类报告、F1 分数、精度、召回率、ROC 曲线、均方误差、绝对误差等不同技术在测试数据集上对其进行评估,以确定其准确性和性能。
-
模型调优: 根据评估结果,可能需要对模型进行调优或优化以提高其性能。这涉及调整模型的超参数。
-
部署: 模型经过训练和调整后,可以将其部署在生产环境中以对新数据进行预测。此步骤需要将模型集成到现有的软件系统中或为模型创建一个新系统。
-
监控和维护: 最后,监控模型在生产环境中的性能并根据需要执行维护任务至关重要。这包括监控数据漂移、根据需要重新训练模型以及在新数据可用时更新模型。
机器学习的类型
- 监督机器学习
- 无监督机器学习
- 强化机器学习
1.监督机器学习:
监督学习是机器学习的一种,其中算法在标记数据集上进行训练。它学习根据标记的训练数据将输入特征映射到目标。在监督学习中,算法提供输入特征和相应的输出标签,并学习从这些数据中进行泛化,以对新的、未见过的数据进行预测。
监督学习主要有两种类型:
- 回归:回归是一种监督学习,算法学习根据输入特征预测连续值。回归中的输出标签是连续值,例如股票价格、房价。机器学习中不同的回归算法有:线性回归、多项式回归、岭回归、决策树回归、随机森林回归、支持向量回归等
- 分类:分类是一种监督学习,算法学习根据输入特征将输入数据分配到特定类别或类别。分类中的输出标签是离散值。分类算法可以是二元的,其中输出是两个可能的类别之一,也可以是多类别的,其中输出可以是多个类别之一。机器学习中不同的分类算法有:逻辑回归、朴素贝叶斯、决策树、支持向量机(SVM)、K-最近邻(KNN)等.
2.无监督机器学习:
无监督学习是机器学习的一种类型,其中算法无需使用标记示例进行显式训练即可学习识别数据中的模式。无监督学习的目标是发现数据的底层结构或分布。
无监督学习主要有两种类型:
- 聚类:聚类算法根据相似的数据点的特征将其分组在一起。目标是识别彼此相似但与其他组不同的数据点组或集群。一些流行的聚类算法包括 K-means、层次聚类和 DBSCAN。
- 降维: 降维算法减少数据集中输入变量的数量,同时保留尽可能多的原始信息。这对于降低数据集的复杂性并使其更易于可视化和分析非常有用。一些流行的降维算法包括主成分分析 (PCA)、t-SNE 和自动编码器。
3. 强化机器学习
强化学习是一种机器学习,其中代理通过执行操作并根据其操作接收奖励或惩罚来学习与环境交互。强化学习的目标是学习一种策略,它是从状态到行动的映射,随着时间的推移最大化预期累积奖励。
强化学习主要有两种类型:
- 基于模型的强化学习: 在基于模型的强化学习中,代理学习环境模型,包括状态之间的转换概率以及与每个状态-动作对相关的奖励。然后,代理使用该模型来规划其行动,以最大化其预期奖励。一些流行的基于模型的强化学习算法包括值迭代和策略迭代。
- 无模型强化学习:在无模型强化学习中,智能体直接从经验中学习策略,而无需显式构建环境模型。代理与环境交互并根据收到的奖励更新其策略。一些流行的无模型强化学习算法包括 Q-Learning、SARSA 和深度强化学习。
机器学习的需求:
机器学习很重要,因为它允许计算机从数据中学习并提高其在特定任务上的性能,而无需显式编程。这种从数据中学习并适应新情况的能力使得机器学习对于涉及大量数据、复杂决策和动态环境的任务特别有用。
以下是使用机器学习的一些特定领域:
- 预测建模: 机器学习可用于构建预测模型,帮助企业做出更好的决策。例如,机器学习可用于预测哪些客户最有可能购买特定产品,或者哪些患者最有可能患上某种疾病。
- 自然语言处理: 机器学习用于构建能够理解和解释人类语言的系统。这对于语音识别、聊天机器人和语言翻译等应用非常重要。
- 计算机视觉: 机器学习用于构建可以识别和解释图像和视频的系统。这对于自动驾驶汽车、监控系统和医学成像等应用非常重要。
- 欺诈检测: 机器学习可用于检测金融交易、在线广告和其他领域的欺诈行为。
- 推荐系统:机器学习可用于构建推荐系统,根据用户过去的行为和偏好向他们推荐产品、服务或内容。
总体而言,机器学习已成为许多企业和行业的重要工具,因为它使他们能够更好地利用数据,改进决策流程,并为客户提供更加个性化的体验。
机器学习的各种应用
- 自动化:机器学习,在任何领域完全自主地工作,无需任何人工干预。例如,机器人在制造工厂中执行基本的流程步骤。
- 金融行业:机器学习在金融行业越来越受欢迎。银行主要使用机器学习来查找数据内部的模式,同时也防止欺诈。
- 政府组织:政府利用机器学习来管理公共安全和公用事业。以拥有大规模人脸识别的中国为例。政府使用人工智能来防止乱穿马路。
- 医疗保健行业:医疗保健是最早使用机器学习和图像检测的行业之一。
- 营销: 由于数据的丰富性,人工智能在营销中得到了广泛的应用。在海量数据时代之前,研究人员开发了贝叶斯分析等先进的数学工具来估计客户的价值。随着数据的蓬勃发展,营销部门依靠人工智能来优化客户关系和营销活动。
- 零售行业:零售行业使用机器学习来分析客户行为、预测需求和管理库存。它还可以根据每位顾客过去的购买情况和偏好推荐产品,帮助零售商为每位顾客提供个性化的购物体验。
- 交通运输:机器学习在交通运输行业中用于优化路线、减少燃料消耗并提高交通系统的整体效率。它还在自动驾驶汽车中发挥着作用,其中机器学习算法用于做出有关导航和安全的决策。
机器学习的挑战和局限性
机器学习的局限性:
- 机器学习的主要挑战是缺乏数据或数据集的多样性。
- 如果没有可用数据,机器就无法学习。此外,缺乏多样性的数据集会给机器带来困难。
- 机器需要具有异质性才能学习有意义的洞察力。
- 当没有变化或变化很少时,算法很少能提取信息。