机器学习的数据管理

.机器学习的数据管理注意事项

机器学习的生命周期包括如下部分

(1).业务的理解,机器学习问题框架

(2).数据理解和收集

(3).模型的训练和评估

(4)模型部署

(5).模型监控

(6).业务衡量

数据管理和机器学习的生命周期的2,3,4个阶段有关。

我们需要对数据进行分析,一般是分析数据的相关性,数据的统计,数据的分布,一般有下面这下内容

(1).进行数据验证,检测错误数据,验证数据质量。比如数据的范围,数据分布,数据类型或者空缺值。

(2).执行数据清洗以修复数据错误

(3).充实数据,通过不同的数据集的连接或者数据转换产生新的信号

再模型的训练和验证阶段,需要为正式的模型模型创建训练和验证数据集

在调用模型已部署的模型时,将特征处理所需要的数据作为输入数据的一部分提供

在调用已部署的模型时,提供预先计算的特征作为输入的一部分。

2.机器学习的数据管理架构

1.对于一个小型的机器学习项目,可以考虑使用简单的数据管理架构模式,这种模式一般有固定的数据管道。

从数据仓库或者其他数据集中提取固定的特征,然后经过数据提取工具储存到项目的数据储存区,最后进行机器学习项目。

2.对于一个大型的机器学习项目,就需要一个大型的架构方式,因为这样的机器学习项目,往往需要从各处抽取数据资源,这样的数据可能是结构化的,也可能是非结构化的,也可能是半结构化的,表格,图像,文本,都有可能是项目所需要的数据。

一般的架构如下所示

数据湖旨在存储无限量的数据并在不同的生命周期阶段进行管理。数据湖的主要目的是将不同的数据孤岛整合到一个中心存储库中,用于集中数据管理和数据访问,以满足分析需求和机器学习需求。

3.数据提取

数据提取需要注意以下几个事项

1.数据格式,数据大小和可扩展性,考虑到不同的数据格式,数据大小,和数据速度的需求;

2.提取模式,因为数据类型的一样,或者任务很复杂,有时候需要组合不同的提取工具。

3.数据的预处理能力,提取的数据可能需要进行预处理

4.安全性,选择的工具是否需要身份认证和授权提供安全机制

5.可靠性.这些工具需要提供故障恢复能力,以便再提取过程中不会丢失关键数据,如果没有恢复能力,请确保数据来源重新运行提取作业的功能。

6.支持不同的数据源和目标,提取工具需要支持广泛的数据源,比如数据库,文件和流式源,该工具还应该提供用于数据提取的API

7.可管理性:可管理型应该是另一个考虑因素,该工具是否自我管理,还是完全托管?需要综合考虑成本。

4.数据目录

数据目录是数据管理的关键组件,它使得数据分析师能够轻松发现中央数据存储的数据。

数据目录记录要考虑以下几个关键因素

(1).元数据目录:支持元数据管理的中央数据目录。

(2).自动数据编目:自动发现和编目数据集从不同数据源推断数据模式的能力。

(3).标记的灵活性

(4).与其他工具集成

(5).搜索

5.数据处理

数据湖的数据处理能力提供了数据处理框架和底层计算资源来处理不同目的的数据,比如数据纠错,数据转换,数据合并,数据拆分,数据合并,和机器学习特征工程

它需要考虑以下几个关键因素

(1).与底层存储技术的集成和互操作性:能够与底层储存进行原生协同工作的能力,这简化了数据访问和加载,移动。

(2).与数据目录集成的能力:可以和数据目录交互,查找数据

(3).可扩展性:根据数据量调整计算资源

(4).语言和框架的支持:可以使用各种编程语言和框架

6.数据版本控制

对转化或者提取后的数据根据需要控制版本,这就有赖于协调了。

7.数据管道

对数据的处理,转化,提取按照自动化的流程进行的工具,这是一项集成任务。

8.身份授权和验证

9.数据治理

数据据治理可确保数据资产受到资产受到信任,保护和分类,并且对它的访问进行监控和审计。

相关推荐
AI视觉网奇3 分钟前
公式动画软件学习笔记
人工智能·公式绘图
天天代码码天天6 分钟前
C# OnnxRuntime 部署 DDColor
人工智能·ddcolor
惠惠软件7 分钟前
豆包 AI 学习投喂与排名优化指南
人工智能·学习·语音识别
数据中心的那点事儿8 分钟前
从设计到运营全链破局 恒华智算专场解锁产业升级密码
大数据·人工智能
FluxMelodySun12 分钟前
机器学习(三十三) 概率图模型与隐马尔可夫模型
人工智能·机器学习
深兰科技17 分钟前
深兰科技与淡水河谷合作推进:矿区示范加速落地
java·人工智能·python·c#·scala·symfony·深兰科技
V搜xhliang024621 分钟前
OpenClaw、AI大模型赋能数据分析与学术科研 学习
人工智能·深度学习·学习·机器学习·数据挖掘·数据分析
PHOSKEY22 分钟前
3D工业相机对焊后缺陷全检——机械手焊接系统质量控制的最后关口
人工智能
Aaron158824 分钟前
8通道测向系统演示科研套件
人工智能·算法·fpga开发·硬件工程·信息与通信·信号处理·基带工程
每天进步一点点️28 分钟前
AI芯片制造的“择优录用”:解读 APU Cluster4 的 Harvesting 机制
人工智能·soc片上系统·半导体芯片