数据清洗

阿杰学AI5 天前
人工智能·ai·语言模型·aigc·数据清洗·模型训练·data cleaning
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)数据清洗 (Data Cleaning),在大语言模型(LLM)的开发流程中,属于预训练之前的准备工作。
青云交8 天前
java·flink·数据清洗·电子病历·智能医疗·医疗信息化·临床决策
Java 大视界 -- Java 大数据在智能医疗电子病历数据分析与临床决策支持中的应用嘿,亲爱的 Java 和 大数据爱好者们,大家好!我是CSDN(全区域)四榜榜首青云交!市第一医院的张医生最近总对着电脑叹气 —— 门诊时,调出一位糖尿病患者的电子病历要等 30 秒,里面混杂着 5 年前的感冒记录和重复的检查单;给新入院的老人开处方时,忘了他有青霉素过敏史,幸亏护士核对时发现,才没出大事。
黑客思维者8 天前
开发语言·python·数据清洗·数据标准化
Python数据清洗实战:去重/标准化数据清洗就像盖房子前的地基整理——若原始数据充满重复、格式混乱、量纲不一,后续建模分析只会是“空中楼阁”。Python的Pandas、Scikit-learn库提供了成熟的工具链,但多数教程只讲“怎么用”,却回避了“为什么这么用”“实际场景中会踩什么坑”。本文将从工程师视角,拆解四大核心操作的底层逻辑,结合真实业务案例,带你吃透数据清洗的“道”与“术”。
一晌小贪欢1 个月前
开发语言·python·数据分析·数据可视化·数据清洗
【Python数据分析】数据分析与可视化日期:2025-11-12 关键词:pandas、seaborn、plotly、数据分析、可视化数据分析 ≠ 写代码,它是一套「获取 → 清洗 → 探索 → 可视化 → 洞察」的流水线。 本文用一份「餐厅小费」公开数据集,带你 15 分钟跑通整条流水线,代码全部可复现。
不剪发的Tony老师1 个月前
数据清洗
OpenRefine:一款免费开源、功能强大的数据清洗工具OpenRefine 是一款免费开源、功能强大的数据清洗工具,可以让用户通过图形界面和简单的表达式语言轻松完成数据集清洗、转换、扩展以及探索,而不需要编写复杂的程序。
深蓝电商API1 个月前
爬虫·数据清洗
数据清洗标准化:构建可复用的爬虫数据清洗管道(Pipeline)在数据驱动的时代,爬虫作为数据采集的核心手段,已广泛应用于电商分析、舆情监测、学术研究等多个领域。但爬虫获取的原始数据往往存在格式混乱、字段缺失、重复冗余、噪声干扰等问题 —— 可能是 HTML 标签残留、日期格式不统一、数值单位不一致,也可能是无效字符、逻辑冲突数据。这些 “脏数据” 若直接用于分析或建模,会导致结论偏差、系统故障等风险。
Serendipity_Carl2 个月前
爬虫·python·pycharm·数据可视化·数据清洗
爬虫数据清洗可视化案例之全球灾害数据目标网站:全球灾害数据平台 温馨提示: 仅供学习交流使用确定网页的构造 静态数据 or 动态数据 右击查看网页源代码 Ctrl+F 再搜索框中输入要获取的信息
青云交2 个月前
java·数据采集·数据清洗·智慧交通·停车场智能管理·智能收费系统·车位预测
Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践亲爱的 Java 和 大数据爱好者们,大家好!在数字科技迅猛发展的时代浪潮中,Java 大数据技术凭借其卓越的性能、强大的生态体系以及高度的可扩展性,成为推动各行业数字化、智能化转型的核心引擎。
taller_20002 个月前
正则表达式·正则·数据清洗·提取数据·材料规格
VBA之正则表达式(45)-- 拆分材料和规格实例需求:材料编码保存在A列中,现需要将其拆分为名称和规格型号,分别保存再B列和C列。物料编码存在如下几种形式,对应不同的拆分规则如下:
nju_spy3 个月前
大数据·人工智能·机器学习·数据挖掘·数据清洗·南京大学·相似性分析
南京大学 - 复杂结构数据挖掘(一)目录1. 数据挖掘的目标&作用2. 应用案例3. 可被挖掘的数据类型4. 描述性数据挖掘 + 预测性数据挖掘
智数研析社3 个月前
大数据·人工智能·python·深度学习·数据分析·数据集·数据清洗
9120 部 TMDb 高分电影数据集 | 7 列全维度指标 (评分 / 热度 / 剧情)+API 权威源 | 电影趋势分析 / 推荐系统 / NLP 建模用在影视行业分析与数据科学实践中,高分电影数据的深度挖掘已成为平台优化内容推荐、制片方研判市场趋势、影迷发现优质作品的核心支撑 —— 通过上映年份与评分的关联可捕捉电影质量演变、依托热度与投票数能定位爆款潜质、结合剧情概述可开展情感与主题分析,直接影响影视内容的生产、分发与消费全链路。当前,头部流媒体平台已通过电影数据建模将用户推荐点击率提升 30% 以上,而影视分析师、数据科学家及影迷常面临 “数据碎片化(单维度信息分散)”“关键指标缺失(无热度评分、剧情文本)”“时间跨度短(难以覆盖百年电影史)” 等问
nju_spy4 个月前
人工智能·机器学习·数据分析·kaggle·数据清洗·南京大学·titanic
机器学习 - Kaggle项目实践(1)TitanicTitanic - Machine Learning from Disaster | Kaggle 题目
qq_214225876 个月前
kettle·数据清洗
基于kettle实现数据清洗及数据同步Kettle 是 Pentaho 公司开发的开源 ETL (Extract, Transform, Load) 工具,全称为 Pentaho Data Integration (PDI),主要用于数据的抽取、转换、加载和清洗。
lczdyx6 个月前
python·excel·pandas·数据清洗·数据处理·自动化办公·openpyxl
一键净化Excel数据:高性能Python脚本实现多核并行清理本文分享两个基于Python的Excel数据净化脚本,通过多进程并行技术清除工作表内不可见字符、批注、单元格样式等冗余内容,利用OpenPyXL实现底层操作,结合tqdm进度条和进程级任务分配,可快速处理百万级单元格数据。适用于数据分析预处理、跨系统数据迁移等场景。
lczdyx6 个月前
python·excel·pandas·数据清洗·数据处理
高效Excel数据净化工具:一键清除不可见字符与格式残留本文将分享一款基于Python的Excel数据净化工具,用于自动清除给定的Excel文档中指定工作表中的不可见字符、批注、单元格样式等冗余数据。脚本支持进度可视化展示,保留核心数据处理逻辑的同时确保文件格式规整,特别适用于需要规范数据格式的企业级应用场景。
Light607 个月前
大数据·spark·etl·数据清洗·数据转换
Spark在大数据ETL中的应用:数据清洗与转换实战本文系统阐述了Apache Spark在大数据ETL流程中核心环节——数据清洗与数据转换的应用实践。围绕ETL基本原理,详细探讨Spark内存计算和分布式处理优势,结合典型业务场景,讲解数据抽取、清洗、转换及加载的技术要点与优化技巧。通过实例代码、对比表与流程图,帮助读者构建高效、稳定的ETL解决方案,提升大数据处理质量与性能,适合大数据工程师及开发者深入学习参考。
过期的秋刀鱼!8 个月前
数据挖掘·数据分析·excel·数据清洗·分组排序·powerquery·电商货品分析
数据分析之技术干货业务价值 powerquery 分组排序后取TOP在电商中,我们要对货品进行分析,由于所有的销售数据都在一起,货品信息也在一起,两个表建立了关系之后,要看每个品类的TOP款有哪些,每个品类的TOP款是什么要怎么做呢?
Code_流苏8 个月前
python·数据分析·数据可视化·数据清洗·pandas库
Python星球日记 - 第20天:数据分析入门🌟引言: 欢迎来到Python星球🪐的第20天!今天我们将踏入数据分析的世界,学习如何使用pandas处理数据并提取有价值的信息。无论你是想分析商业销售数据、股票市场趋势还是科学实验结果,pandas都是你必不可少的工具! 上一篇:Python星球日记 - 第19天:Web开发基础
RestCloud9 个月前
数据仓库·etl·数据清洗·api接口·数据集成·集成工具
ETL:数据清洗、规范化和聚合的重要性在当今这个数据呈爆炸式增长的时代,数据已成为企业最为宝贵的资产之一。然而,数据的海量增长也伴随着诸多问题,如数据来源多样、结构复杂以及质量问题等,这些问题严重阻碍了数据的有效处理与深度分析。在此背景下,ETL(Extract,Transform,Load)应运而生,成为企业挖掘数据价值、做出精准决策的关键工具。本文将深入探讨ETL技术中的数据清洗、规范化和聚合功能的重要性,并结合谷云科技的ETLCloud平台进行详细阐述。