数据清洗

2401_841495646 小时前
人工智能·python·机器学习·数据清洗·矩阵分解·特征可视化·模型训练评估
【机器学习】电商销售额预测实战目录一、引言二、整体架构总览三、分模块详细功能说明模块 1:环境配置与可视化基础设置模块 2:数据加载与预处理(核心数据准备)
南麟剑首7 天前
ai·llm·数据集·数据清洗·大模型开发·模型训练
LLM模型开发教程(六)模型训练的数据集获取与清洗总纲数据的“科学划分”:训练、验证与测试请理解这句话!!!! 预训练之所以叫做“自监督学习”,是因为数据本身就是标签,通过掩码机制既确保了预测方向,也是一种遮住答案的策略,即数据本身答案已知,但用掩码遮住了,通过预测的token与掩码下的token做对比观察损失,以此为依据来优化模型参数
Pyeako12 天前
人工智能·python·随机森林·机器学习·pycharm·线性回归·数据清洗
机器学习--矿物数据清洗(六种填充方法)指发现并纠正文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值,以确保数据的准确性和可靠性
taller_20001 个月前
数据清洗·筛选·多条件筛选·提取数据·快速筛选
VBA调用Excel多条件筛选快速提取数据实例需求:工作簿中共有两个工作表:工作表明细用于保存原始数据表,如下图所示工作表查询A1单元格输入年份,点击查询按钮,在A2开始的单元格展示查询结果,如下图所示
Serendipity_Carl1 个月前
python·数据可视化·数据清洗
数据可视化实战之链家需求: 将之前爬取链家房源清理过的数据 做可视化分析 下面是之前写的博客爬虫数据清洗可视化链家房源_数据清洗学习网站-CSDN博客
阿杰学AI2 个月前
人工智能·ai·语言模型·aigc·数据清洗·模型训练·data cleaning
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)数据清洗 (Data Cleaning),在大语言模型(LLM)的开发流程中,属于预训练之前的准备工作。
青云交2 个月前
java·flink·数据清洗·电子病历·智能医疗·医疗信息化·临床决策
Java 大视界 -- Java 大数据在智能医疗电子病历数据分析与临床决策支持中的应用嘿,亲爱的 Java 和 大数据爱好者们,大家好!我是CSDN(全区域)四榜榜首青云交!市第一医院的张医生最近总对着电脑叹气 —— 门诊时,调出一位糖尿病患者的电子病历要等 30 秒,里面混杂着 5 年前的感冒记录和重复的检查单;给新入院的老人开处方时,忘了他有青霉素过敏史,幸亏护士核对时发现,才没出大事。
黑客思维者2 个月前
开发语言·python·数据清洗·数据标准化
Python数据清洗实战:去重/标准化数据清洗就像盖房子前的地基整理——若原始数据充满重复、格式混乱、量纲不一,后续建模分析只会是“空中楼阁”。Python的Pandas、Scikit-learn库提供了成熟的工具链,但多数教程只讲“怎么用”,却回避了“为什么这么用”“实际场景中会踩什么坑”。本文将从工程师视角,拆解四大核心操作的底层逻辑,结合真实业务案例,带你吃透数据清洗的“道”与“术”。
一晌小贪欢2 个月前
开发语言·python·数据分析·数据可视化·数据清洗
【Python数据分析】数据分析与可视化日期:2025-11-12 关键词:pandas、seaborn、plotly、数据分析、可视化数据分析 ≠ 写代码,它是一套「获取 → 清洗 → 探索 → 可视化 → 洞察」的流水线。 本文用一份「餐厅小费」公开数据集,带你 15 分钟跑通整条流水线,代码全部可复现。
不剪发的Tony老师3 个月前
数据清洗
OpenRefine:一款免费开源、功能强大的数据清洗工具OpenRefine 是一款免费开源、功能强大的数据清洗工具,可以让用户通过图形界面和简单的表达式语言轻松完成数据集清洗、转换、扩展以及探索,而不需要编写复杂的程序。
深蓝电商API3 个月前
爬虫·数据清洗
数据清洗标准化:构建可复用的爬虫数据清洗管道(Pipeline)在数据驱动的时代,爬虫作为数据采集的核心手段,已广泛应用于电商分析、舆情监测、学术研究等多个领域。但爬虫获取的原始数据往往存在格式混乱、字段缺失、重复冗余、噪声干扰等问题 —— 可能是 HTML 标签残留、日期格式不统一、数值单位不一致,也可能是无效字符、逻辑冲突数据。这些 “脏数据” 若直接用于分析或建模,会导致结论偏差、系统故障等风险。
Serendipity_Carl3 个月前
爬虫·python·pycharm·数据可视化·数据清洗
爬虫数据清洗可视化案例之全球灾害数据目标网站:全球灾害数据平台 温馨提示: 仅供学习交流使用确定网页的构造 静态数据 or 动态数据 右击查看网页源代码 Ctrl+F 再搜索框中输入要获取的信息
青云交3 个月前
java·数据采集·数据清洗·智慧交通·停车场智能管理·智能收费系统·车位预测
Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践亲爱的 Java 和 大数据爱好者们,大家好!在数字科技迅猛发展的时代浪潮中,Java 大数据技术凭借其卓越的性能、强大的生态体系以及高度的可扩展性,成为推动各行业数字化、智能化转型的核心引擎。
taller_20004 个月前
正则表达式·正则·数据清洗·提取数据·材料规格
VBA之正则表达式(45)-- 拆分材料和规格实例需求:材料编码保存在A列中,现需要将其拆分为名称和规格型号,分别保存再B列和C列。物料编码存在如下几种形式,对应不同的拆分规则如下:
nju_spy4 个月前
大数据·人工智能·机器学习·数据挖掘·数据清洗·南京大学·相似性分析
南京大学 - 复杂结构数据挖掘(一)目录1. 数据挖掘的目标&作用2. 应用案例3. 可被挖掘的数据类型4. 描述性数据挖掘 + 预测性数据挖掘
智数研析社4 个月前
大数据·人工智能·python·深度学习·数据分析·数据集·数据清洗
9120 部 TMDb 高分电影数据集 | 7 列全维度指标 (评分 / 热度 / 剧情)+API 权威源 | 电影趋势分析 / 推荐系统 / NLP 建模用在影视行业分析与数据科学实践中,高分电影数据的深度挖掘已成为平台优化内容推荐、制片方研判市场趋势、影迷发现优质作品的核心支撑 —— 通过上映年份与评分的关联可捕捉电影质量演变、依托热度与投票数能定位爆款潜质、结合剧情概述可开展情感与主题分析,直接影响影视内容的生产、分发与消费全链路。当前,头部流媒体平台已通过电影数据建模将用户推荐点击率提升 30% 以上,而影视分析师、数据科学家及影迷常面临 “数据碎片化(单维度信息分散)”“关键指标缺失(无热度评分、剧情文本)”“时间跨度短(难以覆盖百年电影史)” 等问
nju_spy6 个月前
人工智能·机器学习·数据分析·kaggle·数据清洗·南京大学·titanic
机器学习 - Kaggle项目实践(1)TitanicTitanic - Machine Learning from Disaster | Kaggle 题目
qq_214225877 个月前
kettle·数据清洗
基于kettle实现数据清洗及数据同步Kettle 是 Pentaho 公司开发的开源 ETL (Extract, Transform, Load) 工具,全称为 Pentaho Data Integration (PDI),主要用于数据的抽取、转换、加载和清洗。
lczdyx8 个月前
python·excel·pandas·数据清洗·数据处理·自动化办公·openpyxl
一键净化Excel数据:高性能Python脚本实现多核并行清理本文分享两个基于Python的Excel数据净化脚本,通过多进程并行技术清除工作表内不可见字符、批注、单元格样式等冗余内容,利用OpenPyXL实现底层操作,结合tqdm进度条和进程级任务分配,可快速处理百万级单元格数据。适用于数据分析预处理、跨系统数据迁移等场景。