【数据科学导论】第五章·数据可视化与文本分析

🌈个人主页:十二月的猫-CSDN博客

🔥 系列专栏: 🏀数据处理与分析_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

目录

[1. 前言](#1. 前言)

[2. 数据可视化](#2. 数据可视化)

[3. 文本分析](#3. 文本分析)

[3.1 总纲](#3.1 总纲)

[3.2 数据获取【网页抓取】](#3.2 数据获取【网页抓取】)

[3.3 数据处理【中文分词】](#3.3 数据处理【中文分词】)

[4. 总结](#4. 总结)


1. 前言

【数据处理与分析】专栏主要专注于数据处理和数据分析。

专栏中的**【数据科学导论】部分是对整个大数据科学所有技术(包括数据处理、数据分析)的一个概论**,适用于想要快速入门大数据的友友们🥰🥰~~~

【数据科学导论】整体学习脉络:

  1. 数据科学导论------研究数据科学
  2. 数据科学------研究大数据处理
  3. 大数据处理过程------采集、表示与存储、预处理、建模分析、可视化决策
  4. 大数据处理过程指导数据科学导论内容

前面,我们学习了一下部分:

数据清洗(噪声、填充、删除)

  1. 数据集成(冗余:无序数据冗余+有序数据冗余。无序数据冗余:皮尔逊相关系数、卡方检验;明氏距离、汉明距离;简单匹配相似度、jaccard相似度、余弦相似度。有序数据冗余:斯皮尔曼系数、NDCG。)
  2. 数据规约(PCA、特征子集选取)
  3. 数据变换(量纲处理:Z变换、最大最小值变、小数变换;离散处理:聚类、分箱、熵变换)

特征提取

  1. 设计特征:TF、IDF;
  2. 选取特征:全局最优搜索、随机搜索、启发式搜索;
  3. 特征评价:过滤式、封装式、嵌入式

数据探索性分析

  1. **数据分布:**极差、方差、变异系数、异众比率等等
  2. **参数估计:**矩估计、最小二乘估计(LSE)、极大似然估计(MLE)、最大后验概率估计(MAP)
  3. 假设检验
  4. **抽样方法:**简单随机抽样、系统抽样、分层抽样、整群抽样

接下来,我们直接来加入可视化和文本分析部分。可视化就是数据可视化,文本分析就是文本进行处理🥥。由于本系列是入门课程,因此仅仅是对各部分有一个简单的介绍。

2. 数据可视化

数据可视化的作用:

  • 协助思考
  • 帮助记忆
  • 增强认知能力
  • 使用感知代替认知

数据可视化的方法和技术:

  • 图可视化
    • 节点链接图:直观简单但是对密集图不适用。
    • 相邻矩阵:可视化效果不直观但是适合复杂密集图的展示。
  • 统计图表可视化
  • 地理数据可视化
    • 点数据可视化:简单直观,符合逻辑直觉;但是不适用于密集图展示。
    • 线数据可视化:简单直观,但是不适用于密集图展示。
    • 区域数据可视化
  • 文本可视化
    • 文本可视化将文本中蕴含的语义特征(词频、逻辑结构、主题聚类、动态演化规律等)直观 的展示出来
  • 时空数据可视化
    • 一维二维三维标量场数据可视化

数据可视化工具:

  • Echarts
  • R语言
  • Processing
  • Google Refine

3. 文本分析

3.1 总纲

3.2 数据获取【网页抓取】

提升性能:异步抓取,DNS预解析

链接调度:累积式抓取,增量式抓取【搜索引擎的日常抓取】

重复检测:I-Match算法

爬虫:robots.txt(友好访问|存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的 漫游器内容是否能被获取)

恶意爬虫危害:

  • 增加网站带宽负担
  • 核心文本被爬取
  • 注册用户被扫描(一个个验证手机号看是否注册)
  • 点击欺诈(不知道真实的访问量)

3.3 数据处理【中文分词】

中文基于单字,中文书面表达方式以汉字作为最小单位的,但词与词之间没有显性的界限标志

词法分析包含:

  • 分词
  • 词性标注(名词,动词,形容词等)
  • 命名实体识别
  • 词义消歧

**分词的意义:**正确的机器自动分词是正确的中文信息处理的基础

分词主要难题:

  • 如何识别未登录词
  • 如何利用语言学知识
  • 词语边界歧义处理【分词歧义】
  • 实时性应用中的效率问题

4. 总结

本文到这里就结束啦~~

目前已完成:大数据入门、数据表示与存储、数据预处理、建模分析

期待您的关注~~🥰🥰

猫猫陪你永远在路上💪💪

如果觉得对你有帮助,辛苦友友点个赞哦~

相关推荐
四谎真好看8 天前
SSM学习笔记(SpringBoot篇)
spring boot·笔记·学习·学习笔记·ssm
~黄夫人~10 天前
Linux 权限管理:用户组 + 特殊权限 + ACL 解析
linux·运维·计算机·学习笔记·权限管理
四谎真好看11 天前
SSM学习笔记(SpringMVC篇 Day02)
笔记·学习·学习笔记·ssm
四谎真好看13 天前
SSM学习笔记(SpringMVC篇 Day01)
笔记·学习·学习笔记·ssm
heartbeat..17 天前
Java 微服务初学者入门指南(CSDN 博客版)
java·运维·微服务·学习笔记·入门
四谎真好看17 天前
SSM学习笔记(Spring篇Day03)
笔记·学习·学习笔记·ssm
四谎真好看19 天前
SSM学习笔记(Spring篇 Day02)
笔记·学习·学习笔记·ssm
四谎真好看20 天前
SSM学习笔记(Spring篇 Day01)
笔记·学习·学习笔记·ssm
四谎真好看22 天前
JavaWeb学习笔记(Day14)
笔记·学习·学习笔记·javaweb
四谎真好看25 天前
JavaWeb学习笔记(Day13)
笔记·学习·学习笔记·javaweb