爬虫进阶-反爬破解9（下游业务如何使用爬取到的数据+数据和文件的存储方式）

一、下游业务如何使用爬取到的数据

1.百万级别数据：单机数据库，搭建和使用方便快捷，成本低

2.千万级别数据：负载均衡的多台数据库，安全和稳定

3.海量数据：大数据框架，分布式部署，承载量巨大

1.百万级别数据：Mysql、PostgreSQL、Mongo

2.千万级别数据：主从同步数据库，性能调优

3.大数据框架：Hbase、Elasticsearch、Hive

4.文件存储：OSS、COS、Kodo、fastDFS

1.数据库客户端界面筛选数据并导出

2.数据人员写代码查询数据并分析

3.大数据分析工具，例如Bi、Hadoop、spark

1.通常数据的存储位置，一般是已经准备指定了具体某个框架

2.爬虫开始工作前，分布式数据库的架设就要完成，并开发接口

3.数据分析人员，也需要学习编程，如Python,R,SQL

Hadoop:大数据框架，安全稳定，适合存储低频计算的大文件

Spark:基于内存的计算框架，实时计算数据

Hive:只支持SQL查询语法，处理结构化的数据

Hbase:nosql,非关系型数据库，类似mongodb

对象存储【云产品】：方便易用容量大，但是贵

FastDFS:开源的分布式文件系统，自行搭建

HDFS:Hadoop内置的分布式文件系统，适合存储大文件

1.框架选择：Hadoop+Hive

2.SQL查询语句，学习成本低

3.HDFS和MapReduce,对大数据有优势

1.框架选择：Hadoop+Spark

2.Hadoop稳定，提供大数据的基础

3.Spark是运行在内存上的计算，运行速度快

1.框架选择：Hadoop+Hbase

2.数据是按列存储的，查询时只访问所涉及的列，速度快

3.大幅降低系统I/O，数据类型一致，可以高效压缩存储

Hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大，采用了分块（切分）存储的方式；

FastDFS主要用于大中网站，为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持的比较好，不分割文件。

（1）大数据范围很广，通常是指Hadoop生态圈。

（2）Hadoop不是单一框架，而是有非常多组件的大数据完整方案。

（3）根据项目的需求，选择特定组件接入到Hadoop中