一、下游业务如何使用爬取到的数据
(一)常用数据存储方案
1.百万级别数据:单机数据库,搭建和使用方便快捷,成本低
2.千万级别数据:负载均衡的多台数据库,安全和稳定
3.海量数据:大数据框架,分布式部署,承载量巨大
(二)数据库及框架
1.百万级别数据:Mysql、PostgreSQL、Mongo
2.千万级别数据:主从同步数据库,性能调优
3.大数据框架:Hbase、Elasticsearch、Hive
4.文件存储:OSS、COS、Kodo、fastDFS
(三)下游业务提取数据方式
1.数据库客户端界面筛选数据并导出
2.数据人员写代码查询数据并分析
3.大数据分析工具,例如Bi、Hadoop、spark
(四)总结
1.通常数据的存储位置,一般是已经准备指定了具体某个框架
2.爬虫开始工作前,分布式数据库的架设就要完成,并开发接口
3.数据分析人员,也需要学习编程,如Python,R,SQL
二、数据和文件存储方案:Hadoop/Hbase/Hive/Spark/OSS/FastDFS
(一)认识大数据框架
Hadoop:大数据框架,安全稳定,适合存储低频计算的大文件
Spark:基于内存的计算框架,实时计算数据
Hive:只支持SQL查询语法,处理结构化的数据
Hbase:nosql,非关系型数据库,类似mongodb
(二)认识分布式文件系统
对象存储【云产品】:方便易用容量大,但是贵
FastDFS:开源的分布式文件系统,自行搭建
HDFS:Hadoop内置的分布式文件系统,适合存储大文件
(三)低频大数据存储类型
1.框架选择:Hadoop+Hive
2.SQL查询语句,学习成本低
3.HDFS和MapReduce,对大数据有优势
(四)实时大数据计算类型
1.框架选择:Hadoop+Spark
2.Hadoop稳定,提供大数据的基础
3.Spark是运行在内存上的计算,运行速度快
(五)结构化大数据存储类型
1.框架选择:Hadoop+Hbase
2.数据是按列存储的,查询时只访问所涉及的列,速度快
3.大幅降低系统I/O,数据类型一致,可以高效压缩存储
(六)大数据文件系统和分布式文件系统
Hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用了分块(切分)存储的方式;
FastDFS主要用于大中网站,为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持的比较好,不分割文件。
(七)总结
(1)大数据范围很广,通常是指Hadoop生态圈。
(2)Hadoop不是单一框架,而是有非常多组件的大数据完整方案。
(3)根据项目的需求,选择特定组件接入到Hadoop中