爬虫进阶-反爬破解9(下游业务如何使用爬取到的数据+数据和文件的存储方式)

一、下游业务如何使用爬取到的数据

(一)常用数据存储方案

1.百万级别数据:单机数据库,搭建和使用方便快捷,成本低

2.千万级别数据:负载均衡的多台数据库,安全和稳定

3.海量数据:大数据框架,分布式部署,承载量巨大

(二)数据库及框架

1.百万级别数据:Mysql、PostgreSQL、Mongo

2.千万级别数据:主从同步数据库,性能调优

3.大数据框架:Hbase、Elasticsearch、Hive

4.文件存储:OSS、COS、Kodo、fastDFS

(三)下游业务提取数据方式

1.数据库客户端界面筛选数据并导出

2.数据人员写代码查询数据并分析

3.大数据分析工具,例如Bi、Hadoop、spark

(四)总结

1.通常数据的存储位置,一般是已经准备指定了具体某个框架

2.爬虫开始工作前,分布式数据库的架设就要完成,并开发接口

3.数据分析人员,也需要学习编程,如Python,R,SQL

二、数据和文件存储方案:Hadoop/Hbase/Hive/Spark/OSS/FastDFS

(一)认识大数据框架

Hadoop:大数据框架,安全稳定,适合存储低频计算的大文件

Spark:基于内存的计算框架,实时计算数据

Hive:只支持SQL查询语法,处理结构化的数据

Hbase:nosql,非关系型数据库,类似mongodb

(二)认识分布式文件系统

对象存储【云产品】:方便易用容量大,但是贵

FastDFS:开源的分布式文件系统,自行搭建

HDFS:Hadoop内置的分布式文件系统,适合存储大文件

(三)低频大数据存储类型

1.框架选择:Hadoop+Hive

2.SQL查询语句,学习成本低

3.HDFS和MapReduce,对大数据有优势

(四)实时大数据计算类型

1.框架选择:Hadoop+Spark

2.Hadoop稳定,提供大数据的基础

3.Spark是运行在内存上的计算,运行速度快

(五)结构化大数据存储类型

1.框架选择:Hadoop+Hbase

2.数据是按列存储的,查询时只访问所涉及的列,速度快

3.大幅降低系统I/O,数据类型一致,可以高效压缩存储

(六)大数据文件系统和分布式文件系统

Hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用了分块(切分)存储的方式;

FastDFS主要用于大中网站,为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持的比较好,不分割文件。

(七)总结

(1)大数据范围很广,通常是指Hadoop生态圈。

(2)Hadoop不是单一框架,而是有非常多组件的大数据完整方案。

(3)根据项目的需求,选择特定组件接入到Hadoop中

相关推荐
用户199701080188 小时前
深入研究:Shopee商品详情API接口详解
大数据·爬虫·数据挖掘
攻城狮7号10 小时前
Python爬虫第18节-动态渲染页面抓取之Splash使用上篇
开发语言·人工智能·爬虫·python·python爬虫
像风一样自由202010 小时前
从零开始构建微博爬虫与数据分析系统
爬虫·python
memorycx15 小时前
爬虫(requests库,logging库)
爬虫
yuanlaile1 天前
AI写代码之GO+Python写个爬虫系统
爬虫·python·go·ai编程
愚公搬代码1 天前
【愚公系列】《Python网络爬虫从入门到精通》057-分布式爬取中文日报新闻数据
分布式·爬虫·python
亿牛云爬虫专家1 天前
GraphQL接口采集:自动化发现和提取隐藏数据字段
爬虫·爬虫代理·graphql·代理ip·yelp·采集·数字字段
愚公搬代码1 天前
【愚公系列】《Python网络爬虫从入门到精通》063-项目实战电商数据侦探(主窗体的数据展示)
开发语言·爬虫·python
攻城狮7号1 天前
Python爬虫第16节-动态渲染页面抓取之Selenium使用上篇
爬虫·python·python爬虫
wisdom_zhe1 天前
DeepSeek和Excel结合生成动态图表
爬虫·信息可视化·excel