大数据技术开发

我非夏日4 个月前
大数据·hadoop·分布式·架构·大数据技术开发
阶段三:项目开发---大数据开发运行环境搭建:任务3:安装配置Hadoop集群知识点:安装配置Hadoop重 点: 安装配置Hadoop难 点:无内 容:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些
我非夏日4 个月前
大数据·分布式·kafka·环境搭建·大数据技术开发
阶段三:项目开发---大数据开发运行环境搭建:任务5:安装配置Kafka知识点:安装配置Kafka重 点: 安装配置Kafka难 点:无内 容:Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kaf
我非夏日4 个月前
大数据·分布式·zookeeper·架构·数据分析·大数据技术开发
阶段三:项目开发---大数据开发运行环境搭建:任务2:安装配置ZooKeeper知识点:安装配置ZooKeeper重 点: 安装配置ZooKeeper难 点:无内 容:ZooKeeper是一个开源分布式协调服务,其独特的Leader-Follower集群结构,很好的解决了分布式单点问题。目前主要用于诸如:统一命名服务、配置管理、锁服务、集群管理等场景。大数据应用中主要使用ZooKeeper的集群管理功能。
我非夏日4 个月前
大数据·hadoop·分布式·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析④项目实现:任务18: 数据展示接下来我们需要将根据业务需求将某人按照不同维度查询出来的结果,展示到Web页面上。数据展示模块流程图:
我非夏日4 个月前
大数据·hadoop·flume·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建Flume大数据开发环境---任务14:Flume安装部署任务内容为安装和配置Flume,并测试收集流式数据。Flume常被用作实时收集数据的工具,可以将收集的数据存储到HDFS或者像Kafka这样的消息队列中
我非夏日4 个月前
大数据·hadoop·数据挖掘·数据分析·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析④项目实现:任务17:数据分析到目前为止,我们已经将数据采集到了HBase集群中,接下来需要对采集到的数据进行分析,统计出想要的结果。分析过程使用MapReduce的方式,注意,一个业务指标不一定对应一个mapreduce-job,根据业务需要,会采取一个MapReduce分析多个业务指标的方式来完成任务。
我非夏日4 个月前
大数据·hadoop·kafka·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建Kafka大数据运算环境---任务11:基础环境准备任务主要是安装配置基础环境,主要内容包括:1、安装javaKafka和ZooKeeper都需要安装Java环境,推荐至少Java8及以上版本
我非夏日4 个月前
大数据·kafka·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建Kafka大数据运算环境---任务12:安装Kafka任务内容为安装和配置Kafka集群。Kafka是大数据生态圈中常用的消息队列框架具体安装步骤如下:1. 解压缩Kafka的压缩包
我非夏日4 个月前
大数据·hadoop·分布式·zookeeper·大数据技术开发·大数据项目·电信客服数据的处理与分析
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务5:ZooKeeper集群安装ZooKeeper是一个开源分布式协调服务,其独特的Leader-Follower集群结构,很好的解决了分布式单点问题。目前主要用于诸如:统一命名服务、配置管理、锁服务、集群管理等场景。大数据应用中主要使用ZooKeeper的集群管理功能。在这里使用ZooKeeper配合实现HBase元数据管理。
我非夏日4 个月前
java·大数据·hadoop·分布式·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务4:安装并配置JDKHadoop 2.8需要JDK 1.6及以上版本的JDK,建议安装JDK 1.8,如果Cent OS是最小化安装,可能没有Open JDK,即使已经安装过Open JDK也可以使用JDK 1.8替换系统自带的Open JDK。
我非夏日4 个月前
大数据·hadoop·分布式·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析④项目实现:任务15:数据生产电信数据生产是一个完整且严密的体系,这样可以保证数据的鲁棒性。在本项目的数据生产模块中,我们来模拟生产一些电信数据。同时,我们必须清楚电信数据的格式和数据结构,这样才能在后续的数据产生、存储、分析和展示环节中正确使用数据,避免可能出现的问题。
我非夏日4 个月前
大数据·hadoop·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析④项目实现:任务16:数据采集/消费/存储“数据生产”的程序启动后,会持续向callLog.csv文件中写入模拟的通话记录。接下来,我们需要将这些实时的数据通过Flume采集到Kafka集群中,然后提供给HBase消费。 Flume:是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。适合下游数据消费者不多的情况,适合数据安全性要求不高的操作,适合与Hadoop生态圈对接的操
我非夏日4 个月前
大数据·hive·hadoop·分布式·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务10:Hive安装部署任务内容为安装并配置在Hadoop集群中使用Hive。Hive是一个基于Hadoop的数据仓库框架,在实际使用时需要将元数据存储在数据库中
我非夏日4 个月前
大数据·hadoop·分布式·hbase·大数据技术开发
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务9:HBase的安装和部署任务内容为HBase的安装部署与测试。HBase集群需要整个集群所有节点安装的HBase版本保持一致,并且拥有相同的配置
我非夏日4 个月前
大数据·大数据技术开发·大数据项目·电信客服数据的处理与分析
基于Hadoop平台的电信客服数据的处理与分析①项目准备阶段---项目需求描述任务描述从用户的角度阐述项目的开发背景、使用范围及功能需求,从而指导学生独立完成项目的设计与开发。任务指导