大数据导论 笔记

一、大数据方向

1、技术发展

计算机网络云计算大数据时代人工智能(本科:使用,研究生:推导,博士:创新)

2023年

大数据模型

人工智能元年

2、基础课程

hadoop

大数据基础

三大件:HDFS分布式存储、MapReduce并行计算框架、yarn分布式资源调度框架

hbase

Hadoop DataBase

分布式列式数据库

NoSQL

hive

数据仓库

兼容SQL标准

3、提高课程

Storm

流式计算

Spark

一栈式解决方案平台

批量数据处理

实时数据处理

支持语言:Java、Scala、Python、R、SQL

4、其它课程

NoSQL

Redis

MongoDB

消息队列

Kafka

数据采集

flume

爬虫

Java编程爬虫

Python编程爬虫

二、VMware软件安装与使用

1、VMware软件下载与安装

官网

https://www.vmware.com/products/workstation-pro.html

下载

VMware-workstation-full-17.0.0-20800274.exe

安装

查看安装是否成功

查看服务

win + R

设置兼容性

2、配置VM的网络

查看网关

查看DHCP

三、CentOS7安装与配置

1、下载镜像

下载地址

http://isoredirect.centos.org/centos/7/isos/x86_64/

东软

http://mirrors.neusoft.edu.cn/centos/7.9.2009/isos/x86_64/

阿里云

http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/

确定版本(最小化)

CentOS-7-x86_64-Minimal-2009.iso

2、安装CentOS7

新建虚拟机






自动启动

按一下回车键,自动进入安装模式

硬盘分区并格式化


设置管理员密码

添加用户hadoop/hadoop

睁着眼睛,看着安装完成,重启

登录系统

3、配置网络

VMware软件的网络模式

桥接模式:虚拟机就是一台物理主机,占用太多的资源

NAT模式:虚拟机与宿主环境沟通实现互相访问,其它计算无法访问

主机模式:独立,无法访问

配置网卡

使用vi进行编辑

vi操作

命令模式

按一下ESC键

再按shift + ;

输入命令并回车

复制代码
	:set nu显示行号
	:q!退出不保存
	:wq退出并保存
编辑模式
	按一下insert键,或,按一下A键插入模式
	再按一下insert键覆盖模式


修改如下

保存并退出

按一下ESC,再按一下shift + ;

输入:wq并回车

重启网络网络

检测网络

4、安装常用工具

手动安装



自动安装(省事)

5、配置时钟同步

时钟同步

参照某一个时间服务器同步设置

并行计算时,需要分布式服务器时间不能产生毫秒级别的误差,否则无法计算

安装NTP

设置时区

相关推荐
zsq10 小时前
【论文阅读笔记】HaDes幻觉检测benchmark
论文阅读·笔记·nlp·大语言模型幻觉
nenchoumi311912 小时前
Swift 6 学习笔记(二)The Basics
笔记·学习·swift
仟濹13 小时前
「pandas 与 numpy」数据分析与处理全流程【数据分析全栈攻略:爬虫+处理+可视化+报告】
大数据·python·数据分析·numpy·pandas
琼方13 小时前
“十五五”时期智慧城市赋能全国一体化数据市场建设:战略路径与政策建议[ 注:本建议基于公开政策文件与行业实践研究,数据引用截至2025年6月11日。]
大数据·人工智能·智慧城市
云云32114 小时前
亚矩阵云手机针对AdMob广告平台怎么进行多账号的广告风控
大数据·网络·线性代数·游戏·智能手机·矩阵
村头的猫14 小时前
建站SEO优化之站点地图sitemap
前端·经验分享·笔记
蜉蝣之翼❉14 小时前
games101 hw1
笔记·图形渲染
Sui_Network14 小时前
WAYE.ai 为Sui 上 AI 的下一个时代赋能
大数据·前端·人工智能·物联网·游戏
BAOYUCompany14 小时前
暴雨亮相2025中关村论坛数字金融与金融安全大会
大数据·人工智能
火龙谷15 小时前
【hadoop】疫情离线分析案例
大数据·hadoop·分布式