大数据导论 笔记

一、大数据方向

1、技术发展

计算机网络云计算大数据时代人工智能(本科:使用,研究生:推导,博士:创新)

2023年

大数据模型

人工智能元年

2、基础课程

hadoop

大数据基础

三大件:HDFS分布式存储、MapReduce并行计算框架、yarn分布式资源调度框架

hbase

Hadoop DataBase

分布式列式数据库

NoSQL

hive

数据仓库

兼容SQL标准

3、提高课程

Storm

流式计算

Spark

一栈式解决方案平台

批量数据处理

实时数据处理

支持语言:Java、Scala、Python、R、SQL

4、其它课程

NoSQL

Redis

MongoDB

消息队列

Kafka

数据采集

flume

爬虫

Java编程爬虫

Python编程爬虫

二、VMware软件安装与使用

1、VMware软件下载与安装

官网

https://www.vmware.com/products/workstation-pro.html

下载

VMware-workstation-full-17.0.0-20800274.exe

安装

查看安装是否成功

查看服务

win + R

设置兼容性

2、配置VM的网络

查看网关

查看DHCP

三、CentOS7安装与配置

1、下载镜像

下载地址

http://isoredirect.centos.org/centos/7/isos/x86_64/

东软

http://mirrors.neusoft.edu.cn/centos/7.9.2009/isos/x86_64/

阿里云

http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/

确定版本(最小化)

CentOS-7-x86_64-Minimal-2009.iso

2、安装CentOS7

新建虚拟机






自动启动

按一下回车键,自动进入安装模式

硬盘分区并格式化


设置管理员密码

添加用户hadoop/hadoop

睁着眼睛,看着安装完成,重启

登录系统

3、配置网络

VMware软件的网络模式

桥接模式:虚拟机就是一台物理主机,占用太多的资源

NAT模式:虚拟机与宿主环境沟通实现互相访问,其它计算无法访问

主机模式:独立,无法访问

配置网卡

使用vi进行编辑

vi操作

命令模式

按一下ESC键

再按shift + ;

输入命令并回车

复制代码
	:set nu显示行号
	:q!退出不保存
	:wq退出并保存
编辑模式
	按一下insert键,或,按一下A键插入模式
	再按一下insert键覆盖模式


修改如下

保存并退出

按一下ESC,再按一下shift + ;

输入:wq并回车

重启网络网络

检测网络

4、安装常用工具

手动安装



自动安装(省事)

5、配置时钟同步

时钟同步

参照某一个时间服务器同步设置

并行计算时,需要分布式服务器时间不能产生毫秒级别的误差,否则无法计算

安装NTP

设置时区

相关推荐
BigData共享3 分钟前
极致性能背后的黑科技?这个世上没有“银弹”!(三)
大数据
阿里云大数据AI技术3 分钟前
Flink Forward Asia 2025 主旨演讲精彩回顾
大数据·人工智能·flink
y_y_liang16 分钟前
图生生AI商品换背景,高效商拍!
大数据·人工智能·ai·ai作画
二当家的素材网27 分钟前
Centos和麒麟系统如何每天晚上2点10分定时备份达梦数据库
linux·数据库·centos
挑战者66688827 分钟前
CentOS 系统高效部署 Dify 全攻略
linux·运维·centos
王小王-12333 分钟前
基于Hadoop的用户购物行为可视化分析系统设计与实现
大数据·hadoop·分布式·用户购物行为·电商日志分析
沐尘而生39 分钟前
【AI智能体】智能音视频-硬件设备基于 WebSocket 实现语音交互
大数据·人工智能·websocket·机器学习·ai作画·音视频·娱乐
巴伦是只猫43 分钟前
【机器学习笔记Ⅰ】3 代价函数
人工智能·笔记·机器学习
ZZZS05161 小时前
stack栈练习
c++·笔记·学习·算法·动态规划
贝格前端工场1 小时前
小程序订阅消息设计:用户触达与隐私保护的平衡法则
大数据·小程序