大数据导论 笔记

一、大数据方向

1、技术发展

计算机网络云计算大数据时代人工智能(本科:使用,研究生:推导,博士:创新)

2023年

大数据模型

人工智能元年

2、基础课程

hadoop

大数据基础

三大件:HDFS分布式存储、MapReduce并行计算框架、yarn分布式资源调度框架

hbase

Hadoop DataBase

分布式列式数据库

NoSQL

hive

数据仓库

兼容SQL标准

3、提高课程

Storm

流式计算

Spark

一栈式解决方案平台

批量数据处理

实时数据处理

支持语言:Java、Scala、Python、R、SQL

4、其它课程

NoSQL

Redis

MongoDB

消息队列

Kafka

数据采集

flume

爬虫

Java编程爬虫

Python编程爬虫

二、VMware软件安装与使用

1、VMware软件下载与安装

官网

https://www.vmware.com/products/workstation-pro.html

下载

VMware-workstation-full-17.0.0-20800274.exe

安装

查看安装是否成功

查看服务

win + R

设置兼容性

2、配置VM的网络

查看网关

查看DHCP

三、CentOS7安装与配置

1、下载镜像

下载地址

http://isoredirect.centos.org/centos/7/isos/x86_64/

东软

http://mirrors.neusoft.edu.cn/centos/7.9.2009/isos/x86_64/

阿里云

http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/

确定版本(最小化)

CentOS-7-x86_64-Minimal-2009.iso

2、安装CentOS7

新建虚拟机






自动启动

按一下回车键,自动进入安装模式

硬盘分区并格式化


设置管理员密码

添加用户hadoop/hadoop

睁着眼睛,看着安装完成,重启

登录系统

3、配置网络

VMware软件的网络模式

桥接模式:虚拟机就是一台物理主机,占用太多的资源

NAT模式:虚拟机与宿主环境沟通实现互相访问,其它计算无法访问

主机模式:独立,无法访问

配置网卡

使用vi进行编辑

vi操作

命令模式

按一下ESC键

再按shift + ;

输入命令并回车

复制代码
	:set nu显示行号
	:q!退出不保存
	:wq退出并保存
编辑模式
	按一下insert键,或,按一下A键插入模式
	再按一下insert键覆盖模式


修改如下

保存并退出

按一下ESC,再按一下shift + ;

输入:wq并回车

重启网络网络

检测网络

4、安装常用工具

手动安装



自动安装(省事)

5、配置时钟同步

时钟同步

参照某一个时间服务器同步设置

并行计算时,需要分布式服务器时间不能产生毫秒级别的误差,否则无法计算

安装NTP

设置时区

相关推荐
IT·小灰灰1 分钟前
AI算力租赁完全指南(一):选卡篇——从入门到精通的GPU选购
大数据·人工智能·数据分析·云计算·音视频·gpu算力
铭哥的编程日记5 分钟前
后端面试通关笔记:从真题到思路(me)
笔记·面试·职场和发展
XianjianAI5 分钟前
先见AI新功能深度介绍:以可信AI重构研报解读,数据驱动决策快人一步
大数据·人工智能·信息可视化·数据分析·需求分析
毕设源码-邱学长6 分钟前
【开题答辩全过程】以 基于大数据技术的医疗数据管理系统为例,包含答辩的问题和答案
大数据
qq_348231858 分钟前
市场快评 · 今日复盘要点20251219
大数据
秦奈11 分钟前
Unity复习学习笔记(七):NGUI
笔记·学习·unity
行业探路者12 分钟前
网站二维码的全解析与使用技巧分享
大数据·人工智能·学习·产品运营·软件工程
羊村懒哥12 分钟前
告别命令行查日志!CentOS 安装 ELK 实现可视化监控
linux·elk·centos
晨欣13 分钟前
[eBPF硬核] Gemini阿吉学习笔记:Tetragon企业版两类核心日志 & 冷热数据分流架构设计 & 学习资源推荐
笔记·学习·云原生·云安全·ebpf·谷歌gemini
txzz888814 分钟前
CentOS-Stream-10 YUM本地仓配置
linux·运维·centos·yum·yum本地仓配置