大数据导论 笔记

一、大数据方向

1、技术发展

计算机网络云计算大数据时代人工智能(本科:使用,研究生:推导,博士:创新)

2023年

大数据模型

人工智能元年

2、基础课程

hadoop

大数据基础

三大件:HDFS分布式存储、MapReduce并行计算框架、yarn分布式资源调度框架

hbase

Hadoop DataBase

分布式列式数据库

NoSQL

hive

数据仓库

兼容SQL标准

3、提高课程

Storm

流式计算

Spark

一栈式解决方案平台

批量数据处理

实时数据处理

支持语言:Java、Scala、Python、R、SQL

4、其它课程

NoSQL

Redis

MongoDB

消息队列

Kafka

数据采集

flume

爬虫

Java编程爬虫

Python编程爬虫

二、VMware软件安装与使用

1、VMware软件下载与安装

官网

https://www.vmware.com/products/workstation-pro.html

下载

VMware-workstation-full-17.0.0-20800274.exe

安装

查看安装是否成功

查看服务

win + R

设置兼容性

2、配置VM的网络

查看网关

查看DHCP

三、CentOS7安装与配置

1、下载镜像

下载地址

http://isoredirect.centos.org/centos/7/isos/x86_64/

东软

http://mirrors.neusoft.edu.cn/centos/7.9.2009/isos/x86_64/

阿里云

http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/

确定版本(最小化)

CentOS-7-x86_64-Minimal-2009.iso

2、安装CentOS7

新建虚拟机






自动启动

按一下回车键,自动进入安装模式

硬盘分区并格式化


设置管理员密码

添加用户hadoop/hadoop

睁着眼睛,看着安装完成,重启

登录系统

3、配置网络

VMware软件的网络模式

桥接模式:虚拟机就是一台物理主机,占用太多的资源

NAT模式:虚拟机与宿主环境沟通实现互相访问,其它计算无法访问

主机模式:独立,无法访问

配置网卡

使用vi进行编辑

vi操作

命令模式

按一下ESC键

再按shift + ;

输入命令并回车

复制代码
	:set nu显示行号
	:q!退出不保存
	:wq退出并保存
编辑模式
	按一下insert键,或,按一下A键插入模式
	再按一下insert键覆盖模式


修改如下

保存并退出

按一下ESC,再按一下shift + ;

输入:wq并回车

重启网络网络

检测网络

4、安装常用工具

手动安装



自动安装(省事)

5、配置时钟同步

时钟同步

参照某一个时间服务器同步设置

并行计算时,需要分布式服务器时间不能产生毫秒级别的误差,否则无法计算

安装NTP

设置时区

相关推荐
武子康20 小时前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP1 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库1 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
西岸行者1 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
AI周红伟1 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
欧云服务器1 天前
怎么让脚本命令可以同时在centos、debian、ubuntu执行?
ubuntu·centos·debian
starlaky1 天前
Django入门笔记
笔记·django
勇气要爆发1 天前
吴恩达《LangChain LLM 应用开发精读笔记》1-Introduction_介绍
笔记·langchain·吴恩达
B站计算机毕业设计超人1 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长1 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计