梧桐·鸿鹄- 大数据assistant-level

🧠 模块一:大数据科学导论(6%,3题)

  1. 大数据基本概念
    定义:具有 Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)、Value(价值密度低) 特征的数据集合。
    与传统数据区别:规模更大、结构更复杂(文本、图像、日志等)、处理方式不同(分布式 vs 单机)。
  2. 大数据发展历程
    起源:Google 三篇论文(GFS, MapReduce, BigTable)→ Apache Hadoop 开源实现
    发展阶段:
    批处理时代(Hadoop)
    流处理兴起(Storm, Spark Streaming)
    实时+批统一(Flink)
    云原生与 AI 融合(当前趋势)
  3. 应用场景
    运营商:用户画像、网络优化、反欺诈
    电商:推荐系统、库存预测
    金融:风控、信用评分
    政府:智慧城市、交通调度
  4. 数据挖掘概念
    定义:从大量数据中发现隐藏模式、关联规则或趋势的过程。
    常用任务:
    分类(如垃圾邮件识别)
    聚类(如客户分群)
    关联规则(如购物篮分析)
    回归(如房价预测)
    CRISP-DM流程:业务理解 → 数据理解 → 数据准备 → 建模 → 评估 → 部署

💻 模块二:Python 编程基础(24%,12题)← 重中之重!

  1. 开发环境搭建
    安装 Python(推荐 3.8+)
    IDE:PyCharm / VS Code / Jupyter Notebook
    包管理:pip install pandas numpy scikit-learn
  2. 基础语法
    变量与数据类型:int, float, str, bool, list, tuple, dict, set
    运算符:+ - * / % // **, == != > <, and or not
    控制结构:
python 复制代码
if condition:
    ...
elif ...:
    ...
else:
    ...

for item in list:
    ...

while condition:
    ...
复制代码
  1. 函数
python 复制代码
def func_name(param1, param2=默认值):
    return result
  1. 异常处理
python 复制代码
try:
    risky_code()
except ValueError as e:
    print(e)
finally:
    cleanup()
  1. 文件操作
python 复制代码
with open('file.txt', 'r') as f:
    content = f.read()
  1. 模块与包
    导入:import math, from pandas import DataFrame
    ✅ 零基础重点练习:列表推导式、字典操作、函数定义、读写文件。

🛠️ 模块三:Python 数据处理工具(10%,5题)

  1. NumPy
    核心:ndarray(多维数组)
    常用操作:
python 复制代码
import numpy as np
arr = np.array([1,2,3])
arr.shape, arr.dtype
np.mean(arr), np.std(arr)
arr.reshape(3,1)
  1. Pandas(极其重要!)
    核心数据结构:
    Series:一维带标签数组
    DataFrame:二维表格(类似 Excel)
    常用操作:
python 复制代码
df = pd.read_csv('data.csv')
df.head(), df.info(), df.describe()
df['new_col'] = df['col1'] + df['col2']
df.groupby('category').mean()
df.dropna(), df.fillna(0)
df.merge(other_df, on='id')
  1. 爬虫基础
    原理:HTTP 请求 → 解析 HTML → 提取数据
    工具:
    requests:发送请求
    BeautifulSoup / lxml:解析 HTML
    注意:遵守 robots.txt,避免频繁请求
  2. 数据可视化
    Matplotlib:
python 复制代码
import matplotlib.pyplot as plt
plt.plot(x, y)
plt.bar(categories, values)
plt.show()

Seaborn(更高级):

python 复制代码
import seaborn as sns
sns.heatmap(df.corr())

🤖 模块四:机器学习方法(16%,8题)

  1. 监督学习 vs 无监督学习

  2. 常用算法及适用场景

  3. 模型评估指标

    分类:准确率、精确率、召回率、F1、AUC

    回归:MAE、MSE、R²

  4. Python 实现(sklearn)

python 复制代码
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y)
model = RandomForestClassifier()
model.fit(X_train, y_train)
pred = model.predict(X_test)
print(accuracy_score(y_test, pred))

🧠 模块五:深度学习方法(14%,7题)

  1. 神经网络基础

    结构:输入层 → 隐藏层 → 输出层

    激活函数:ReLU(常用)、Sigmoid、Tanh

    损失函数:交叉熵(分类)、MSE(回归)

    优化器:SGD、Adam

  2. 常用模型

  3. 框架(了解即可)

    TensorFlow / PyTorch

    Keras(高层API)

  4. 优缺点

    优点:自动特征提取、处理非线性关系强

    缺点:需要大量数据、计算资源高、可解释性差

    ☁️ 模块六:大数据开发基础(8%,4题)

  5. 关系型 vs 分布式数据库

  6. 数据仓库

    传统:Oracle, Teradata ------ 集中式,成本高

    分布式:Hive ------ 基于 HDFS,用 SQL 查询大数据(HQL)

  7. Hadoop 生态

    HDFS:分布式文件系统(存储)

    MapReduce:编程模型(计算)

    Map:分发任务

    Reduce:汇总结果

    YARN:资源调度

  8. Spark

    内存计算,比 MapReduce 快 10-100 倍

    支持批处理、流处理、ML(MLlib)、图计算(GraphX)

    核心抽象:RDD / DataFrame

  9. Flink

    真正的流处理引擎(低延迟)

    支持"流批一体"

    适用于实时风控、实时推荐

    📡 模块七:中国移动大数据发展历程(22%,11题)← 必背!

  10. 梧桐大数据平台

    中国移动自研的大数据能力开放平台

    目标:"连接+算力+能力" 融合

    提供:数据治理、AI建模、可视化、API服务

  11. 技术栈

    底层:Hadoop + Spark + Flink

    中台:数据中台、AI中台

    上层:行业应用(如智慧交通、数字政府)

  12. 发展趋势

    从"数据汇聚"到"智能赋能"

    构建"梧桐生态":联合合作伙伴,开放数据能力

    推进 "东数西算" 国家战略

  13. 典型应用案例

    位置大数据:人流热力图、疫情追踪

    通信反诈:基于通话行为识别诈骗号码

    智慧网点:根据用户画像推荐套餐

    网络优化:预测基站负载,动态调整资源

    ✅ 考试重点:记住"梧桐"的定位、三大能力(连接+算力+能力)、典型场景(反诈、位置服务、智慧运营)

相关推荐
梨子串桃子_8 小时前
推荐系统学习笔记 | PyTorch学习笔记
pytorch·笔记·python·学习·算法
发哥来了9 小时前
AI视频生成企业级方案选型指南:2025年核心能力与成本维度深度对比
大数据·人工智能
北邮刘老师9 小时前
智能体治理:人工智能时代信息化系统的全新挑战与课题
大数据·人工智能·算法·机器学习·智能体互联网
geneculture10 小时前
融智学形式本体论:一种基于子全域与超子域的统一认知架构
大数据·人工智能·哲学与科学统一性·信息融智学·融智时代(杂志)
laplace012310 小时前
# 第六章 agent框架开发实践 - 学习笔记
人工智能·笔记·学习·语言模型·agent
xiaobaishuoAI11 小时前
分布式事务实战(Seata 版):解决分布式系统数据一致性问题(含代码教学)
大数据·人工智能·分布式·深度学习·wpf·geo
坚持不懈的大白11 小时前
Leetcode学习笔记
笔记·学习·leetcode
中屹指纹浏览器12 小时前
双GAN网络驱动的动态指纹生成技术深度解析——原理、实现与抗检测优化
经验分享·笔记
JeffDingAI12 小时前
【Datawhale学习笔记】基于Gensim的词向量实战
人工智能·笔记·学习
edisao13 小时前
一。星舰到底改变了什么?
大数据·开发语言·人工智能·科技·php