大数据开发--1.1大数据概论

目录

一.大数据的概念

什么是大数据?

[二. 大数据的特点](#二. 大数据的特点)

[三. 大数据应用场景](#三. 大数据应用场景)

[四. 大数据分析业务步骤](#四. 大数据分析业务步骤)

大数据分析的业务流程:

五.大数据职业规划

职业方向

岗位技术要求

[六. 大数据学习路线](#六. 大数据学习路线)


一.大数据的概念

什么是大数据?

  • 数据
    世界的本质是数据
    --大数据研究专家维克托·迈尔-世恩伯格博士
  • 大数据定义
    大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。
  • 大数据处理的数据量有多大?
    (2的10次方)
    目前的大数据应用,数据量主要集中在PB/EB级别
  • 大数据解决什么问题?
    海量数据存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
    海量数据运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

二. 大数据的特点

  • 大数据的特点可以使用5个字来概括:大、多、值、快、信

    结构化:文字、数字。
    非结构化:图片、音频、视频。
    半结构化:json。

三. 大数据应用场景

  • 行业领域

四. 大数据分析业务步骤

  • 大数据的应用场景--大数据让借贷更放心
    在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
    借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
    借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
    (逻辑回归、人物画像)
  • 大数据的应用场景-大数据让广告营销更高效
    广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
    在广告的投放期间,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
    在广告投放的中后期,通过实时的数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。

落地的产品,但是大数据不做这些,算法团队来做个性化推荐,大数据杀熟

通过型的算法有:spark(MLlib),贝叶斯,效果非常的差。所以要自己写算法。

  • 大数据的应用场景--大数据让新媒体更懂你
    短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频。

    头条平台会根据你的浏览历史推荐你喜欢或者关注的内容。

大数据分析的业务流程:

五.大数据职业规划

  • 大数据开发工程师
  • Hadoop开发工程师
  • Spark开发工程师
  • 实时计算开发工程师
    flink+kafka,sparksreaming+kafka
  • 数据仓库工程师
    Hive脚本开发(Hive开发工程师)
  • ETL开发工程师
  • BI开发工程师
    数据分析,Python+fineBI,tableau
  • 数据挖掘工程师
    算法
  • 数据架构师
    5年起步

职业方向

岗位技术要求

六. 大数据学习路线

  1. Linux系统
    (大数据的所有组件都是在Linux环境下搭建的)
  2. 编程语言
  3. 大数据框架
    (核心框架:Hadoop、Hive、Spark、Kakfa、Hbase)

    大数据工具:
    zookeeper
    Hadoop(MapReduce、hdfs)
    Hive
    azkaban:调度工具
    impala
    HBASE
    Phoenix
    Redis
    elasticsearch
    logstash
    kibana
    hue
    oozie
    spark
    flink
    kafka
    clickhouse
    DS
相关推荐
跨境猫小妹3 分钟前
跨境电商深水区:价值增长新范式,重构出海增长逻辑
大数据·人工智能·重构·产品运营·跨境电商·防关联
乐迪信息22 分钟前
乐迪信息:AI摄像机识别煤矿出入井车辆数量异常检测
大数据·运维·人工智能·物联网·安全
写代码的【黑咖啡】32 分钟前
大数据环境下如何维护模型文档:策略与实践
大数据
焦糖玛奇朵婷36 分钟前
扭蛋机小程序:线上扭蛋机模式发展新形势[特殊字符]
大数据·数据库·程序人生·小程序·软件需求
番茄撒旦在上43 分钟前
什么样的表适合做拉链表
大数据·数据仓库·hive
Elastic 中国社区官方博客1 小时前
在 Kibana 中可视化你的 Bosch Smart Home 数据
大数据·运维·elasticsearch·搜索引擎·信息可视化·全文检索·kibana
云老大TG:@yunlaoda3601 小时前
如何使用华为云国际站代理商的FunctionGraph进行事件驱动的应用开发?
大数据·数据库·华为云·云计算
yiersansiwu123d1 小时前
生成式AI重构内容生态,人机协同定义创作新范式
大数据·人工智能·重构
老蒋新思维1 小时前
创客匠人:从个人IP到知识变现,如何构建可持续的内容生态?
大数据·网络·人工智能·网络协议·tcp/ip·创客匠人·知识变现
Sui_Network2 小时前
Mysten Labs 与不丹王国政府的创新与技术部携手探索离线区块链
大数据·人工智能·web3·去中心化·区块链