Spark广播变量HttpBroadcast和TorrentBroadcast对比

HttpBroadcast会在driver端的BlockManager里面存储广播变量对象,并且将该广播变量序列化写入文件中去。所有获取广播数据请求都在driver端,所以存在单点故障和网络IO性能问题。

TorrentBroadcast会在driver端的BlockManager里面存储广播变量对象,并将广播对象分割成若干序列化block块(默认4M),存储于BlockManager。小的block存储位置信息,存储于Driver端的BlockManagerMaster。数据请求并非集中于driver端,避免了单点故障和driver端网络磁盘IO过高。

TorrentBroadcast在executor端存储一个对象的同时会将获取的block存储于BlockManager,并向driver端的BlockManager汇报block的存储信息。请求数据的时候会先获取block的所有存储位置信息,并且是随机的在所有存储了该executor的BlockManager去获取,避免了数据请求服务集中于一点。

总之,就是HttpBroadcast导致获取广播变量的请求集中于driver端,容易引起driver端单点故障,网络IO过高影响性能等问题,而TorrentBroadcast获取广播变量的请求服务即可以请求到driver端也可以在executor,避免了上述问题,当然这只是主要的优化点。

相关推荐
jinggongszh2 分钟前
数字化转型先上系统还是先理流程?
大数据·人工智能·微服务·制造
EasyDSS5 分钟前
私有化视频会议系统/视频高清直播点播EasyDSS一站式视频平台赋能智慧校园全场景教学
大数据·音视频
二等饼干~za89866817 分钟前
云罗 GEO 优化系统源码厂家测评报告
大数据·网络·数据库·人工智能·django
跨境技工小黎23 分钟前
如何从 eBay 抓取商品价格数据?2026 数据采集实践整理
大数据
GlobalInfo25 分钟前
工业控制类芯片市场份额、市场占有率、行业调研报告2026
大数据·人工智能·物联网
kuankeTech25 分钟前
汇信云·盘古发布 开启外贸AI新时代
大数据·人工智能·自动化·数据可视化·软件开发
云飞云共享云桌面27 分钟前
共享云主机告别传统电脑——制造工厂研发部门2台三维设计云主共享给20个设计师并发用
大数据·运维·服务器·自动化·电脑·制造
江瀚视野28 分钟前
电竞苏超即将上线,虎牙发力电竞苏超意欲何为?
大数据·人工智能
xiaoduo AI34 分钟前
客服机器人首响时长最快可优化至几秒?智能 Agent 预加载常用语,响应比人工快多少?
大数据·人工智能·机器人
Francek Chen41 分钟前
【大数据存储与管理】NoSQL数据库:02 NoSQL兴起的原因
大数据·数据库·分布式·nosql