如何精准预测天气?火山引擎ByteHouse与大地量子这么做

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

伴随着气象技术的发展以及城市气象设施的完善,气象监测服务能力在不断提高,实现短期甚至中长期的气象预测成为可能。

短期、长期的天气形势预测,不仅能帮助相关行业、有关部门针对性地进行极端天气防范准备,降低气象灾害带来的影响;还可以提升对风力、水力等可再生能源的利用效率,实现可持续发展,推动环境保护。

而大地量子正是这样一家深耕气象领域的公司。作为定位为AI大模型与数字孪生的公司,大地量子通过对PB级卫星遥感数据、气象数据的AI开发,打造业界领先的天气预测、清洁能源功率预测、绿电交易预测、碳汇碳排等技术产品,并利用自有的AI与超算优势,完成下一代气象预报系统。

预测一个地理位置的气象情况,实际是根据周围的观测站点的大量信息,做重合面积的地理信息查询,包括经纬度、温度、湿度等具体数值。除此之外,大自然中变幻莫测的风、雨、云、电,也会为数据的计算能力和实时查询也带来了巨大的难点。具体可以包括以下三点:

第一,地理信息数据处理能力,业务需要丰富的geo函数,用于整合海量的历史气象数据,对目标点位/区域实现天气预测;第二,高时效性查询需求,风场、云层预测等模型需要实时查询能力,快速做到结果反馈;第三,由于查询的接口众多,高并发扩展也是交互式业务不可或缺的能力之一。

如何解决这些痛点?大地量子选择了与火山引擎云原生数据仓库ByteHouse进行合作。

随着字节跳动业务的快速发展,产生了海量的产品使用数据分析需求。这类场景数据指标计算相对复杂、数据总量大且查询模式多变,要求底层数据计算引擎具备高可用性,以及具备应对超大数据规模下交互式实时响应的能力。ByteHouse的极致性能和强大计算能力,正是源于内部场景的多年积累和检验。

在字节跳动内部实践场景和海量数据打磨下的技术能力也复制在大地量子上,并进行了进一步升级。

据介绍,ByteHouse起初是基于开源ClickHouse引擎进行技术架构重构和优化。但相比起原生的ClickHouse,火山引擎ByteHouse基于独家自研的高可用引擎及查询优化器,可以为企业提供快速、稳定、安全的查询服务和数据写入性能。

从技术层面看,ByteHouse 提供了 PB 级数据秒级响应,通过增强的自研引擎,确保95%以上的查询均可在秒级返回,同时通过自研的HAEngine和元数据持久化等优化,ByteHouse提供了新的生产级高可用方案,能够保障其在大数据量场景下依然不会影响到查询分析体验。

大地量子通过将现场采集及大模型生成的气象数据导入到ByteHouse中,通过ByteHouse的多边形计算、方差、平均值等计算函数能力,支撑GEO查询和空间计算,满足其对预测系统以及交互式查询需求。另外,针对大地量子不同阶段数据波动情况,ByteHouse也提出了定制化解决方案。例如,在业务数据低谷期,ByteHouse提供集群节点进行自助升级能力,在保持产品功能更新的同时,能更灵活帮助大地量子控制产品版本,降低运维负担。

在降本增效层面,大地量子也利用ByteHouse进行了极致优化。ByteHouse 能支持用户自定义冷存储的比例,该能力帮助大地量子将查询频次较少的历史数据进行冷存,起到降低存储成本的作用,最终实现查询效率和成本之间的平衡。

目前,在业务实践中,平均查询任务时长始终保持在50毫秒以内,同时可以做到400QPS的峰值并发,火山引擎ByteHouse的高效率表现为大地量子提供了最有力的用数支持。

未来,由于大地量子将把部分功能作为API接口对外开放,ByteHouse的高查询性能足以满足预测系统及后续交互式查询需求,进一步为大地量子提供了查询并发的保障,为业务扩展提供基础。除此之外,由于ByteHouse 支持无损和自助水平扩容,随着数据量持续增加,大地量子也计划通过 ByteHouse 集群的水平扩容来动态调整和支持计算、存储能力,为高性能查询提供更强保障。

除了在气象领域落地,火山引擎ByteHouse还与中国地震台网中心、海王集团、莉莉丝游戏、极客邦科技等诸多行业企业达成了深度合作,凭借新一代的云原生架构,高效方便的运维模式,以及高性能更灵活的实时查询能力,为企业抓稳数字化机遇建立了夯实的地基,推动企业的数智化转型升级。

点击跳转火山引擎ByteHouse了解更多

相关推荐
Acrelhuang2 分钟前
安科瑞5G基站直流叠光监控系统-安科瑞黄安南
大数据·数据库·数据仓库·物联网
皓74110 分钟前
服饰电商行业知识管理的创新实践与知识中台的重要性
大数据·人工智能·科技·数据分析·零售
Mephisto.java13 分钟前
【大数据学习 | kafka高级部分】kafka的kraft集群
大数据·sql·oracle·kafka·json·hbase
Mephisto.java14 分钟前
【大数据学习 | kafka高级部分】kafka的文件存储原理
大数据·sql·oracle·kafka·json
十叶知秋1 小时前
【jmeter】jmeter的线程组功能的详细介绍
数据库·jmeter·性能测试
ycsdn101 小时前
Caused by: org.apache.flink.api.common.io.ParseException: Row too short:
大数据·flink
DolphinScheduler社区2 小时前
Apache DolphinScheduler + OceanBase,搭建分布式大数据调度平台的实践
大数据
瓜牛_gn2 小时前
mysql特性
数据库·mysql
时差9533 小时前
MapReduce 的 Shuffle 过程
大数据·mapreduce
奶糖趣多多3 小时前
Redis知识点
数据库·redis·缓存