GIS、向量、文字检索... 火山引擎 ByteHouse 集成全场景分析能力

企业业务场景增多、规模扩大,对于底层数据架构来说,可能也会愈加复杂。

比如,某企业因自身业务发展,需要引入向量检索能力,但前期选型的技术架构并不能直接支持,只能重新引入向量数据库。这意味着,研发团队要维护多个组件,让底层架构非常复杂,不仅带来数据冗余,也给数据运维带来压力,造成整体成本增加。

而火山引擎推出的云原生数仓库 ByteHouse 不仅能满足海量数据下高性能分析需求,还通过 GIS 时空分析、全文检索、Vector 向量检索,为分析型数据库加持更多能力,让企业用户用一套架构满足多元化分析需求,节省企业资源人力成本,提升数据效能。

据介绍,ByteHouse 以 ClickHouse 技术路线为基础,为用户提供极速分析体验,支撑实时数据分析和海量数据离线分析,具备便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性。特别是随着数据量的爆炸性增长,企业对分析性能的要求水涨船高,ByteHouse 能更好以应对大规模数据处理需求。

ByteHouse 在 OLAP 引擎上实现了一系列增强,能支撑宽表、星型模型、雪花模型等更复杂的分析模型,且能实现基础模型的范式化建模,具备流批一体、优化器、增强型易聚合等技术特点,已经在实时数仓、用户圈选、行为分析、广告推荐等场景中落地。

基于全能型的 OLAP 引擎能力,ByteHouse 还集成了适用于不同场景的三大引擎,为用户提供更极致的分析服务。

首先,作为 OLAP 的 ByteHouse 在支持结构化数据检索方面具备先天优势,ByteHouse 全文检索引擎则补齐了对非结构化、半结构化等数据的快速检索能力,支持商品搜索、知识库搜索、日志分析等场景下对文本数据进行关键字检索,让用户可以构建一体化的数据管理、查询服务,降低运维成本和资源成本。

与行业常见的非结构化数据处理引擎,如 ElasticSearch 相比,ByteHouse 也具备明显优势。在性能层面,相关测试数据显示,当单服务器日志写入量在 50MB-200MB/s,每秒写入超过 30w 记录数的情况下,ByteHouse 是 ElasticSearch 性能的 5 倍以上。

在成本层面,ByteHouse 具备更高数据压缩比、消耗更少的 CPU 资源,在保障高效查询的基础上,还能进一步压缩服务器成本。在稳定性层面,ByteHouse 冷热分离机制、负载均衡策略,让数据稳定性更高。

其次,ByteHouse 还推出了 GIS 时空分析引擎,在功能层面,ByteHouse 兼容 OGC 标准,支持导入标准 GIS 文件格式,目前已支持超过 50 个主流的空间函数。

为了提供更极致的使用体验,ByteHouse 还在探索自研优化器适配 GIS 特性,以及 GPU 硬件层面优化二维空间函数。通过选取两个关键 GIS 函数ST_DistanceSphereST_Within,ByteHouse 在优化器、硬件等层面的优化,使其在测试函数的性能上显著超越其他产品。

最后,随着大模型的火热,ByteHouse 已支持多种向量检索算法,如 HNSW、Flat、IVFFlat、IVFPQ,并且基于 vector-centric 的思路,构建了高效的执行链路,可以支撑大规模向量检索场景,达到毫秒级的查询延迟。

通过开源软件 VectorDBBench 测试工具,在 cohere 1M 标准测试数据集上,recall 98 的情况下,ByteHouse QPS 性能已可以超过专用向量数据库。

"一元化数据、多元化引擎"是 ByteHouse 的产品理念,旨在通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化。

通过全文检索引擎、GIS 引擎、Vector 引擎,ByteHouse 让用户在享受 OLAP 极致性能的同时,无需引入其他架构,就能使用文字检索、地理空间分析、向量检索能力,进一步提升使用体验。

相关推荐
abandondyy1 小时前
MySQL---主从复制和读写分离
数据库·mysql
boonya1 小时前
Apache Hive分布式容错数据仓库系统
数据仓库·hive·apache
DEARM LINER2 小时前
mysql 巧妙的索引
数据库·spring boot·后端·mysql
码农幻想梦3 小时前
实验九 视图的使用
前端·数据库·oracle
影子落人间3 小时前
Oracle创建存储过程,创建定时任务
数据库·oracle
大G哥3 小时前
02、Oracle过滤和排序数据
数据库·oracle
代码吐槽菌5 小时前
基于SSM的汽车客运站管理系统【附源码】
java·开发语言·数据库·spring boot·后端·汽车
伏虎山真人5 小时前
开源数据库 - mysql - 组织结构(与oracle的区别)
数据库·mysql·开源
精致先生6 小时前
问题记录01
java·数据库·mybatis
Channing Lewis6 小时前
salesforce developer console 匿名执行是以什么身份执行的
数据库·安全·salesforce