nosql

静若繁花_jingjing31 分钟前
数据库·nosql
NoSql数据库概念https://www.aliyun.com/product/apsaradb/lindormLindorm面向海量 泛时序、半结构化和非结构化数据 提供低成本存储、在线查询和离线分析等一站式数据服务,针对AI场景支持正排、全文、向量融合检索和AI推理能力;兼容MySQL协议、HBase、ES、Hive、Spark、HDFS等开源标准。提供宽表、时序、向量等数据模型。
武子康12 小时前
大数据·后端·nosql
大数据-149 Apache Druid 实时 OLAP 架构与选型要点数据分析的基础架构可以根据不同的业务需求和技术特点分为以下几类,每种架构都有其特定的应用场景和优势:基于Hadoop/Spark的批处理分析
腾讯云数据库13 小时前
数据库·nosql
「腾讯云NoSQL」技术之向量数据库篇:自研分布式向量数据库,实现毫秒级时序一致备份的挑战和实践随着AIGC和大模型的浪潮席卷全球,向量数据库作为处理和检索海量非结构化数据的核心引擎,其重要性日益凸显。为了确保数据的多副本容灾和一致性,数据库普遍采用成熟的Raft协议来构建多副本架构,通过Raft协议和高可靠的云盘,数据被复制成三份甚至更多,似乎已经构筑了一套完备的数据的读写和基本的容灾能力,然而,这样的高可用架构真的就万无一失了吗?当人为的误删除、程序Bug的致命一击发生时,这些“错误”操作也会被忠实地同步到所有副本,导致数据瞬间灰飞烟灭——此时我们才意识到,仅靠多副本远不足够,那么,我们应该如何
武子康2 天前
大数据·后端·nosql
大数据-148 Flink 写入 Kudu 实战:自定义 Sink 全流程(Flink 1.11/Kudu 1.17/Java 11)将数据从 Flink 下沉到 Kudu 的基本思路如下:StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();:初始化 Flink 的执行环境,这是 Flink 应用的入口。
武子康2 天前
大数据·后端·nosql
大数据-147 Java 访问 Apache Kudu:从建表到 CRUD(含 KuduSession 刷新模式与多 Master 配置)由于重复了太多次,这里直接跳过了。运行结果如下图所示:我们查看Kudu的Tables,可以看到刚才创建的表如下:
武子康4 天前
java·数据库·sql·docker·系统架构·nosql·neo4j
Java-166 Neo4j 安装与最小闭环 | 10 分钟跑通 + 远程访问 Docker neo4j.confNeo4j 是一个开源的原生图形数据库管理系统,采用 Java 语言开发。与传统的关系型数据库不同,它不采用表结构(Schema-less),而是以图的形式存储和管理结构化数据。
武子康4 天前
大数据·后端·nosql
大数据-145 Apache Kudu 架构与实战:RowSet、分区与 Raft 全面解析Kudu 和 HBase、HDFS 之间的对比:与HDFS和HBase相似,Kudu使用单个Master节点,用来管理集群的元数据,并且使用任意数量的TabletServer节点用来存储实际数据,可以部署多个Master节点来提高容错性。
武子康6 天前
大数据·后端·nosql
大数据-144 Apache Kudu:实时写 + OLAP 的架构、性能与集成Apache KuduApache Kudu 是由 Cloudera 公司开发并贡献给 Apache 软件基金会的开源存储引擎。它旨在解决大数据处理中的一个关键问题 - 如何在同一个存储系统中同时支持低延迟的随机读写和高效的分析能力。
武子康7 天前
大数据·后端·nosql
大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system.parts 全流程示例ClickHouse 是一种用于 OLAP(在线分析处理)的列式数据库,因其高速数据处理能力在大数据分析中备受青睐。ClickHouse 的 SQL 语法与标准 SQL 类似,但由于其专注于分析场景,有一些特殊的扩展。ClickHouse 默认不支持直接 DELETE 或 UPDATE 操作,但可以通过分区管理和合并机制间接清理数据。ClickHouse 提供了很多专门为高效分析而设计的功能。ClickHouse 提供了丰富的聚合函数,如 sum()、avg()、min()、max()、count()。
武子康8 天前
大数据·后端·nosql
大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum副本是指在分布式系统中,将相同的数据存储在不同物理节点上的技术实现。其核心思想是通过数据冗余来提升系统的可靠性。在 ClickHouse 中,每个数据分片(Shard)都会维护一个或多个完全相同的副本,这些副本节点组成一个副本组。副本之间通过特定的同步协议保持一致,当主副本节点接收到数据写入时,会通过后台进程将变更传播到其他副本节点。
武子康9 天前
java·数据库·性能优化·系统架构·nosql·neo4j·图论
Java-165 Neo4j 图论详解 欧拉路径与欧拉回路 10 分钟跑通:Python NetworkX 判定实战柯尼斯堡(Königsberg)七桥问题是图论发展史上的里程碑事件。18世纪初,这座位于普鲁士(现俄罗斯加里宁格勒)的城市被普雷格尔河(Pregel River)分成四个主要区域,并由七座桥连接:
武子康10 天前
java·数据库·分布式·mongodb·性能优化·系统架构·nosql
Java-163 MongoDB 生产安全加固实战:10 分钟完成认证、最小权限、角色详解MongoDB 在默认安装时确实不启用身份验证机制,这种设计本意是为了简化开发者在初始阶段的使用流程,却埋下了严重的安全隐患。用户可以直接使用 mongo 命令行工具或通过驱动连接数据库,无需提供任何凭证即可获得完整的数据访问权限。
武子康10 天前
大数据·后端·nosql
大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper 从 0–1:创建、选举、日志复制、排障ReplicatedMergeTree ZooKeeper:实现多个实例之间的通信。作为数据副本的主要载体,ReplicatedMergeTree在设计上有一些缺点:
武子康10 天前
java·数据库·分布式·mongodb·性能优化·系统架构·nosql
Java-164 MongoDB 认证与权限实战:单实例与分片集群 整体认证配置实战 最小化授权/错误速查/回滚剧本创建 wzk_test1 数据库并创建了两个用户,zhangsan用户拥有读写权限,lisi用户拥有只读权限,测试这两个账户的权限。 这里需要以管理员登录测试权限。
武子康11 天前
大数据·后端·nosql
大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/MySQL/KafkaCollapsingMergeTree是ClickHouse中一种特殊的MergeTree引擎,其核心设计理念是"以增代删"。Yandex官方对此引擎的定义是:
武子康12 天前
大数据·后端·nosql
大数据-139 ClickHouse MergeTree 最佳实践:Replacing 去重、Summing 求和、分区设计与物化视图替代方案这个引擎是在MergeTree的基础上,添加了处理重复数据的功能,该引擎和MergeTree的不同之处在于它会删除具有相同主键的重复项。
武子康13 天前
大数据·后端·nosql
大数据-138 ClickHouse MergeTree 实战详解|分区裁剪 × 稀疏主键索引 × marks 标记 × 压缩ClickHouse 是一个 列式存储 数据库,这意味着每一列的数据是单独存储的,而不是像行式数据库那样将每一行作为一个整体来存储。列式存储的优势在于,它可以针对特定的查询只读取相关的列,大大减少了 I/O 操作,尤其在进行聚合或过滤操作时表现出色。每一列的数据通常会被划分成若干块(block),这些块被组织在存储引擎的元数据和数据文件中。ClickHouse 的存储引擎有多个,常用的包括 MergeTree 引擎及其变种。
武子康14 天前
大数据·后端·nosql
大数据-137 ClickHouse MergeTree 实战指南|分区、稀疏索引与合并机制 存储结构 一级索引 跳数索引ClickHouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列(MergeTree)中的其他引擎。MergeTree系列引擎是ClickHouse的核心存储引擎,专为高吞吐量数据写入和高效查询而设计,特别适合处理时间序列数据、日志分析等大数据场景。