CentOS 7 安装部署Cassandra4.1.5

一、Cassandra的介绍

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。

Cassandra的官网:Apache Cassandra | Apache Cassandra Documentation

Cassandra特点

  • 弹性可扩展性 - Cassandra是高度可扩展的; 它允许添加更多的硬件以适应更多的客户和更多的数据根据要求。

  • 始终基于架构 - Cassandra没有单点故障,它可以连续用于不能承担故障的关键业务应用程序。

  • 快速线性性能 - Cassandra是线性可扩展性的,即它为你增加集群中的节点数量增加你的吞吐量。因此,保持一个快速的响应时间。

  • 灵活的数据存储 - Cassandra适应所有可能的数据格式,包括:结构化,半结构化和非结构化。它可以根据您的需要动态地适应变化的数据结构。

  • 便捷的数据分发 - Cassandra通过在多个数据中心之间复制数据,可以灵活地在需要时分发数据。

  • 事务支持 - Cassandra支持属性,如原子性,一致性,隔离和持久性(ACID)。

  • 快速写入 - Cassandra被设计为在廉价的商品硬件上运行。 它执行快速写入,并可以存储数百TB的数据,而不牺牲读取效率。

二、Cassandra下载、安装、访问

进入下载页后,选择最新稳定版本4.1.5

三、Cassandra 安装部署

1、安装准备

注意:Cassandra 使用 JAVA 语言开发,首先保证当前机器中已经安装 JDK 11 or JDK 8

bash 复制代码
# 安装JDK 11 

# yum install java-11-openjdk -y

# java -version

注意:Cassandra的客户端的使用需要用的Python3版本。需要先安装Python3

bash 复制代码
# 安装python3 

# yum install python3 -y

# python3 -V

2、部署Cassandra

bash 复制代码
# 解压
# tar -zxvf apache-cassandra-4.1.5-bin.tar.gz

# 重命名
# mv apache-cassandra-4.1.5 apache-cassandra

配置 Cassandra

进入解压后的目录,创建3个 Cassandra 的数据文件夹

bash 复制代码
# mkdir data
# mkdir commitlog
# mkdir saved-caches

修改配置文件

在 conf 目录中找到 cassandra.yaml 配置文件,配置上面创建的3个数据目录

  • 配置 data_file_directories
bash 复制代码
data_file_directories:
    - /home/Cassandra/apache-cassandra/data
  • 配置 commitlog_directory
bash 复制代码
commitlog_directory: /home/Cassandra/apache-cassandra/commitlog
  • 配置 saved_caches_directory
bash 复制代码
saved_caches_directory: /home/Cassandra/apache-cassandra/saved_caches
  • 配置 RPC,用于客户端连接
bash 复制代码
rpc_address: 192.168.204.131

3、启动 Cassandra

bash 复制代码
[root@localhost apache-cassandra]# pwd
/home/Cassandra/apache-cassandra
[root@localhost apache-cassandra]# ./bin/cassandra -R

输入命令来查看正在运行的cassandra的 pid

bash 复制代码
ps -ef|grep cassandra

显示如图,pid 是 11733:

4、关闭Cassandra

刚才已经查到了 pid,现在可以使用命令杀掉这个pid对应的进程

bash 复制代码
kill -9 11733

5、查看状态

bash 复制代码
[root@localhost apache-cassandra]# ./bin/nodetool status

如果cassandra启动出错,可以在bin目录下 使用 journalctl -u cassandra 命令查看

bash 复制代码
[root@localhost apache-cassandra]# cd bin
[root@localhost bin]# journalctl -u cassandra
bash 复制代码
# 问题
[root@localhost bin]# ./nodetool status
nodetool: Failed to connect to '127.0.0.1:7199' - URISyntaxException: 'Malformed IPv6 address at index 7: rmi://[127.0.0.1]:7199'.


# 解决办法
[root@localhost bin]# ./nodetool -Dcom.sun.jndi.rmiURLParsing=legacy status
[root@localhost bin]# ./nodetool -h ::FFFF:127.0.0.1 status

6、客户端连接服务器

进入Cassandra的目录,输入

bash 复制代码
[root@localhost apache-cassandra]# ./bin/cqlsh 192.168.204.131 9042
Connected to Test Cluster at 192.168.204.131:9042
[cqlsh 6.1.0 | Cassandra 4.1.5 | CQL spec 3.4.6 | Native protocol v5]
Use HELP for help.
cqlsh>

上面的操作在启动cqlsh的时候并没有指定需要连接的节点以及端口,默认 cqlsh 会自动探测本机及端口。上面的操作时已经启动了 Cassandra 服务并绑定相关端口,注:【 端口列表】,cqlsh默认就会连接本机的9042端口。

从上面的命令可以看出 cqlsh 连接到名为 Test Cluster 的集群,这个名字是默认值,可以自定义,配置在 conf/cassandra.yaml 文件的 cluster_name 参数,注:【yaml全内容】

输入quit退出客户端

Cassandra的端口

复制代码
7199 - JMX
7000 - 节点间通信(如果启用了TLS,则不使用)
7001 - TLS节点间通信(使用TLS时使用)
9160 - Thrift客户端API
9042 - CQL本地传输端口

7、服务运行脚本

为了方便管理,可以编写脚本来管理,在 /home/Cassandra/apache-cassandra 下创建一个 startme.sh,输入一下内容:

bash 复制代码
#!/bin/sh
CASSANDRA_DIR="/home/Cassandra/apache-cassandra"
 echo "************cassandra***************"
case "$1" in
        start)

                echo "*                                  *"
                echo "*            starting              *"
                nohup $CASSANDRA_DIR/bin/cassandra -R >> $CASSANDRA_DIR/logs/system.log 2>&1 &
                echo "*            started               *"
                echo "*                                  *"
                echo "************************************"
                ;;
        stop)

                echo "*                                  *"
                echo "*           stopping               *"
                PID_COUNT=`ps aux |grep CassandraDaemon |grep -v grep | wc -l`
                PID=`ps aux |grep CassandraDaemon |grep -v grep | awk {'print $2'}`
                if [ $PID_COUNT -gt 0 ];then
                        echo "*           try stop               *"
                        kill -9 $PID
                        echo "*          kill  SUCCESS!          *"
                else
                        echo "*          there is no !           *"
                echo "*                                  *"
                echo "************************************"
                fi
                ;;
        restart)

                echo "*                                  *"
                echo "*********     restarting      ******"
                $0 stop
                $0 start
                echo "*                                  *"
                echo "************************************"
                ;;
        status)
                $CASSANDRA_DIR/bin/nodetool status
                ;;

        *)
        echo "Usage:$0 {start|stop|restart|status}"

        exit 1
esac

接下来就可以使用这个脚本进行 启动,重启,关闭 的操作

bash 复制代码
[root@localhost apache-cassandra]# sh startme.sh start
[root@localhost apache-cassandra]# sh startme.sh restart
[root@localhost apache-cassandra]# sh startme.sh stop

四、Cassandra根据用户名密码登录cqlsh

修改conf目录下cassandra.yaml文件

bash 复制代码
authenticator: PasswordAuthenticator  //将authenticator修改为PasswordAuthenticator  

重新启动cassandra并且根据默认用户登录cqlsh,用户名密码都是cassandra

bash 复制代码
[root@localhost apache-cassandra]# ./bin/cqlsh 192.168.204.131 9042 -ucassandra -pcassandra

Warning: Using a password on the command line interface can be insecure.
Recommendation: use the credentials file to securely provide the password.

Connected to Test Cluster at 192.168.204.131:9042
[cqlsh 6.1.0 | Cassandra 4.1.5 | CQL spec 3.4.6 | Native protocol v5]
Use HELP for help.
cassandra@cqlsh> 

如果要修改默认用户,进入cqlsh后

bash 复制代码
#超级用户可以更改用户的密码或超级用户身份。为了防止禁用所有超级,超级用户不能改变自己的超级用户身份。普通用户只能改变自己的密码。附上用户名在单引号如果它包含非字母数字字符。附上密码在单引号。
CREATE USER test WITH PASSWORD '123456' SUPERUSER;  //创建一个超级用户
CREATE USER test1 WITH PASSWORD '123456' NOSUPERUSER;  //创建一个普通用户
ALTER USER test WITH PASSWORD '654321' ( NOSUPERUSER | SUPERUSER ) //修改用户
DROP USER cassandra //删除默认用户

五、Cassandra的基本概念

1、数据模型

1.1列(Column)

列是Cassandra的基本数据结构单元,具有三个值:名称,值、时间戳

在Cassandra中不需要预先定义列(Column),只需要在KeySpace里定义列族,然后就可以开始写数据了。

1.2列族( Column Family)

列族相当于关系数据库的表(Table),是包含了多行(Row)的容器。

1.3建空间 (KeySpace)

Cassandra的键空间(KeySpace)相当于数据库,我们创建一个键空间就是创建了一个数据库。

2、数据类型

2.1数值类型

2.2文本类型

复制代码
CQL提供2种类型存放文本类型,text和varchar基本一致

2.3时间类型

2.4标识符类型

2.5集合类型

set

集合数据类型,set 里面的元素存储是无序的。

set 里面可以存储前面介绍的数据类型,也可以是用户自定义数据类型,甚至是其他集合类型。

list

list 包含了有序的列表数据,默认情况下,数据是按照插入顺序保存的。

map

map 数据类型包含了 key/value 键值对。key 和 value 可以是任何类型,除了 counter 类型

使用集合类型要注意: 1、集合的每一项最大是64K。 2、保持集合内的数据不要太大,免得Cassandra 查询延时过长,Cassandra 查询时会读出整个集合内的数据,集合在内部不会进行分页,集合的目的是存储小量数据。 3、不要向集合插入大于64K的数据,否则只有查询到前64K数据,其它部分会丢失。

2.6其他基本类型

3、数据定义命令

4、数据操作指令

5、查询指令

六、Cassandra的基本操作

1、操作键空间

1.1创建Keyspace

sql 复制代码
语法
CREATE KEYSPACE <identifier> WITH <properties>;

更具体的语法:
Create keyspace KeyspaceName with replicaton={'class':strategy name,   
'replication_factor': No of replications on different nodes};

要填写的内容:

KeyspaceName 代表键空间的名字

strategy name 代表副本放置策略,内容包括:简单策略、网络拓扑策略,选择其中的一个。

No of replications on different nodes 代表 复制因子,放置在不同节点上的数据的副本数。

编写完成的创建语句 创建一个键空间名字为:school,副本策略选择:简单策略 SimpleStrategy,副本因子:3

sql 复制代码
CREATE KEYSPACE school WITH replication = {'class':'SimpleStrategy', 'replication_factor' : 3};

1.2连接Keyspace

sql 复制代码
语法
USE <identifier>;

1.3修改键空间

sql 复制代码
语法
ALTER KEYSPACE <identifier> WITH <properties>

1.4删除键空间

sql 复制代码
语法
DROP KEYSPACE <identifier>

2、操作表、索引

2.1查看键空间下所有表 代码

sql 复制代码
DESCRIBE TABLES;

2.2创建表

sql 复制代码
语法
CREATE (TABLE | COLUMNFAMILY) <tablename> ('<column-definition>' , '<column-definition>')
(WITH <option> AND <option>)

完整创建表语句,创建student 表,student包含属性如下: 学生编号(id), 姓名(name),年龄(age),性别(gender),家庭地址(address),interest(兴趣),phone(电话号码),education(教育经历) id 为主键,并且为每个Column选择对应的数据类型。 注意:interest 的数据类型是set ,phone的数据类型是list,education 的数据类型是map

sql 复制代码
CREATE TABLE student(
   id int PRIMARY KEY,  
   name text,  
   age int,  
   gender tinyint,  
   address text ,
   interest set<text>,
   phone list<text>,
   education map<text, text>
);

2.3cassandra的索引(KEY)

Cassandra的5种Key
  1. Primary Key
  2. Partition Key
  3. Composite Key
  4. Compound Key
  5. Clustering Key

1)Primary Key

是用来获取某一行的数据, 可以是单一列(Single column Primary Key)或者多列(Composite Primary Key)。

sql 复制代码
在 Single column Primary Key 决定这一条记录放在哪个节点。

create table testTab (
id int PRIMARY KEY,
name text
);

2)Composite Primary Key

如果 Primary Key 由多列组成,那么这种情况称为 Compound Primary Key 或 Composite Primary Key。

sql 复制代码
create table testTab (
key_one int,
key_two int,
name text,
PRIMARY KEY(key_one, key_two)
);

3)Partition Key

在组合主键的情况下(上面的例子),第一部分称作Partition Key(key_one就是partition key),第二部分是CLUSTERING KEY(key_two)

Cassandra会对Partition key 做一个hash计算,并自己决定将这一条记录放在哪个节点。

如果 Partition key 由多个字段组成,称之为 Composite Partition key

sql 复制代码
create table testTab (
key_part_one int,
key_part_two int,
key_clust_one int,
key_clust_two int,
key_clust_three uuid,
name text,
PRIMARY KEY((key_part_one,key_part_two), key_clust_one, key_clust_two, key_clust_three)
);

4)Clustering Key

决定同一个分区内相同 Partition Key 数据的排序,默认为升序,可以在建表语句里面手动设置排序的方式

2.4修改表结构

sql 复制代码
添加列,语法
ALTER TABLE table name ADD  new column datatype;

删除列,语法
ALTER table name DROP columnname;

2.5删除表

sql 复制代码
语法
DROP TABLE <tablename>

2.6清空表

sql 复制代码
语法
TRUNCATE <tablename>

2.7创建索引

sql 复制代码
普通列创建索引
CREATE INDEX <identifier> ON <tablename>

集合列创建索引
CREATE INDEX ON student(interest);                 -- set集合添加索引
CREATE INDEX mymap ON student(KEYS(education));          -- map结合添加索引效果:

2.8 删除索引

sql 复制代码
语法
DROP INDEX <identifier>

3、查询数据

sql 复制代码
使用 SELECT 、WHERE、LIKE、GROUP BY 、ORDER BY等关键词
SELECT FROM <tablename>
SELECT FROM <table name> WHERE <condition>;

查询时使用索引

  • Primary Key 只能用 = 号查询
  • 第二主键 支持= > < >= <=
  • 索引列 只支持 = 号
  • 非索引非主键字段过滤可以使用ALLOW FILTERING

ALLOW FILTERING是一种非常消耗计算机资源的查询方式。 如果表包含例如100万行,并且其中95%具有满足查询条件的值,则查询仍然相对有效,这时应该使用ALLOW FILTERING。

如果表包含100万行,并且只有2行包含满足查询条件值,则查询效率极低。Cassandra将无需加载999,998行。如果经常使用查询,则最好在列上添加索引。

ALLOW FILTERING在表数据量小的时候没有什么问题,但是数据量过大就会使查询变得缓慢。

查询时排序

cassandra也是支持排序的,order by。 排序也是有条件的

  • 必须有第一主键的=号查询,cassandra的第一主键是决定记录分布在哪台机器上,cassandra只支持单台机器上的记录排序。
  • 只能根据第二、三、四...主键进行有序的,相同的排序。
  • 不能有索引查询,cassandra的任何查询,最后的结果都是有序的,内部就是这样存储的。

分页查询

使用limit 关键字来限制查询结果的条数 进行分页

4、添加数据

sql 复制代码
语法
INSERT INTO <tablename>(<column1 name>, <column2 name>....) VALUES (<value1>, <value2>....) USING <option>

5、更新列数据

更新表中的数据,可用关键字:

  • Where - 选择要更新的行
  • Set - 设置要更新的值
  • Must - 包括组成主键的所有列

在更新行时,如果给定行不可用,则UPDATE创建一个新行

sql 复制代码
语法
UPDATE <tablename>
SET <column name> = <new value>
<column name> = <value>....
WHERE <condition>
更新简单数据
sql 复制代码
把id = 1012 的数据的gender列 的值改为1,代码:

UPDATE student set gender = 1 where id= 1012;
更新set类型数据
sql 复制代码
在student中interest列是set类型

1)添加一个元素
使用UPDATE命令 和 '+' 操作符

代码:
UPDATE student SET interest = interest + {'游戏'} WHERE id = 1012;

2)删除一个元素
使用UPDATE命令 和 '-' 操作符

代码:
UPDATE student SET interest = interest - {'电影'} WHERE id = 1012;

3)删除所有元素
可以使用UPDATA或DELETE命令,效果一样

代码:
UPDATE student SET interest = {} WHERE id = 1012;
或
DELETE interest FROM student WHERE id = 1012;
更新list类型数据
sql 复制代码
使用UPDATA命令向list插入值
代码:
UPDATE student SET phone = ['020-66666666', '13666666666'] WHERE id = 1012;

在list前面插入值
代码:
UPDATE student SET phone = [ '030-55555555' ] + phone WHERE id = 1012;

在list后面插入值
代码:
UPDATE student SET phone = phone + [ '040-33333333' ]  WHERE id = 1012;

使用列表索引设置值,覆盖已经存在的值
这种操作会读入整个list,效率比上面2种方式差

现在把phone中下标为2的数据,也就是 "13666666666"替换,代码:
UPDATE student SET phone[2] = '050-22222222' WHERE id = 1012;

【不推荐】使用DELETE命令和索引删除某个特定位置的值
非线程安全的,如果在操作时其它线程在前面添加了一个元素,会导致移除错误的元素

代码:
DELETE phone[2] FROM student WHERE id = 1012;

【推荐】使用UPDATE命令和'-'移除list中所有的特定值
代码:
UPDATE student SET phone = phone - ['020-66666666'] WHERE id = 1012;
更新map类型数据
sql 复制代码
map输出顺序取决于map类型。

1)使用Insert或Update命令
UPDATE student SET education=
  {'中学': '城市第五中学', '小学': '城市第五小学'} WHERE id = 1012;

2)使用UPDATE命令设置指定元素的value
UPDATE student SET education['中学'] = '爱民中学' WHERE id = 1012;

3)可以使用如下语法增加map元素。如果key已存在,value会被覆盖,不存在则插入
UPDATE student SET education = education + { '幼儿园' : '大海幼儿园', '中学': '科技路中学'} WHERE id = 1012;

4)删除元素
可以用DELETE 和 UPDATE 删除Map类型中的数据

使用DELETE删除数据
DELETE education['幼儿园'] FROM student WHERE id = 1012;

使用UPDATE删除数据
UPDATE student SET education=education - {'中学','小学'} WHERE id = 1012;

6、删除行

sql 复制代码
语法
DELETE FROM <identifier> WHERE <condition>;

7、批量操作

把多次更新操作合并为一次请求,减少客户端和服务端的网络交互。 batch中同一个partition key的操作具有隔离性

sql 复制代码
SQL语法

使用BATCH,您可以同时执行多个修改语句(插入,更新,删除)

BEGIN BATCH
<insert-stmt>/ <update-stmt>/ <delete-stmt>
APPLY BATCH

JAVA语法

@Resource
private CassandraTemplate cassandraTemplate;

// 批量插入
public void insert(){
    CassandraBatchOperations batchOps = cassandraTemplate.batchOps();
    batchOps.insert(List<entity>);
    batchOps.execute();
}
相关推荐
Diamond技术流10 小时前
从0开始学习Linux——远程连接工具
linux·学习·centos·ssh·xshell·ftp
shiran小坚果18 小时前
AWS RDS MySQL内存使用
数据库·mysql·云计算·database·aws
188_djh18 小时前
# Python基础到实战一飞冲天(一)--linux基础(一)
linux·开发语言·python·ubuntu·centos·os·operationsystem
刘艳兵的学习博客19 小时前
刘艳兵-DBA027-在Oracle数据库,通常可以使用如下方法来得到目标SQL的执行计划,那么通过下列哪些方法得到的执行计划有可能是不准确的?
数据库·oracle·面试·database·刘艳兵
Mephisto.java21 小时前
【大数据学习 | HBASE】hbase的整体架构
大数据·sql·oracle·json·hbase·database
Jeffrey侠客1 天前
.Net Core 6.0 WebApi在Centos中部署
linux·centos·.netcore
Gauss松鼠会1 天前
GaussDB的向量化处理技术
运维·数据库·database·gaussdb
WiFiMing1 天前
nginx的基本安装与服务器配置
linux·运维·centos
hummhumm1 天前
Oracle 第19章:高级查询技术
java·数据库·python·sql·mysql·oracle·database
一心赚狗粮的宇叔1 天前
oracle使用CTE递归分解字符串
mysql·oracle·c#·database