华为开源carbondata中的使用问题处理

carbondata中的使用问题处理

Q：什么是不良记录？

A：由于数据类型不兼容而无法加载到CarbonData中的记录或为空或具有不兼容格式的记录被归类为不良记录。

Q：CarbonData中的不良记录存储在哪里？

A：不良记录存储在carbon.properties文件的carbon.badRecords.location中设置的位置。

Q：如何启用不良记录日志？

A：在加载数据时，我们可以指定处理不良记录的方法。为了分析错误记录的原因，必须将参数BAD_RECORDS_LOGGER_ENABLE设置为TRUE。可以通过参数BAD_RECORDS_ACTION指定多种处理错误记录的方法。

• 使用NULL值填充不正确的CSV行值并加载在CarbonData中的数据中，在查询中设置以下内容：'BAD_RECORDS_ACTION'='FORCE'

• 要在原始CSV中写入错误记录而不用NULL填充不正确的值（在参数carbon.badRecords.location中设置），请设置以下内容在查询中：'BAD_RECORDS_ACTION'='REDIRECT'

Q：如何忽略不良记录？

A：若要忽略不良记录以免它们存储在原始csv中，我们需要在查询中设置以下内容：'BAD_RECORDS_ACTION'='IGNORE'。

Q：创建Carbon会话时如何指定存储位置？

A：Carbon数据使用创建Carbon会话时指定的存储位置来存储元数据，如架构，字典文件，字典元数据和排序索引。

尝试使用以下指定的storepath创建carbonsession 方式：val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession(<store_path>)

Example: val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://localhost:9000/carbon/store")

Q：什么是Carbon锁类型？

A：Apache CarbonData获取文件上的锁，以防止并发操作修改相同的文件。锁的类型取决于存储位置，对于HDFS，我们将其指定为HDFSLOCK类型。默认情况下，它设置为LOCALLOCK。属性carbon.lock.type配置指定在表的并发操作期间要获取的锁的类型。可以使用以下值设置此属性：LOCALLOCK-此锁定在本地文件系统上作为文件创建。当一台机器上仅运行一个Spark驱动程序（旧式服务器）并且没有同时启动其他CarbonData Spark应用程序时，此锁定很有用。 HDFSLOCK：此锁在HDFS文件系统上作为文件创建。当启动多个CarbonData Spark应用程序并且集群上没有任何ZooKeeper运行且HDFS支持基于文件的锁定时，此锁定很有用。

Q：如何解决抽象方法错误？

A：为了构建CarbonData项目，必须指定Spark版本。使用Maven生成项目时，需要指定Spark版本。

Q：在异常情况下执行插入操作时，Carbon的行为如何？

A：Carbon支持插入操作，可以参考DML Operations on CarbonData中提到的语法。首先，在spark-sql中创建一个源表，并将数据加载到该创建的表中。

CREATE TABLE source_table(id String,name String,city String)ROW FORMAT DELIMITED FIELDS TERMINATED BY ","

SELECT * FROM source_table;

id name city

1 jack beijing

2 erlu hangzhou

3 davi shenzhen

场景 1：

假设carbon表中的列顺序与源表中的列顺序不同，使用脚本" SELECT * FROM碳表"进行查询，将获得与源表类似的列顺序，而不是像期望中那样在carbon表中列顺序。

CREATE TABLE IF NOT EXISTS carbon_table(id String,city String,name String)STORED BY 'carbondata';

INSERT INTO TABLE carbon_table SELECT * FROM source_table;

SELECT * FROM carbon_table;

id city name

1 jack beijing

2 erlu hangzhou

3 davi shenzhen

结果显示，第二列是carbon表中的城市，但里面是名称，例如jack。此现象与将数据插入到hive表中相同。如果要将数据插入到carbon表中的相应列中，则必须在插入语句中指定相同的列顺序。

场景 2：

当Carbon表中的列数与select语句中指定的列数不同时，插入操作将失败。以下插入操作将失败。

INSERT INTO TABLE carbon_table SELECT id, city FROM source_table;

场景 3：

carbon表中的列类型与select语句中指定的列不同时。插入操作仍然会成功，但是您可能会得到NULL，因为在转换类型失败时NULL将是替代值。

Q：为什么聚合查询没有从聚合表中获取数据？

A：以下是无法从汇总表中获取数据的汇总查询：

方案1：当查询中存在SubQuery谓词时。

create table gdp21(cntry smallint, gdp double, y_year date) stored by 'carbondata';

create datamap ag1 on table gdp21 using 'preaggregate' as select cntry, sum(gdp) from gdp21 group by cntry;

select ctry from pop1 where ctry in (select cntry from gdp21 group by cntry);

方案2：当聚合函数与" in"过滤器一起使用时。

create table gdp21(cntry smallint, gdp double, y_year date) stored by 'carbondata';

create datamap ag1 on table gdp21 using 'preaggregate' as select cntry, sum(gdp) from gdp21 group by cntry;

select cntry, sum(gdp) from gdp21 where cntry in (select ctry from pop1) group by c

方案3：当聚合函数具有" join"且过滤条件相等时。

create table gdp21(cntry smallint, gdp double, y_year date) stored by 'carbondata';

create datamap ag1 on table gdp21 using 'preaggregate' as select cntry, sum(gdp) from gdp21 group by cntry;

select cntry,sum(gdp) from gdp21,pop1 where cntry=ctry group by cntry;

Q：为什么即使在驱动程序端Dataload Command失败后，所有执行程序仍在Spark UI中显示成功？

A：在最大重试尝试次数后，Spark executor显示任务失败，但是加载具有不良记录的数据并将BAD_RECORDS_ACTION（carbon.bad.records.action）设置为" FAIL"将仅尝试一次，但会向驱动程序发送信号给失败而不是抛出异常重试，因为如果发现不良记录并且BAD_RECORDS_ACTION设置为失败，就没有重试的可能性。因此，Spark执行程序将这一尝试显示为成功，但是命令实际上执行失败。可以检查任务尝试或执行程序日志以观察失败原因。

Q：为什么查询SDK Writer输出时选择查询输出的时区结果不同？

A：SDK Writer是一个独立的实体，因此SDK Writer可以从具有不同时区的非群集计算机生成Carbondata文件。但是在群集中，当读取这些文件时，它总是占用群集时区。因此，时间戳记和日期数据类型字段的值不是原始值。如果要在写入时控制数据的时区，请通过调用以下API在SDK Writer中设置集群的时