数据仓库相关内容分享

文章目录

etl

kettle

各个版本集成包下载:https://sourceforge.net/projects/pentaho/files/Data Integration/

kettle 中文网:http://www.kettle.net.cn/kettle

本地解压在:D:\迅雷下载\pdi-ce-9.0.0.0-423\data-integration

kettle连接数据库后,数据库自动创建使用kettle所需要的表结构

如何添加新用户

点击工具=》资源库=》探索资源

选择【安全】=》添加用户=》填写账号密码保存

linux 安装

http://www.kettle.net.cn/1884.html

kattle通过Carte远程调度

复制代码
# 将Carte服务打开
Carte.bat pwd/carte-config-master-8080.xml
# 打开后的web服务:http://127.0.0.1:8080/kettle/status/
# 默认用户名/密码:cluster/cluster

还需要将spoon连接到Carte服务:

  1. spoon 转换-转换1-右键子服务器-new
  2. spoon 转换-转换1-右键Run configurations-new 选择slave server

转换常用环节

demo:https://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply2.html

命令行

https://www.cnblogs.com/limengqiang/archive/2013/01/17/KettleApply3.html

http://www.kettle.net.cn/1349.html

复制代码
当job是存放在资源库(一般资源库都使用数据库)中时,使用Kitchen.bat执行job时,需使用如下的命令行:
Kitchen.bat /rep kettle /user admin /pass admin /job job名

当job没有存放在资源库而存放在文件系统时,使用Kitchen.bat执行job时,需使用如下的命令行:
Kitchen.bat /norep /file user-transfer-job.kjb

日志

资源库里有一个叫r_LOG的表。真正的日志设置是在转换属性里的设置。

在/var/spoon/mail/root文件中会记得所有例行性任务的日志信息,cat /var/spoon/mail/用户名,可以查看到所有相关的例行性任务执行的日志信息

Kettle之效率提升

  1. 数据库查询和流查询注意使用环境

    因为数据库查询为数据输入端输入一条记录,就对目标表进行一次查询,而流查询则是将目标表读取到内存中,数据输入端输入数据时,对内从进行查询,所以,当输入端为大数据量,而被查询表数据量较小(几百条记录),则可以使用流查询,毕竟将目标表读到内存中,查询的速度会有非常大的提升。同理,对于目标表是大数据量,还是建议使用数据库查询

  2. 谨慎使用javascript脚本,因为javascript本身效率就不高

  3. 数据库commit次数

  4. 表输入的sql语句的写法

  5. 注意日志输出,例如选择数据库更新方式,而且日志级别是debug,那么后台就会拼命的输出日志,会在很大程度上影响速度

KETTLE JAVA API

http://www.kettle.net.cn/1414.html

GreenPlum

官网:https://greenplum.org/

https://www.cnblogs.com/biterror/p/6909872.html

相关推荐
草莓熊Lotso20 分钟前
Vibe Coding 时代:LangChain 与 LangGraph 全链路解析
linux·运维·服务器·数据库·人工智能·mysql·langchain
zh1570236 小时前
JavaScript中WorkerThreads解决服务端计算瓶颈
jvm·数据库·python
代码AI弗森6 小时前
一文理清楚“算力申请 / 成本测算 / 并发评估”
java·服务器·数据库
摇滚侠7 小时前
expdp 查看帮助
java·数据库·oracle
流年似水~7 小时前
MCP协议实战:从零搭建一个让Claude能“看见“数据库的工具服务
数据库·人工智能·程序人生·ai·ai编程
2401_871492857 小时前
Vue.js监听器watch利用回调函数处理级联下拉框数据联动
jvm·数据库·python
志栋智能7 小时前
超自动化安全:构建智能安全运营的核心引擎
大数据·运维·服务器·数据库·安全·自动化·产品运营
zhoutongsheng8 小时前
C#怎么实现Swagger文档 C#如何在ASP.NET Core中集成Swagger自动生成API文档【框架】
jvm·数据库·python
WinterKay9 小时前
【开源】我写了一个轻量级本地数据库浏览工具,支持 MySQL/Redis 只读查询
数据库·mysql·开源
zxrhhm10 小时前
Oracle 索引完整指南
数据库·oracle