【TDH社区版大事件】图分析、全文检索、小文件治理、数据开发工具通通都有!

星环科技大数据基础平台TDH社区版,在保留了商业版核心技术优势的基础上最大程度地降低了用户使用大数据技术的门槛与成本,具有更轻量、更简单、更易用等特性。

此次TDH社区开发版、社区版、社区订阅版均发布了新版本,带来新的产品组件和新的功能,为用户提供更为便利、简单、易用的大数据平台产品。

TDH社区开发版-新产品:单机版搜索引擎和图数据库

TDH社区开发版,仅需单台服务器即可一键安装部署,让众多开发爱好者可以0成本、低门槛快速的构建数据开发环境。此前,社区开发版包含Inceptor关系型分析引擎以及Hyperbase宽表数据库、向量数据库Hippo等组件,满足关系型数据分析、数据仓库、历史数据查询、在线检索等场景。

此次,TDH社区开发版正式推出Scope搜索引擎以及StellarDB图数据库,满足用户在多样化数据检索以及使用图模型探索数据关联关系等方面的需求。

在延续了社区开发版单机部署、简单易用等特性的基础上,新发布的两款产品还具有以下特性:

  • **搜索引擎Scope:**支持结构化、半结构化,及图片、音影、互联网数据等非结构化数据存储,提供海量数据的交互式多维检索分析服务,帮助用户快速实现日志收集分析、表单数据处理等场景以及搜索引擎、分析检索等应用开发;

  • **图数据库StellarDB:**提供高性能的图存储、计算、分析、查询和展示服务。支持原生图存储,具备 深度链路分析能力,提供丰富的图分析算法和深度图算法,帮助用户快速开发欺诈检测、推荐引擎、社交网络分析、知识图谱等应用。

TDH社区版-新功能:解决小文件、数据倾斜等问题

新功能1:海量小文件问题救星

随着每日增量数据的插入以及可能的数据重复插入,小文件数量与日俱增,导致长GC、OOM、集群不稳定,增加计算资源开支等一系列问题,因此小文件治理是必要的也是迫切的。

星环科技产品针对不同表格式均有对应的Compact机制,例如针对Holodesk表,用户可以使用Compact Service(小文件合并专用服务)进行小文件合并任务,该服务在组件级别做了隔离,开启后不会影响Quark的查询计算性能,合并效果更好。

开源产品普遍使用非事务存储格式,如RCFile、ORC等非事务表,合并小文件需要根据每一张表的数据量和分布手动编写任务进行重写来实现小文件合并,而在这个阶段,表无法对外提供服务,只能读不能写,相关业务受到影响。

星环科技采用了全新的技术,针对这个场景设计了新的算法,在任务运行过程中动态的执行小文件合并操作,能够确保在合并过程中Quark端的业务,包括表的读,写,删除等操作不被长时间阻塞,并成功执行不报错。

TDH社区版引入了企业版针对非事务表小文件治理的能力,社区版用户也可以高效治理集群内的小文件,无需担心因为处理不及时影响业务系统。

此外,社区版还引入了归档分区功能,针对一些较少访问及更改的历史数据及分区信息,用户可以选择跨分区进行合并,进一步减少存储开销、元数据管理开销以及任务调度开销。

新功能2:数据倾斜治理好帮手

数据倾斜是指在并行处理海量数据时,单个task上需要处理大量的数据,某些节点会比其他节点需要更长的时间运行才能完成数据计算,导致并行处理效率受到限制,也造成了空闲节点的资源浪费。通常可以采用针对倾斜的key单独处理或MapJoin等方式进行处理,但像MapJoin主要适用于大小表关联的情况。

社区版此次针对大表与大表之间进行关联场景新增了新的SkewJoin功能,能够智能地处理大表之间的连接操作,有效减少查询响应时间,可在一定程度缓解大表关联场景下的数据倾斜问题。

新功能3:全新Manager

Manager为所有核心组件提供统一的管理和运维能力,保障集群稳定运行。此次,Manager UI全新升级,结合新增的监控工具,提升了系统、节点、服务等的关键指标的易读性和易操作性,使数据洞察一目了然,助力用户快速把握全局态势。同时,针对超大集群下管理节点上下线、服务配置等操作实现了升级,性能提升了近10倍,大幅降低用户配置操作时间。

TDH社区订阅版---新产品:大数据开发工具TDS

在构建大数据平台的过程中,除了大数据基础平台本身,利用大数据开发套件高效实现数据集成和开发也是建设过程的关键。

星环科技大数据开发工具 Transwarp Data Studio (TDS)为企业提供了一站式统一的数据开发平台,各个套件可以支持多个场景的使用需求,如数据开发、数据治理或者综合性的数据中台等场景。针对更加细分的场景如任务流调度、血缘分析或数据资产门户等,TDS可以支持组件的灵活组合,提供更综合的能力服务。

此次TDH社区订阅版上架了TDS系列数据开发套件,提供了数据集成、SQL开发和任务调度等能力,帮助用户将数据归集到数据仓库和数据湖,可以更高效地完成数据统一化。

  • **数据库开发工具Waterdrop:**数据库管理工具,可以进行跨平台管理,可作为Inceptor SQL 客户端,还支持并兼容其余多种数据库,帮助用户实现数据库管理、SQL 编辑、SQL 执行和数据操作。

  • **任务调度软件Workflow:**帮助用户通过图形化的界面设计完整的业务流程、设置执行时间、定义任务之间的依赖关系,并自动调度所设流程,允许取消超时任务、重试错误任务等来提供任务可靠性,能够支持日均百万级任务的分布式调度系统。

  • **大数据整合工具Transporter:**将分散于各个地方、各种平台上的各种格式的数据同步或集成到大数据平台上,通过简洁、统一的可视化 界面快速配置数据流转流程,实现异构平台和数据源之间的数据流转。

  • **数据库在线开发与协同工具SQLBooK:**提供了 SQL 的编辑、智能 提示、编译、调试和可视化结果展现等的开发功能,还提供 SQL 审核、版本管理、数据源管理等管理能力,可以帮助开发者即插即用地做数据探索与开发。

相关推荐
河南查新信息技术研究院3 天前
科技查新对专利申请有什么帮助?
大数据·科技·全文检索
小殊小殊4 天前
Ubuntu搭建ES8集群+加密通讯+https访问
java·ubuntu·elasticsearch·全文检索
大G哥5 天前
使用 Elasticsearch 查询和数据同步的实现方法
大数据·elasticsearch·搜索引擎·oracle·全文检索
跳动的喵尾巴5 天前
知网研学 | 知网文献(CAJ+PDF)批量下载
论文阅读·pdf·全文检索
运维&陈同学6 天前
【Elasticsearch04】企业级日志分析系统ELK之Elasticsearch 插件
大数据·运维·后端·elk·elasticsearch·搜索引擎·全文检索·哈希算法
Elastic 中国社区官方博客6 天前
Elasticsearch:使用 Open Crawler 和 semantic text 进行语义搜索
大数据·数据库·人工智能·爬虫·elasticsearch·搜索引擎·全文检索
河南查新信息技术研究院7 天前
进行科技查新对避免重复申请专利有何帮助?
数据库·科技·全文检索
Java 第一深情7 天前
分布式全文检索引擎ElasticSearch-数据的写入存储底层原理
分布式·elasticsearch·全文检索
运维&陈同学7 天前
【Elasticsearch03】企业级日志分析系统ELK之Elasticsearch访问与优化
大数据·elk·elasticsearch·搜索引擎·云原生·全文检索·高可用
Java 第一深情8 天前
分布式全文检索引擎ElasticSearch-文档的CRUD原理
分布式·elasticsearch·全文检索