引言
在数据驱动的时代,如何有效地利用大数据已经成为了各个行业的重要课题。而随着云计算、人工智能等新兴技术的蓬勃发展,数据技术也随之不断生长并呈现出新的趋势与特点,企业该如何把握数据技术的新脉络,从而洞察数据背后的价值?
2023 年 8 月 19 日,由腾讯云 TVP 主办的第八届 Techo TVP 开发者峰会------ "数据驱动智能,智能赋能未来"圆满落下帷幕,本届峰会聚集了 6 位来自数据技术行业的领袖和专家,围绕数据技术的最新进展、方向趋势、创新应用进行了精彩分享及深入交流,为广大开发者提供思想和实践的启示。
主持人开场
▲《明说三人行》创始人、腾讯云TVP卢东明开场致辞
本次峰会由腾讯云 TVP 卢东明老师担任主持人,卢东明也是专注于大数据及 AI 领域的访谈栏目《明说三人行》的创始人兼主持人,被人称为"明叔"。峰会伊始,明叔借用英国著名小说家狄更斯在《双城记》中的经典语录做了开场:这是中国数据技术最好的时代,也是最坏的时代。这是中国历史上数据库和大数据技术发展周期最繁荣的时刻,但眼花缭乱的技术体系和不断更迭的产品,也为开发者和企业带来了前所未有的挑战。面对众多的数据库技术该如何选择,又该如何组合来应对不同的目标,是企业和开发者们需要去思考和厘清的重要议题。
AI全民化下数据平台的四大趋势
▲《精益数据方法论》作者&创始人、腾讯云TVP史凯演讲
《精益数据方法论》作者&创始人、腾讯云 TVP 史凯老师带来了《AI 全民化下数据平台的四大趋势》的主题分享。
史老师指出我们正在由"数据全民化"快速迈入"AI 全民化"时代,在数据全民化的时代,所有人都能够被数据所赋能,通过对数据的运用和分析获得实时的反馈与洞见。而随着 ChatGPT 的出现,AI 全民化的时代正在迅速到来。在未来,人工智能将普惠每一个人,同时也将给企业数据平台带来巨大挑战,即无限增长的数据应用需求,与有限割裂的数据生产力之间的矛盾。但大模型的出现,给予了数据人员新的想象空间,大家都寄希望于 AI 技术能够帮助数据生产、数据分析,并加速数据源到价值的产生。
为此,史老师提出了数据平台未来发展的四大趋势:
- 数据平台价值显性化,随着企业对于数据的投资越来越大,更多的企业希望数据能够直接为业务产生价值,这对于数据平台也带来了新的挑战,那就是如何将数据平台的价值直接关联到业务价值;
- 数据平台架构现代化,数据平台将朝着融合分析、易用、可信、去中心化的方向发展,以 Data Fabric/Data Mesh 等为代表的新数据架构实践正在逐渐兴起;
- AIGC 赋能的数据价值链,数据平台将融合 AIGC 的新技术消除企业数据生产价值链里的浪费;
- AIGC 能力平台化、服务化,AIGC 将成为企业随用随调的能力,一般的企业不需要搭建自己的大模型,而应关注如何融合大模型的能力深化数据的价值挖掘。
分享最后,史凯老师为大家总结了一句话:"数字化转型源于问题,始于业务,成于数据,落于场景,量于价值,终于组织。"无论数据平台如何演进,如何从业务中成长,用数据灌溉,在场景中落地,并最终呈现业务价值,推动企业的整体数字化才是企业关注的核心命题。
兼具成本和易用---腾讯云ES云原生Serverless演进之路
▲ 腾讯云ES研发总监高攀演讲
从技术畅想,回归企业数据治理的现实情况,在粗放型增长向集约型增长转变的今天,如何降本增效,提高数据效能,是企业和开发者关注的重心。腾讯云 ES 研发总监高攀老师分享了《兼具成本和易用------腾讯云 ES 云原生 Serverless 演进之路》。
高攀老师介绍道,腾讯云 ES 是在腾讯云云原生一站式的全托管的 ELKB 服务,基于开源 ES,围绕成本、性能、稳定性、扩展性等方面进行自研内核改造,实现成本下降 50~80%,查询性能提升 3~10 倍,写入性能提升 2 倍,SLA 到 99.99%,扩展性提升 10 倍以上。
腾讯云大数据 ES 的服务场景非常丰富,日志是其中最常见、规模最大的场景,由于日志价值密度相对较低,但规模通常较大,因此企业在日志场景下的关注重点在于成本控制,因此腾讯云大数据 ES 围绕成本进行了大量优化改进,通过链路集成、索引自治、存算分离等技术大幅降低接入成本、运维成本、资源成本。
成本问题迎刃而解,高攀老师还希望在易用性上持续提升,为用户提供一项一站式的大数据分析服务。虽然各厂商基于最底层的 ES 内核,提供了 PaaS 化的 ES 服务,但用户在集群创建、数据链路配置、索引生命周期管理等运维工作上仍需耗费精力。因此他和团队在腾讯云 PaaS 版 ES 服务的基础上加以改进,推出了不需要关心集群和节点,免运维的 Serverless ES 服务。在成本上,也进一步做了优化, Serverless 区别于原来 PaaS 服务按节点的计费形式,将依据写入量和查询量收费,真正做到按需收费。在稳定性上,采用集群索引后台统一运维调优的方式,避免因使用不当造成的故障,同时也 100% 兼容开源 ES API,100% 兼容 ELK 生态。
构建企业级实时数仓:基于Apache Doris打造稳定可靠的数据仓库 TCHouse-D
▲ 腾讯云Doris研发技术负责人李德演讲
Apache Doris 是 ASF 知名的开源数仓项目,并以其简单易用灵活的优势收获了不少开发者的青睐。腾讯云 Doris 研发技术负责人、Apache Doris 社区 PMC 李德老师,为大家带来了题为《构建企业级实时数仓:基于 Apache Doris 打造稳定可靠的数据仓库 TCHouse-D》的分享。
分享伊始,李德老师先向大家简要介绍了腾讯云大数据 TCHouse-D,TCHouse-D是腾讯云基于 Apache Doris 打造的实时数据仓库服务,100% 兼容 Apache Doris,兼容 MySQL 协议,支持并发、多维分析、交互式分析、实时数仓,湖仓联邦分析等多种业务场景,简单易用,弹性伸缩,安全可靠,生态兼容、功能全面。随即,李德老师分享了他对企业级实时可更新数仓的理解:
- 实时写入和增删改查,数据可以实时和批量写入、增删改查实时可见,可以对接 Flink、Kafka 等实时系统;
- 实时同步数据变化,支持整库同步和增量同步,流式写入背压自动调速,表结构变更实时无阻塞自动同步;
- 企业级稳定可靠,认证、权限和审计功能完备,监控、告警、巡检完善,全托管服务,读写高可用。
TCHouse-D 正是基于上述标准严格设计的,在保障实时写入和增删改查上,借鉴了Google Mesa 的预聚合模型,存储引擎通过类似 LSM 的数据结构提供快速的数据导入支持。在实时同步上,MySQL Binlog 能够实时同步,整库增量,segment 变更都能实现自动同步,另外有两阶段提交,能够实现 Exactly Once 语义。作为云上产品,TCHouse-D 在稳定性上的投入毋庸置疑,支持运维和用户两级告警体系、定时巡检、实时写入背压自动限流,还有 Tablet 和 Compaction 健康检查。除此之外,基于角色的权限体系、白名单、元数据双备份等机制设计也为服务的安全可靠保驾护航。
伴随着大家的期待,李德老师分享了 TCHouse-D 未来的规划和展望:冷热分层、计算节点、跨集群同步复制、存算分离等功能正在研发中,有望在今年 Q4 或明年初与大家见面。
DataOps探索:Apache十大DataOps顶级项目选型分析
▲ Apache Software Foundation Member、腾讯云TVP郭炜演讲
在大数据领域,企业往往关注数据提取和高效挖掘的结果,但对数据从产生、存储、整合、流转、再产生的闭环流程的探索却浅尝辄止。Apache Software Foundation Member、腾讯云 TVP 郭炜老师进行了《DataOps 探索:Apache 十大 DataOps 顶级项目选型分析》的主题分享。
为了帮助大家更直观地了解 DataOps,郭老师将其精炼地总结为:把数据存到库里,构建仪表盘,整合到数据湖建立数据模型,然后做挖掘,最后再到预测结果并重新产生新数据的这一整个闭环流程。Gartner 曾经在 2019 年把 IT 技术分为了 IT 工匠、IT 工业化、IT 数字化 3 个时代。而郭老师提出,随着 AI 技术的突飞猛进和大模型的出现,我们正面临第四个时代 ------ IT 智能化时代,DataOps 也将随之呈现从 BI 到 AI 的发展趋势。随后,郭老师对 Apache SeaTunnel、 Apache Airflow、Apache DolphinScheduler、Apache Nifi 等 ASF 十个比较流行的 DataOps 开源项目进行了详细的介绍与选型分析,以进一步帮助企业和开发者量体裁衣,找到适合项目从而顺利打造出公司自己的 DataOps 平台。
而说到大家都感兴趣的大模型与 DataOps 的碰撞以及未来的趋势,郭老师表示,企业通过开源大模型重新训练自己的模型是大势所趋,并用一段《用一杯星巴克的钱,训练自己私有化的 ChatGPT》的案例视频,生动地展示训练大模型的可行性。而 DataOps 的最终目标就是让数据生成更加快速,大模型和 DataOps 的结合更是每个公司、每位个体都应该大胆去尝试的事情。
最后,郭老师带领大家共同展望,Ops 的本质是提高人和人的效率,提高业务和技术的效率,提高设计和研发的效率,提高不同水平人之间的效率,相信在 DataOps 领域,也将出现"类 ChatGPT"应用,让大家通过自然语言的方式了解数据。
腾讯云智能存储在AIGC场景的架构与落地实践
▲腾讯云智能存储研发负责人王淼演讲
当下,AIGC 作为大模型一个重要的应用场景,受到众多行业追捧,有机构预测 AIGC 场景未来会在 5-10 年成为万亿市场。来自腾讯云的智能存储研发负责人 王淼老师也向我们分享了《腾讯云智能存储在 AIGC 场景的架构与落地实践》,详细介绍了腾讯云智能储存的技术架构与主要能力,以及在 AIGC 场景下能够帮助企业解决的针对性难题。
王淼老师首先详细介绍了智能存储系统在接入层、逻辑处理层、数据处理层、存储层,以及底层基础服务的技术架构。随后王淼老师总结了 AIGC 场景的核心要素,即内容生成、内容安全、内容智理,围绕这三个核心要素,结合 AIGC 场景涉及到的所有流程,从数据采集、数据预处理、特征工程、模型训练,到推理应用,内容审核、内容智理,腾讯云提供了端到端的智能存储解决方案。
在腾讯云智能存储解决方案中,COS 作为数据湖的统一存储底座,在对带宽诉求强烈的数据训练阶段,提供了数据加速器 GooseFS 和 GooseFSx,通过分布式的换成加速服务,丰富的协议支持,可以极大地提升数据读写效率和接入的便利。在内容安全上,腾讯云将基于数据万象丰富的内容审核能力,结合 AIGC 的特殊场景,提供了从输入到输出,通过定制化模型提供一体化的存储内容安全方案,另外面对版权保护问题,王淼老师也详细介绍了数据万象数字水印功能的技术原理:通过离散傅里叶变换算法,将图片、视频帧进行频域/时域的转换,在转换过程中嵌入数字水印信息,以达到隐藏水印,保护数字产品的版权的效果。此外,AIGC 的产物,必然有分发的场景,腾讯云智能存储还提供了极智压缩服务,可以在不改变图片格式的前提下,对 JPG、PNG 图片提供 50% 以上的体积压缩,极大程度节省分发流量。
最后,王淼老师分享了一个专注文生图领域的客户案例,腾讯云智能存储团队通过协助客户在训练节点部署 GooseFS,构建了 TB/s 的吞吐能力,大幅提升了训练效率,提高了客户的模型迭代效率。随着业务上线,面对海量请求和 AIGC 产物,客户通过数据万象的 AIGC 自动审核功能,每日审核文本&图片数千万次,完美解决了内容安全问题。在分发图片的时候,通过 AVIF 自适应、极智压缩搭配结合,针对不同平台智能分发体积最小的图片,降低了 50% 的图片下载带宽,节省了运营成本,提高了访问速度。
圆桌对话环节
▲圆桌对话环节
在干货满满的大咖分享环节结束之后,接踵而至的是本届峰会特别策划的圆桌环节。与以往不同的是,本次圆桌讨论在明叔的主持下以辩论的形式开展,史凯、高攀、李德、郭炜、王淼五位嘉宾围绕议题各抒己见,输出自己的不同观点与独到见解,几乎在每个问题上都出现了正反两方观点的碰撞,一时间精彩纷呈,观众们大呼过瘾的同时也学习到了大咖们思辨的精神。
AI全民化的时代到来,大数据是否会更繁荣?
史凯、高攀及王淼三位老师持正方立场,他们均认为 AI 会让未来各行各业变得更加繁荣,数据量更会急剧增加,未来市场对大数据的算力、效率等方面都会有更高的要求,这也将进一步推动技术更新,促进大数据往更高的层次发展。
而李德老师则持相反意见,他在提问"操作系统在 20 年前火还是现在更火"后,表达了自己的观点,他认为当 AI 真正迭代到极度成熟时,数据库和大数据会藏在应用的背后,大家对数据库或大数据的需求量可能会降低。郭炜老师也赞成李德老师的观点,他相信在未来,大数据会成为基础设施,真正所有的业务逻辑将由 AI 大模型来做。
主持人明叔也分享了自己的观点,在他看来,我们对数据的理解和探索还不够深入,随着 AI 的发展,数据需求也在发生变化,在未来很可能会出现新的数据类型或者数据特征,在那个时候的数据工程师可能要解决全新的挑战。从测试(Test)到大文本(Text),再到图片(Image),再到视频(Video)是一个演进,视频(Video)后边是什么,想象空间非常大。
中国数据技术未来发展的成功路径是"大而全"还是"小而美"?
王淼老师倾向于小而美,他认为一些垂直场景的公司具备足够深入的专业领域知识,在和大数据技术做结合后,可以快速响应一些垂直领域的需求。同时他也建议小而美的公司能够站在巨人的肩膀上,底层技术上可以考虑使用开源技术或云服务,聚焦精力和资源快速把自己的产品推出来。高攀老师则认为该议题属于分工问题,小而美专注自身领域深入挖掘,做好自身产品,再和大公司合作;大而全的云厂商则应做好整合,为客户提供整套的解决方案。
郭炜、史凯、李德老师认为大而全更好。郭炜老师提出,甲方企业的需求是多元化的,20% 的企业选择用小而美的单一工具自己组装,而 80% 的公司可能更依赖一站式的解决方案。史凯老师表示,在如今的激烈的市场环境下,不做大而全的公司可能会面临生存问题,甲乙方之间对于技术和业务目标的认知存在信息差,作为数据库产品公司,需宣称自己大而全,强调自身产品的优势,才能提升行业认知度。李德老师持相似观点,在他看来小而美是理想愿景,大而全是现实路径。如果从商业成功的角度来看,产品的定位和营销很重要,很多小而美公司在定位和宣传上不如大而全的公司可以做到家喻户晓。
明叔则表示,小而美的公司是创新的根源,他期望看到小而美的公司成功,但大而全的公司在整合资源与成本控制上更有优势,综合目前的商业环境来看,大而全的公司更可能成功。
在多兵器时代,帮助开发者提升战斗力的"兵器"是什么?
高攀老师从兵器角度分享了自己的建议,技术产品虽然纷繁复杂,但开发者只要根据自身场景需要,在每个领域选择一个备受认可的产品深入研究即可,比如离线场景的 Spark、TP 场景的 MySQL、PG,AP 场景的 ES、Doris 都可以,剩下的产品可以举一反三。
史凯老师认为越是在技术满天飞的时代,越要守住核心能力,因此史老师提出了作为开发者需要具备的三个重要的能力:学习能力、逻辑能力、沟通能力。学习能力保障更快成长,逻辑能力帮助更好地解决问题,沟通能力能打造非常好的氛围、环境,让自己走得更远更稳更快。
李德老师也分享了三项能力:一是利用工具的能力,比如通过 ChatGPT、成熟"轮子"等工具或组件完成业务需求;二是参与开源,利用开源代码去学习研究可以更快进步;最后是总结能力,总结是逼迫自己思考的过程,善于总结可以提升自己的思考维度。
参与开源也是郭炜老师对开发者的建议之一,除此之外,郭炜老师提醒开发者要重视大模型,尤其私有化的模型在辅助编程上的表现会超出预期。其次,是否深入理解对业务流程与需求往往是区分优秀的程序员和一般程序员的标准。进阶优秀开发者,一定不能光会写代码,而要理解业务,参与业务流程,从而更好地掌控业务需求。
王淼老师着重强调了开发者需要有经营意识,在架构设计、技术选型的时候,用经营的意识去权衡投入产出比,去决策事情该不该做,该投入多少资源去做,这是开发者更进一步成为综合性人才非常需要具备的素质。
最后,主持人明叔为参会者们总结了三个字的建议:异、理、说。"异"既是差异的异,也是变异的异,在同质化严重的当下,开发者一定要求异,观察市场变化,抓住机遇,才能在下一个轮回里抢占先机;"理"是理解力,理解一个系统,理解一个业务会愈加重要;而"说"代表说服力,真正成功的开发者最后往往在带领团队,在此路径上说服力必不可少。
结语
▲ 峰会现场
观大咖共话,晓数字未来,至此,本届峰会也正式落下帷幕。峰会中 6 位专家就数据技术的最新进展和未来趋势敞开思想、深入交流,不仅带来了数据技术的趋势展望,也分享了可落地的实践经验。
未来,腾讯云 TVP 将始终与时俱进,秉持"用科技影响世界"的初心,持续为开发者打造"最有料、有趣、且有用"的开发者峰会,让我们共同期待下一次 Techo TVP 开发者峰会的到来。