临近春节,正是辞旧迎新之际,我们从字节跳动不同技术团队们过去一年发布的文章中,精选出最值得一读的 23 篇,分享给各位。
希望与大家一同回看过去,展望龙年,愿我们都能收获更多技术成果和个人成长。
顶会成果
字节跳动提出高性能 transformer 推理库获 IPDPS 2023 最佳论文奖
该论文提出字节跳动的 GPU transformer 推理库------ ByteTransformer。针对自然语言处理常见的可变长输入,论文提出一套优化算法,在保证运算正确性前提下,成功避免传统实现中的冗余运算,实现了端到端推理过程的大幅优化。论文代码已开源。 (阅读原文)
字节跳动 CVPR 2023 论文精选来啦(内含一批图像生成新研究)
2023 年 CVPR 于六月在加拿大温哥华举办,字节跳动技术团队同学们收获的中选论文数量达到 20 篇。这些论文覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域,不少成果在所属领域达到 SOTA(当前最高水平)。本文将简介这些成果,并附上项目和论文地址。 (阅读原文)
VLDB 2023 | CDSBen: 字节跳动 veDB 数据库存储系统性能测试模型
本文提出了 CDSBen 模型,它利用机器学习方法,根据真实的数据库端到端事务 pattern 预测出对存储层的 IO pattern ,从而对存储系统实现真实、精准的 benchmark。相关文章《CDSBen: Benchmarking the Performance of Storage Services in Cloud-native Database System at ByteDance 》发表于 VLDB 2023 。 (阅读原文)
基于迁移学习的基础设施成本优化框架火山引擎数智平台与北京大学联合论文被 KDD 收录
由火山引擎数智平台,北京大学计算机学院和蒙特利尔学习算法研究所等单位合作的论文《 Rover: An online Spark SQL tuning service via generalized transfer learning 》已被 KDD 收录。在文中,研究者设计了一种结合机器学习方法与人类专家知识的基础设施成本优化框架,它以贝叶斯优化算法为基础,使用高斯过程作为代理模型学习配置参数集与任务成本/运行时长的关系,并通过可信赖的迁移学习机制,从人类专家知识编码中获得安全性和可解释性,并从相似的历史任务中获得额外的收敛加速特性。 (阅读原文)
BERT 在 CNN 上也能用?看看这篇 ICLR Spotlight 论文丨已开源
字节跳动技术团队提出的稀疏层次化掩码建模( Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling )已被人工智能顶会 ICLR 2023 收录为 Spotlight 焦点论文。在该文中,研究团队提出一种为卷积网络 (CNN) 量身定制的稀疏、多尺度的掩码建模算法 Spark ,它可被直接运用在任何卷积网络上,且无需对结构进行任何修改,或引入任何额外的组件。这是 BERT 在卷积神经网络 (CNN) 上的首次成功,论文和开源代码地址请在文中自取。 (阅读原文)
字节跳动水印技术论文入选 ACM 多媒体顶会
字节跳动产品安全-多媒体与 AI 安全团队的研究论文《Practical Deep Dispersed Watermarking with Synchronization and Fusion 》入选了多媒体领域国际顶会 ACM MM 2023 。论文提出基于深度学习的图像离散水印方案( DWSF ),该方案能有效提高图像水印在实际应用中的鲁棒性和隐蔽性,可促进深度图像水印技术在数字版权、内容可信和数据安全等防护体系建设中的作用。 (阅读原文)
演讲与分享
字节跳动杨震原:好的 AI 基础设施如何激发工程师创造力?
字节跳动杨震原在「火山引擎 2023 春季原动力大会」发表了《抖音的机器学习实践》主题演讲。具体内容中,杨震原介绍了公司内一些业务实践经验,总结并提取出三方面信息:(1)什么场景、什么情况下要用机器学习系统?(2)用机器学习会有什么样的挑战?(3)技术团队是怎么解决这些挑战的?本文详细呈现了演讲主要内容。 (阅读原文)
字节跳动李航:AI for Science 的一些探索和进展
近年 AI for Science 逐渐兴起并受到广泛关注,ByteDance Research 李航在本文介绍了团队近两年来取得的一些进展,涵盖机器学习和量子化学、大规模量子化学计算、AI 制药方向,抛砖引玉,也希望与业界进行更多的交流和合作。 (阅读原文)
应用落地
在字节跳动,造赛博古籍
在字节跳动与北京大学的合作之下,识典古籍官网(www.shidianguji.com/ )已经上线了 685 部古籍,当中包括双方参与设计与研发的《永乐大典》高清影像数据库,你可以登录官网或在今日头条古籍频道看到它们。古籍数字化,并非简简单单扫描一个古籍电子版放网上,其对技术能力要求很高。为此,字节跳动的程序员提供了很多有趣的解决方案,本文呈现了其中细节。 (阅读原文)
让文物"活"起来火山引擎视频云三维重建技术揭秘
《古籍寻游记》是字节跳动联合中国第一历史档案馆、敦煌研究院、甘肃简牍博物馆、国家图书馆(国家典籍博物馆)共同打造的古籍活化项目,还原古文献四大发现 ------ 殷墟甲骨、居延汉简、敦煌遗书、明清档案,让古籍以数字化的形式 "活"起来。该项目以 VR 互动纪录片为核心,依托火山引擎多媒体实验室最新的三维重建技术,复刻线下文物到虚拟场景中,并应用自研光场视频技术,采集并还原动态人物的光场信息,在 VR 场景中,提供高自由度的观看和交互体验。
本文重点介绍三维重建技术以及光场视频技术的原理、先进性及应用领域,帮助大家能更好了解和认识三维重建技术,助力相关技术在实际产品和应用中落地。 (阅读原文)
火山引擎首次采用视觉大模型修复经典老港片
抖音、火山引擎、中国电影资料馆共同发布"经典影像修复计划",将对 100 部香港经典老电影进行 4K 修复,还原老港片的绝代风华。火山引擎为该计划提供技术支持,并携手中国电影资料馆对电影进行" AI + 人工"精细化修复。首批完成影片包括《武状元苏乞儿》《 A 计划》《蜀山·新蜀山剑侠》。这是火山引擎首次将视觉大模型应用于老片修复场景,借助其强大的生成能力和丰富的先验知识,实现修复效果在清晰度、色彩、流畅度和瑕疵消除等方面的全方位提升。 (阅读原文)
字节跳动电商双 11 大促容量保障是如何做的?
Rhino 是字节跳动自研全链路容量评估产品,致力于构建完整的全链路容量评估解决方案(覆盖:容量预估->资源准备->数据准备->容量验证->监控->分析->决策->处理反馈);围绕容量在稳定性、成本、效率 三方面提供业务全方位基础支撑。Rhino 已经成为字节跳动各业务容量评估主流解决方案,并且历年来在业务大型活动稳定性保障中(抖音春节项目、电商 618 /双 11 大促等)均扮演关键角色。 (阅读原文)
抖音大型直播的画质优化实践
随着抖音内容生态不断丰富,越来越多大型赛事在该平台进行直播。卡塔尔世界杯期间,抖音提供的稳定高质直播画面为观众带来了完美的观赛体验,决赛的 PCU 高达 3700W+ 。不同赛事节目涉及链路众多,且不同赛事之间存在差异,如何保障各链路的画质稳定并进一步提升画质,本文介绍了相关应对方案。 (阅读原文)
不到 1 分钟,帮你剪完旅行 vlog火山引擎 AI「神器」真的这么绝?
火山引擎此前推出了「创意互动 vlog 」产品,你只需要进入景区时注册授权,AI 就会帮你拍摄游玩中的精彩画面,自动剪辑成旅行 vlog 。全程无需自己动手,无需费心选择拍摄地点,甚至不用纠结修图美颜,还没走出大门,就能获得一条可以直接发抖音的视频。本文介绍了该技术的实现过程。 (阅读原文)
每秒最高 1w+ 使用量,「 AI 绘画」成抖音年度爆款,背后技术秘籍现已公开
「 AI 绘画」一度是抖音最火的特效玩法,其峰值 QPS(每秒请求量)也高达 1.4w 的惊人水平。只要输入一张图片,AI 就会根据内容生成一张动漫风格的图片。如何保证用户实时体验,对技术链路提出了极高挑战,抖音是怎样做到的?这篇文章给出了答案。 (阅读原文)
开源项目
@开源爱好者,字节跳动这项技术,正式宣布开源了
ByConity 是字节跳动的云原生数据仓库,它采用计算-存储分离架构,支持多个关键功能特性,如计算存储分离、弹性扩缩容、租户资源隔离和数据读写的强一致性等。ByConity 利用主流的 OLAP 引擎优化,如列存储、向量化执行、MPP 执行、查询优化等,可以提供优异的读写性能。字节跳动已正式对外开源该项目,进入本文了解详情。 (阅读原文)
字节跳动宣布开源 KubeWharf一个实践驱动的云原生项目集
KubeWharf 是一套以 Kubernetes 为基础构建的分布式操作系统,由一组云原生组件构成,专注于提高系统的可扩展性、功能性、稳定性、可观测性、安全性等,以支持大规模多租集群、在离线混部、存储和机器学习云原生化等场景。目前,KubeWharf 已正式开源,本文介绍了该系统的详细情况。 (阅读原文)
字节跳动自研 Web 构建工具Rspack 正式发布
Rspack 由 ByteDance Web Infra 团队孵化,是基于 Rust 语言开发的 Web 构建工具,拥有高性能、兼容 Webpack 生态、定制性强等多种优点,解决了我们在业务场景中遇到的非常多问题,提升了很多开发者的体验。Rspack 已经正式开源,本文介绍了具体情况,文末附有相关链接 (阅读原文)
正式开源|火山引擎自研通用多媒体处理框架 BMF
BMF( Babit Multimedia Framework )通用多媒体处理框架,由火山引擎研发,能够提供简洁易用的跨语言接口、灵活的调度和扩展性,以模块化的方式动态扩展、管理和复用视频处理的原子能力,以 Graph/Pipeline 的方式构建高性能的多媒体处理链路或者以单独处理能力的直接调用实现工程集成,帮助多媒体用户便捷、高效地将项目落地于生产环境。该框架已经开源,团队希望以这种形式,帮助用户解决行业痛点,带来更多关注与反馈,不断提升公司技术影响力。 (阅读原文)
竞赛获奖
字节跳动基础架构 SRE-Copilot获得 2023 CCF 国际 AIOps 挑战赛冠军
2023 CCF 国际 AIOps 挑战赛决赛暨"大模型时代的 AIOps "研讨会在京举办,来自字节跳动基础架构 -SRE 团队的同学,以" SRE-Copilot :基于 LLM 的多场景智能运维"成果,获得本届大赛冠军,本文对该框架的技术性和创新性进行了介绍。 (阅读原文)
火山引擎 BVE 视频图片硬件编码器演进之路
第 17 届世界编码器大赛 MSU 2022 公布硬件编码器比赛结果,在 60 fps(帧率)超快视频编码赛道上,火山引擎多媒体实验室自主研发的 BVE 1.1 编码器获最佳 FPGA 编码器(各项指标大幅领先),并在所有硬件编码器中,技术指标获得一项第一和两项第二,技术能力达到行业领先水平。BVE 硬件编码方案设计充分考虑到了硬件方案的兼容性以及火山引擎转码服务流程,极大简化了硬件方案实现替代的难度。 (阅读原文)
助力 VR/AR 等复杂图像场景极致高清火山引擎夺得 NTIRE 大赛双料冠军
CVPR Workshop 下属的 NTIRE 2023 大赛结果公布,火山引擎多媒体实验室自研算法在双目超分双三次插值保真赛道和 360° 全景图像超分赛道上,获得双料冠军,技术能力达到行业领先水平。这两项技术方案可以帮助广大用户在多样化的复杂场景中获得更为清晰、精细的图像展现效果,有助于推动视频行业向着更加智能化、高效化的方向发展。本文介绍了相关技术的详情。 (阅读原文)
火山引擎获全国人工智能大赛 ---AI+ 视频质量评价冠军
火山引擎多媒体实验室提出的" Patch-based Multi-level Swin Transformer for High Resolution Video Quality Assessment "算法,在第 4 届全国人工智能大赛 NAIC 上,荣获 AI+ 视频质量评价赛道冠军。该算法表现优越,性能持续领跑,且能以极低的计算代价完成对超高清 PGC 视频的质量评价。本文介绍了该算法的突破点及实现方式。 (阅读原文)
------完------