文献学习-33-一个用于生成手术视频摘要的python库

VideoSum: A Python Library for Surgical Video Summarization

Authors: Luis C. Garcia-Peraza-Herrera, Sebastien Ourselin, and Tom Vercauteren

Source: https://arxiv.org/pdf/2303.10173.pdf

这篇文章主要关注的是如何通过视频摘要来简化和可视化手术视频,以便于数据标注和处理。在这篇文章中,作者提出了一个名为videosum的Python库,可以用来生成手术视频的摘要图片(storyboard)。摘要图片是通过将视频分为一系列表示视频帧的代表图片来创建的。

图1:视频总和时间法制作的手术视频的基线故事板。拼贴下方的条形图代表视频的长度。颜色表示视频帧的簇标签,黑色竖条是关键帧。通过时间方法将视频分割成均匀的时间段。

背景:深度学习算法的表现受到数据的质量和量的影响,但在手术数据科学领域,有限的标注数据使得这一点成为挑战。因此,大量的研究努力在这一领域提出了方法来缓解这一问题。同时,越来越多的计算助手手术数据集正在被发布,尽管该领域的数据规模仍然有限。数据挖掘因此成为许多手术数据科学研究的关键部分。手术视频数据集的处理和可视化是非常挑战性的,因为手术视频的平均时长为130.45分钟。

贡献:这篇文章的贡献包括:

  1. 提出了一种易于使用且开源的Python库videosum,可以生成手术视频的摘要图片。

  2. 介绍了videosum中四种不同的方法来生成摘要图片:时间、inception、uid三、scda。

  3. 提供了如何评估不同方法的方法,即使用Frechet Inception Distance(FID)来比较摘要图片与原始视频之间的分布接近程度。

内容:文章详细描述了每个方法的工作原理,以及它们在不同手术视频上的表现。例如,在inception方法中,每个帧的表示通过使用InceptionV3预训练的深度神经网络得到,并使用该网络的2048元稳定向量作为距离度量。在uid方法中,InceptionV3的稳定向量仍然用于帧的表示,但是采用2-Wasserstein距离作为聚类的度量。在scda方法中,表示帧的方法和距离度量与[5]中提出的方法相同,但是采用INCEPTION的低分辨率稳定向量作为表示图像的描述,并使用2-norm作为聚类的度量。

Reference

1\] Garcia-Peraza, L. C., Ourselin, S., \& Vercauteren, T. (2023, July). VideoSum: A Python Library for Surgical Video Summarization. In *Conference on New Technologies for Computer and Robot Assisted Surgery 2023*.

相关推荐
PhotonixBay8 分钟前
共聚焦显微镜的结构组成与应用
人工智能·算法·机器学习
大傻^14 分钟前
Spring AI Alibaba Function Calling:外部工具集成与业务函数注册
java·人工智能·后端·spring·springai·springaialibaba
傻啦嘿哟15 分钟前
Python 操作 Excel 条件格式指南
开发语言·python·excel
SuniaWang15 分钟前
《Spring AI + 大模型全栈实战》学习手册系列 · 专题四:《Ollama 模型管理与调优:让 AI 模型在低配服务器上流畅运行》
人工智能·学习·spring
逆境不可逃15 分钟前
LeetCode 热题 100 之 33. 搜索旋转排序数组 153. 寻找旋转排序数组中的最小值 4. 寻找两个正序数组的中位数
java·开发语言·数据结构·算法·leetcode·职场和发展
2301_8073671916 分钟前
Python日志记录(Logging)最佳实践
jvm·数据库·python
却道天凉_好个秋24 分钟前
音视频学习(九十四):NACK和RTX
音视频·nack·rtcp·rtx
anscos_yumi25 分钟前
Altair OptiStruct:重构结构研发逻辑,引领工业仿真与优化新纪元
人工智能·科技·软件工程
2301_7957417927 分钟前
构建一个基于命令行的待办事项应用
jvm·数据库·python
星空下的月光影子29 分钟前
易语言开发从入门到精通:进阶篇·数据处理与分析自动化·高频刚需手工转自动场景全覆盖
开发语言