ASR+LLM:B站学习视屏下载并生成学习笔记

文章目录

一、背景

bilibili当前有越来越多高质量的教学视频,但是B站上没有直接下载视频的按钮,以及视频资料不利于复现回归,所以最好整理成笔记方便后续回顾。本文介绍一种B站视频下载、音频提取、使用ASR将音频转成文字,并且利用LLM大语言模型将文本生成学习笔记。

二、bilibili下载姬

B站视频下载,这里推荐开源工具bilibili下载姬,源码链接如下:

https://github.com/leiurayer/downkyi

下载v1.6版本的可执行文件,downkyi是基于aria工具实现。


三、ffmpeg提取音频

mp4文件可能比较大,我们仅仅需要提取音频即可,使用ffmpeg工具提取音频mp3文件。

复制代码
# 使用原始码率
ffmpeg -i input.mp4 -codec:a libmp3lame output.mp3

可以指定码率,一般不需要

复制代码
ffmpeg -i input.mp4 -vn -acodec libmp3lame -ar 44100 -ac 2 -ab 192k output.mp3

对于语音识别ASR模型,可能音频文件太大,需要截取音频长度,使用如下命令:

复制代码
ffmpeg -i input.mp3 -ss 00:00:10 -t 00:00:20 output.mp3
  • -ss 00:00:10:设置开始时间为 10 秒。
  • -t 00:00:20:设置持续时间为 20 秒。

四、在线音频提取文字ASR

ASR模型是用于语音识别的,这里推荐一款在线ASR工具进行语音转文字网站,注意该网站生成的文本是没有标点符号的。

https://tools.orionstar.qa/audio/

五、使用LLM 进行整理笔记

最后一步使用LLM对上述生成的文本进行整合,并形成正式文档,补充标点符号,注意不要改变原文意思。这里prompt如下,使用任意LLM大语言模型即可。

复制代码
我这里有一份没有标点符号的学习草稿文件,请在不改变原文意思的情况下帮忙整理成一份条例清晰的正式文档,以markdown形式输出,不要进行内容延展,仅进行格式整合。

六、参考链接

https://zhuanlan.zhihu.com/p/124293184

相关推荐
nuowenyadelunwen2 小时前
Stanford CS336 Assignment 1: BPE Tokenizer
llm·bpe tokenizer·stanford cs336
农场主John5 小时前
Accelerate_deepspeed使用
pytorch·llm·deepspeed
组合缺一6 小时前
论 AI Skills 分布式发展的必然性:从单体智能到“云端大脑”的跃迁
java·人工智能·分布式·llm·mcp·skills
小哈里7 小时前
【计算】Ray框架介绍,AI基础设施之“通用”分布式计算(跨场景,门槛低,大规模生产,单机->集群->推理一站式)
人工智能·大模型·llm·分布式计算·ray
山顶夕景1 天前
【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR
大模型·llm·ocr·多模态
玄同7651 天前
LangChain 核心组件全解析:构建大模型应用的 “乐高积木”
人工智能·python·语言模型·langchain·llm·nlp·知识图谱
亚里随笔1 天前
相对优势估计存在偏差——揭示群体相对强化学习中的系统性偏差问题
人工智能·深度学习·机器学习·llm·agentic·rlvr
带刺的坐椅1 天前
论 AI Skills 分布式发展的必然性:从单体智能到“云端大脑”的跃迁
java·ai·llm·mcp·tool-call·skills
新农仓1 天前
5分钟部署Paraformer语音识别,离线转写带Gradio界面超简单
语音识别·gradio·asr·paraformer
sulikey1 天前
B站网页端弹幕屏蔽词正则表达式
正则表达式·bilibili·哔哩哔哩·屏蔽弹幕