利用命令行从youtube下载影片,并用huggingface的大语言模型翻译成中文

今天,从网络流媒体上下载字幕,并把它翻译成各种语言是一个非常常规的操作。

我创建了一个工作流程。可以根着这个工作流程,从网上先下载影片,然后转出字幕,最后再做翻译。

https://github.com/victorspaceRMW/download-Youtube-with-yt-dlp-and-translate-with-HuggingFace-s-whisper-model/tree/main

(1), 如何下载字幕?

在这里我们使用yt-dlp工具下载字幕和youtube视频:

https://wiki.archlinux.org/title/Yt-dlp#:\~:text=To get a list of the available formats%3A,(requires FFmpeg)%3A %24 yt-dlp -x -f bestaudio URL

你可以直接一次性的运行这个.sh文件,也可以一行一行的自己去执行。

bash 复制代码
#!/bin/bash

# 安装 yt-dlp
echo "安装 yt-dlp..."
pip install yt-dlp

# 安装 ffmpeg
echo "安装 ffmpeg..."
if ! command -v ffmpeg &> /dev/null
then
    echo "ffmpeg 未安装,正在安装..."
    sudo apt-get update
    sudo apt-get install -y ffmpeg
else
    echo "ffmpeg 已安装"
fi

# 下载 YouTube 视频
VIDEO_URL=$1
OUTPUT_FILE=$2

if [ -z "$VIDEO_URL" ] || [ -z "$OUTPUT_FILE" ]; then
    echo "用法: $0 <YouTube 视频 URL> <输出文件名>"
    exit 1
fi

echo "下载视频..."
yt-dlp -f bestvideo+bestaudio "$VIDEO_URL" -o "$OUTPUT_FILE"

echo "下载完成: $OUTPUT_FILE"

(2). 我写了两个脚本:

第一个是用于从 yt-dlp 下载好的文件里面提取出字幕的。也就是extract document.py

请参考该文件。里面有非常详细的注释。

第二个是利用hugging上的大模型来进行中英互译。

需要提前pip install transformer!

其他的参考translator.py即可。

相关推荐
DeepVis Research1 分钟前
【Autonomous Driving/Sim】2026年度自动驾驶极端场景与车辆动力学仿真基准索引 (Benchmark Index)
人工智能·物联网·机器学习·自动驾驶·数据集
xixixi7777717 分钟前
SoC芯片本质——“系统级集成”
人工智能·机器学习·架构·pc·soc·集成·芯片
lisw0522 分钟前
工程软件化概述!
人工智能·科技·机器学习
咕咚-萌西28 分钟前
Agent和workflow
人工智能
大模型RAG和Agent技术实践44 分钟前
SQL Agent从“黑盒“到“全透明“:基于LangGraph+Phoenix的可观测性实战指南
数据库·人工智能·sql·agent·langgraph
GEO AI搜索优化助手1 小时前
边界、伦理与未来形态——GEO革命的深远影响与终极思考
人工智能·搜索引擎·生成式引擎优化·ai优化·geo搜索优化
低调小一1 小时前
Agent Skills 入门:把“公司 SOP + 工具脚本”封装成可复用技能,让 Agent 真正在你团队里干活(并对比 MCP)
人工智能
环黄金线HHJX.1 小时前
【拼音字母量子编程语言AiPQL】
开发语言·ide·人工智能·算法·编辑器·量子计算
程序员学习Chat1 小时前
计算机视觉Transformer-3 自监督模型
人工智能·计算机视觉·transformer·自监督学习
张彦峰ZYF1 小时前
一场技术范式的持续演进:快速掌握大模型基础
人工智能·快速掌握大模型基础·ai 技术范式的转变