利用命令行从youtube下载影片,并用huggingface的大语言模型翻译成中文

今天,从网络流媒体上下载字幕,并把它翻译成各种语言是一个非常常规的操作。

我创建了一个工作流程。可以根着这个工作流程,从网上先下载影片,然后转出字幕,最后再做翻译。

https://github.com/victorspaceRMW/download-Youtube-with-yt-dlp-and-translate-with-HuggingFace-s-whisper-model/tree/main

(1), 如何下载字幕?

在这里我们使用yt-dlp工具下载字幕和youtube视频:

https://wiki.archlinux.org/title/Yt-dlp#:\~:text=To get a list of the available formats%3A,(requires FFmpeg)%3A %24 yt-dlp -x -f bestaudio URL

你可以直接一次性的运行这个.sh文件,也可以一行一行的自己去执行。

bash 复制代码
#!/bin/bash

# 安装 yt-dlp
echo "安装 yt-dlp..."
pip install yt-dlp

# 安装 ffmpeg
echo "安装 ffmpeg..."
if ! command -v ffmpeg &> /dev/null
then
    echo "ffmpeg 未安装,正在安装..."
    sudo apt-get update
    sudo apt-get install -y ffmpeg
else
    echo "ffmpeg 已安装"
fi

# 下载 YouTube 视频
VIDEO_URL=$1
OUTPUT_FILE=$2

if [ -z "$VIDEO_URL" ] || [ -z "$OUTPUT_FILE" ]; then
    echo "用法: $0 <YouTube 视频 URL> <输出文件名>"
    exit 1
fi

echo "下载视频..."
yt-dlp -f bestvideo+bestaudio "$VIDEO_URL" -o "$OUTPUT_FILE"

echo "下载完成: $OUTPUT_FILE"

(2). 我写了两个脚本:

第一个是用于从 yt-dlp 下载好的文件里面提取出字幕的。也就是extract document.py

请参考该文件。里面有非常详细的注释。

第二个是利用hugging上的大模型来进行中英互译。

需要提前pip install transformer!

其他的参考translator.py即可。

相关推荐
澹锦汐2 小时前
Serverless 单兵作战:独立产品的云架构冷启动与免运维落地路线
人工智能
知识浅谈2 小时前
人工智能日报 每日AI新闻(2026年6月5日):ChatGPT记忆升级、AI基建与机器人应用同步升温
人工智能·chatgpt·机器人
搞科研的小刘选手2 小时前
【西安交通大学主办】第六届人工智能、自动化与高性能计算国际会议 (AIAHPC 2026)
网络·人工智能·机器学习·数据挖掘·自动化·云计算·并行式
黑巧克力可减脂2 小时前
慎御智能之变,方守数字安澜:AI Agent安全风险与全域防御体系
人工智能·安全
fuquxiaoguang2 小时前
AI 重塑网页抓取:技术革新、攻防边界与未来图景
人工智能·网页抓取
C++ 老炮儿的技术栈2 小时前
如何利用 OpenCV 将图像显示在对话框窗口上
c语言·c++·人工智能·qt·opencv·计算机视觉·github
在水一缸2 小时前
当开源硬件撞上闭源围墙:从 Flux.ai 律师函事件看 AI 时代的爬虫法律风险与技术边界
人工智能·爬虫·开源·开源硬件·数据合规·法律风险·flux.ai
冬奇Lab2 小时前
Agent 系列(14):Agent 可观测性——追踪每一步决策,让黑盒变透明
人工智能·llm·agent
澹锦汐2 小时前
AI 重构工作流:赋能独立开发快速迭代的研发效能革命
人工智能
装不满的克莱因瓶2 小时前
基于 Python 进行二维空间线性可分数据单/多层感知器实战
人工智能·python·深度学习·神经网络·ai·卷积