我写了个脚本，让AI每天自动看完热榜、写稿、配乐，还用我的声音读出来

我曾有过一个"播客梦"。每天花半小时，聊聊科技圈的新鲜事，分享点不成熟的思考。然后我发现，这半小时的背后，是2小时的选题、3小时的撰稿和录音、以及剪辑到深夜的崩溃。梦想，卒。

直到最近，我开始琢磨：如果我把这个"梦想"外包出去呢？不，不是外包给人类，而是外包给一堆AI模型和一个无情的Python脚本。

所以，这篇文章不是教你怎么入门播客，市面上已经有太多优秀的教程了。这篇文章，我们要搞的是：

全自动内容工厂™

是的，你没看错。我们的目标是创建一个躺在服务器里的"数字劳工"，它每天早上醒来，自动完成选题、撰稿、录音、配乐、合成的全过程，然后把一期崭新的、带着你声音的播客文件，恭恭敬敬地放到你的文件夹里。

听起来有点疯狂？那就对了。

"所有伟大的事情在发生之前，看起来都是不可能的。" - 当然是鲁迅说的

另外，友情提示：这个项目不会让你的钱包好过。你需要用到几个不同的API，每个API都像一个吞金兽。但为了科学和懒惰，有些牺牲是值得的。

让我们开始吧。

一个播客的起点是内容。我们的数字劳工得知道今天该聊什么。与其让它漫无目的地思考，不如让它去互联网的"市集"上看看大家都在讨论什么。Hacker News是个不错的选择。

第一步：自动化选题和撰稿

这个想法很简单：

用一个脚本去爬取Hacker News的头条新闻。
把这些标题扔给一个强大的语言模型（我用的是Claude 4.0 Sonnet，因为它便宜又大碗，而且写作风格很不错）。
给它一个精心设计的Prompt，让它扮演一个播客主持人。

这里的关键是Prompt。你不能只说"给我写个稿"，而是要像驯兽一样引导它：

"你是一位风趣幽默的科技播客主持人，叫'赛博'。请根据以下Hacker News热点标题，撰写一期5分钟左右的播客口播稿。风格要轻松、口语化，多用短句，可以适当加入一些自嘲和吐槽。这是今天的标题：[...这里插入爬来的标题...]。请直接输出稿件，存为script.txt。"

然后，我们用一个简单的Python脚本实现这个过程：

python 复制代码

# podcast_factory.py - Part 1: The Writer

import requests
from bs4 import BeautifulSoup
import anthropic

# --- 配置你的API Key ---
ANTHROPIC_API_KEY = "sk-ant-..." 
client = anthropic.Anthropic(api_key=ANTHROPIC_API_KEY)

def get_hacker_news_headlines():
    # 伪代码：实际需要用requests和BeautifulSoup实现
    print("正在抓取Hacker News热点...")
    # ...爬虫逻辑...
    headlines = ["AI model can now generate full-length movies", "New JavaScript framework 'Chaos.js' released", "Why developers are quitting their jobs"]
    return headlines

def write_the_script(headlines):
    print("AI正在奋笔疾书...")
    prompt = f"""你是一位风趣幽默的科技播客主持人，叫'赛博'。请根据以下Hacker News热点标题，撰写一期5分钟左右的播客口播稿。风格要轻松、口语化，多用短句，可以适当加入一些自嘲和吐槽。这是今天的标题：{', '.join(headlines)}。请直接输出稿件。"""
    
    message = client.messages.create(
        model="claude-3-5-sonnet-20240620",
        max_tokens=2000,
        messages=[
            {"role": "user", "content": prompt}
        ]
    ).content[0].text
    
    with open("script.txt", "w") as f:
        f.write(message)
    print("稿件《script.txt》已生成！")

# --- 执行 ---
headlines = get_hacker_news_headlines()
write_the_script(headlines)

现在，我们有了一份热气腾腾的稿件。它可能不是普利策奖水平，但作为一个每日更新的谈资，足够了。

稿件有了，但冰冷的文字没有灵魂。我们需要一个声音，一个属于"我"的声音。这就是声音克隆AI登场的时候了。我选择的是ElevenLabs，因为它克隆出的声音简直能以假乱真。

第二步：用"我"的声音朗读

你需要先去ElevenLabs网站，花几分钟录制一小段你的声音来克隆一个"你"。然后，拿到你的API Key，把权力交给脚本。

python 复制代码

# podcast_factory.py - Part 2: The Voice

import requests

# --- 配置 ---
ELEVENLABS_API_KEY = "YOUR_ELEVENLABS_KEY"
VOICE_ID = "YOUR_CLONED_VOICE_ID" # 你克隆声音的ID

def generate_voiceover():
    print("正在生成你的声音克隆...")
    with open("script.txt", "r") as f:
        text = f.read()
        
    url = f"https://api.elevenlabs.io/v1/text-to-speech/{VOICE_ID}"
    headers = {
        "Accept": "audio/mpeg",
        "Content-Type": "application/json",
        "xi-api-key": ELEVENLABS_API_KEY
    }
    data = {
        "text": text,
        "model_id": "eleven_multilingual_v2",
        "voice_settings": {
            "stability": 0.5,
            "similarity_boost": 0.75
        }
    }
    
    response = requests.post(url, json=data, headers=headers)
    with open("voiceover.mp3", "wb") as f:
        f.write(response.content)
    print("你的声音文件《voiceover.mp3》已就绪！")

# --- 执行 ---
generate_voiceover()

现在，听听voiceover.mp3。那个熟悉又陌生的声音，正在头头是道地分析着你几分钟前才从网上爬来的新闻。是不是有点毛骨悚然的酷？

纯人声的播客太干了。我们需要一点"氛围感"，一点BGM。但是找配乐比写稿还麻烦，版权问题更是头疼。所以，为什么不让AI也把这事儿给办了？

第三步：AI即兴创作BGM

Suno AI是这个领域的王者。你只需要告诉它你想要什么感觉的音乐。

这个过程的API调用相对复杂，我们在这里简化一下思路：脚本可以根据稿件内容提取关键词（比如"科技、未来、轻松"），然后拼接成一个Prompt，再调用Suno的API（如果API доступна and easy to use）或者手动生成。

我们假设已经有了一个自动化的流程，它能根据Prompt："A lo-fi synthwave beat, good for a tech news podcast, chill but focused, instrumental" 生成一段2分钟的背景音乐，并保存为bgm.mp3。

现在，我们桌上有了两份食材：voiceover.mp3 和 bgm.mp3。

最后一步，也是最关键的一步：把所有东西缝合起来。这就要请出我们开发者的老朋友：ffmpeg。它就像一个数字世界的瑞士军刀，无所不能。

第四步：自动化混音与合成

我们需要一条ffmpeg命令，它能做到：

将人声作为主音轨。
将BGM作为背景音轨，并将其音量降低，以免盖过人声。
如果BGM比人声短，就循环播放BGM。
输出最终的播客文件。

bash 复制代码

# a simple shell script to finalize the podcast
ffmpeg -i voiceover.mp3 -stream_loop -1 -i bgm.mp3 -filter_complex "[1:a]volume=0.15[b];[0:a][b]amix=inputs=2:duration=first" -c:a libmp3lame final_podcast.mp3

这条命令看起来像咒语，但它的确能创造奇迹。运行它，一个名为final_podcast.mp3的文件就诞生了。

更进一步？生成视频！ 如果你还想把它发布到视频平台，可以再加一步，用ffmpeg把音频和一张封面图合成一个视频。

bash 复制代码

# add a cover image and a simple waveform visual
ffmpeg -i final_podcast.mp3 -loop 1 -i cover_image.png -filter_complex "[0:a]showwaves=s=1280x200:mode=line:colors=White[sw];[1:v]scale=1280:720,setsar=1[bg];[bg][sw]overlay=0:500" -c:v libx264 -c:a aac -shortest final_podcast.mp4

现在，你拥有了一个带动态声波的视频文件。

我们做到了什么？我们用一堆API和一个脚本，创造了一个全自动的内容机器。把它放到一个服务器上，设置一个cron定时任务，它就能每天雷打不动地为你生产内容。

这玩意儿有用吗？

说实话，它生成的播客，离自媒体自由还差十万八千里。AI的声音没有真正的情感波动，稿件的逻辑可能有点跳跃，配乐和内容的结合也全凭运气。

但这不是重点。

重点是，整个创意工作流，从0到1，被完全代码化了。这意味着它可以被迭代、被优化、被扩展。

下一步，我们可以加入多个AI声音，模拟嘉宾访谈吗？
我们可以让AI分析听众评论，来决定下一期的选题吗？
我们可以让AI自动生成摘要、标题和社交媒体文案吗？

答案是，都可以。我们不再是内容的"创作者"，而是内容"生产线"的设计师。

这趟狂野的旅程或许有点不切实际，但希望它能让你脑中的某个齿轮开始转动。AI的真正潜力，不在于替代我们做重复性的单点任务，而在于赋予我们重塑整个创造流程的、近乎上帝的力量。

现在，我要去听听我的数字分身今天又给我录了什么新节目。