AI炼丹日志-28 - Audiblez 将你的电子书epub转换为音频mp3 做有声书

点一下关注吧!!!非常感谢!!持续更新!!!

🚀 大模型与Java双线更新中!

目前《大语言模型实战》已连载至第22篇,探索 MCP 自动操作 Figma+Cursor 实现智能原型设计,持续打造实用AI工具指南!📐🤖

💻 Java篇正式开启!(300篇)

MyBatis 已完结,Spring 正在火热更新中,深入浅出助你打牢基础!

📊 大数据板块已完成多项干货更新(300篇):

包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈!

Audiblez

官方地址

https://github.com/santinic/audiblez

项目介绍

下面是项目组对项目的介绍:

● Audiblez 是一个工具,它可以将普通的 .epub 电子书转换成 .m4b 格式的有声书,使用的是名为 -Kokoro 的高质量语音合成技术。

● Kokoro-82M 是最近发布的一个文本转语音(Text-to-Speech, TTS)模型,参数量仅有 8200 万(82M),但生成的语音听起来非常自然。这个模型是以 Apache 许可证 开源发布的,并且它的训练数据量少于 100 小时的音频。目前支持的语言包括:英语(美式 🇺🇸、英式 🇬🇧)、西班牙语 🇪🇸、法语 🇫🇷、印地语 🇮🇳、意大利语 🇮🇹、日语 🇯🇵、葡萄牙语(巴西)🇧🇷、中文 🇨🇳。

● 在 Google Colab 上,使用 T4 GPU + CUDA,转换乔治·奥威尔的《动物农庄》(约 16 万字符)为有声书大约需要 5 分钟,速度大约是每秒 600 字符。

● 而在我自己的 M2 MacBook Pro(CPU 上运行) 上,则需要 1 小时,转换速度约为每秒 60 字符。

核心功能

  • 多语言支持:支持英语(美式和英式)、西班牙语、法语、印地语、意大利语、日语、葡萄牙语(巴西)和中文(普通话)等多种语言。
  • 语音选择:用户可通过 -v 参数选择不同的语音,例如 af_sky 表示美式英语女性声音。
  • 语速调节:通过 -s 参数调整语速,范围从 0.5 到 2.0。
  • GPU 加速:支持 CUDA,可在支持的 GPU 上加速音频生成。
  • 章节选择:使用 --pick 参数可交互式选择要转换的章节。
  • 图形界面:提供基于 wxWidgets 的跨平台 GUI,适用于 macOS、Windows 和 Linux。

性能表现

  • GPU 加速:在 Google Colab 的 T4 GPU 上,转换《动物农庄》(约 16 万字符)仅需约 5 分钟,速度约为 600 字符/秒。
  • CPU 模式:在 M2 MacBook Pro 上,转换同一本书约需 1 小时,速度约为 60 字符/秒。

环境配置

MacOS

我这里是在MacOS上,所以我们需要安装一些依赖

shell 复制代码
brew install ffmpeg espeak-ng
pip install audiblez

brew 安装依赖:

pip 安装依赖:

Ubuntu

shell 复制代码
sudo apt install ffmpeg espeak-ng
pip install audiblez

这里略过,就不在 Ubuntu 上跑了。

测试使用

我们准备一个文件:rpc.epub

指令模式

shell 复制代码
audiblez rpc.epub -v zf_xiaoyi

转换开始,要耐心等待一会儿:

我在 MacBook Pro M1 上跑的,需要等待很久···

最终成品如下所示:

UI模式

shell 复制代码
sudo apt install ffmpeg espeak-ng 
# just for Ubuntu/Debian 🐧, Windows/Mac don't need this
sudo apt install libgtk-3-dev

安装下面的依赖:

shell 复制代码
pip install audiblez pillow wxpython

执行指令:

shell 复制代码
audiblez-ui

语言支持

支持的如下所示

支持的语音示例

Audiblez 提供多种语音选项,涵盖多种语言和性别。例如:

  • 美式英语:af_sky(女性)、am_michael(男性)
  • 英式英语:bf_emma(女性)、bm_george(男性)
  • 西班牙语:ef_dora(女性)、em_alex(男性)
  • 法语:ff_siwis(女性)
  • 中文(普通话):zf_xiaoxiao(女性)、zm_yunxi(男性)

常见问题与解决方案

  • 章节识别问题:部分用户反馈某些 .epub 文件的章节未被正确识别。开发者已在 v0.1.7 版本中修复了该问题。
  • 中文段落截断:在处理中文文本时,超过 200 个字符的段落可能会被截断为 120-130 个字符。开发者正在积极解决此问题。
  • Windows 安装问题:建议在 Windows 上使用 Python 虚拟环境,并确保安装了必要的依赖项,如 ffmpeg 和 espeak-ng。
相关推荐
shangjian0071 小时前
AI大模型-评价指标-相关术语
人工智能·算法
江河地笑1 小时前
opencv、cmake、vcpkg
人工智能·opencv·计算机视觉
海边夕阳20062 小时前
【每天一个AI小知识】:什么是卷积神经网络?
人工智能·经验分享·深度学习·神经网络·机器学习·cnn
Live&&learn2 小时前
算法训练-数据结构
数据结构·算法·leetcode
一只会写代码的猫2 小时前
可持续发展中的绿色科技:推动未来的环保创新
大数据·人工智能
胡萝卜3.03 小时前
掌握C++ map:高效键值对操作指南
开发语言·数据结构·c++·人工智能·map
松岛雾奈.2303 小时前
机器学习--PCA降维算法
人工智能·算法·机器学习
5***79003 小时前
机器学习社区机器学习社区:推动技术进步与创新的引擎
人工智能·机器学习
物联网软硬件开发-轨物科技4 小时前
【轨物交流】海盐县组织部调研轨物科技 深化产学研用协同创新
人工智能·科技
Olafur_zbj4 小时前
【AI】矩阵、向量与乘法
人工智能·线性代数·矩阵