Chatterbox-TTS-Extended：文本转语音增强版，功能更强大，更易用 (附安装及使用指南)-🎉数字奇遇🎉

图片[1]-Chatterbox-TTS-Extended：文本转语音增强版，功能更强大，更易用 (附安装及使用指南)-🎉数字奇遇🎉

Chatterbox-TTS-Extended 是一个改进版的文本转语音 (TTS) 工具，它在原版 Chatterbox TTS 的基础上进行了多项增强，旨在提供更强大、更灵活、更易于使用的 TTS 体验。尤其适合需要批量处理文本，并对音频质量有较高要求的用户。

**核心功能与特点：**

* **文本文件输入：** 支持直接读取文本文件作为输入，方便批量处理。工具会将文本分割成句子，逐句处理，并将生成的音频片段拼接成一个完整的音频文件。
* **输出目录指定：** 生成的音频文件将保存到 “outputs” 文件夹，方便管理和查找。
* **水印去除选项：** 允许用户选择禁用音频水印，提供更干净的音频输出。
* **音频格式选择：** 支持多种音频输出格式，包括 WAV、MP3 和 FLAC，满足不同场景的需求。
* **智能静音消除：** 利用 auto-editor 工具，自动去除音频中过长的静音或低音部分，减少噪音和伪影，提升音频质量。同时，可以选择保留原始未剪辑的 WAV 文件。
* **文本预处理：** 对输入文本进行标准化处理，包括：
* 将 “J.R.R.” 风格的输入转换为 “J R R”。
* 将输入文本转换为小写。
* 规范空格，移除多余的换行符和空格。
* **音频标准化：** 使用 FFmpeg 对音频进行响度标准化处理，提供 ebu 和 peak 两种方法，确保音频的音量一致性。
* **多代输出：** 允许用户通过设置随机种子生成多代音频，方便寻找最佳效果。该功能尤其适用于希望通过实验找到最合适的语音风格的用户。
* **句子批量处理：** 支持句子批量处理，一次最多处理 300 个字符，提高效率。
* **智能追加短句：** 在禁用批量处理的情况下，能够智能地将短句追加到一起，优化音频效果。
* **转录验证：** 生成音频片段后，会将其转录回文本，验证音频内容是否与原始文本一致。如果不一致，则重新生成，最多尝试 3 次，确保音频的准确性。
* **多样本选择：** 允许用户设置每个音频片段生成多个样本，然后选择最短且通过转录测试的样本，进一步提升音频质量。
* **转录测试旁路：** 用户可以选择绕过转录测试，加快处理速度。
* **单样本生成：** 通过设置 “Number of Candidates Per Sentence” 为 1，可以禁用多样本生成，直接生成一个样本。

**安装与使用：**

1. **克隆代码仓库：**
`git clone https://github.com/petermg/Chatterbox-TTS-Extended`
2. **安装依赖：**
`pip install -r requirements.txt`
如果安装失败，尝试以下命令：
`pip install -r requirements.base.with.versions.txt`
如果仍然失败，尝试：
`pip install -r requirements_frozen.txt`
3. **运行程序：**
`python Chatter.py`
4. **FFmpeg 依赖：** 确保已安装 FFmpeg。如果未将其添加到系统路径，请将其放置在与 `Chatter.py` 脚本相同的目录中。

**总结：**

Chatterbox-TTS-Extended 通过一系列的增强功能，显著提升了文本转语音的质量和效率。无论是需要批量生成高质量音频，还是希望对音频进行精细控制，它都是一个值得尝试的工具。

**SEO关键词：** 文本转语音, TTS, Chatterbox TTS, 音频生成, 语音合成

**相关标签：** 语音技术, 人工智能, 音频处理

petermg/Chatterbox-TTS-Extended: Modified version of Chatterbox that accepts text files as input and no character restrictions
https://github.com/petermg/Chatterbox-TTS-Extended

文章版权归作者所有，未经允许请勿转载。

THE END