PDF2Audio

简介

PDF2Audio是一个开源项目，旨在将 PDF 文件转换为音频格式，例如播客、讲座或摘要。该项目使用 Openai 的 GPT 模型进行文本生成和文本到语音 (TTS) 转换。用户可以上传多个PDF文件并根据不同的模板生成音频内容（例如播客、讲座、摘要）。

PDF2Audio的特点：

支持多个PDF文件上传：用户可以同时上传多个PDF文件，并批量处理文档。

多种模板可供选择：根据用户需求，支持生成不同类型的音频内容。模板包括播客、讲座、摘要和其他不同的场景。

定制生成模型：用户可以自定义GPT模型和文本转语音（TTS）模型来生成满足特定需求的音频内容。

不同的语音选项：支持多种语音风格和音色的选择，为生成的音频提供不同的听觉体验。

如何使用PDF2Audio？

上传一个或多个 PDF 文件。

选择所需的模板（例如播客、讲座或摘要）。

选择型号并输入API KEY

自定义构建参数，例如选择音色或调整构建指令。

单击“生成音频”，应用程序将处理文档并生成音频文件。

GitHub： https://github.com/lamm-mit/PDF2Audio

在线体验： https ://huggingface.co/spaces/lamm-mit/PDF2Audio