Voice-Pro

最佳AI语音识别、翻译和多语言配音解决方案 🚀

🎙️ 为语音识别、翻译和配音设计的AI驱动网络应用程序

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中，为创作者、研究人员和多语言专家提供理想的解决方案。

🔊 顶级语音识别: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
🎤 零样本语音克隆: F5-TTS, E2-TTS, CosyVoice
📢 多语言文本转语音: Edge-TTS, kokoro (付费版包括 Azure TTS)
🎥 YouTube处理与音频提取: yt-dlp
🌍 超过100种语言的即时翻译: Deep-Translator (付费版包括 Azure Translator)

作为ElevenLabs的强大替代方案，Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。

⚠️ 请注意

从v2.x升级到v3.x: 不可能。我们建议删除installer_files文件夹并运行最新版本的start.bat。
从v3.x升级到v3.x: 可以。下载最新代码后，运行update.bat。
首次用户: 请参阅下面的安装说明。
故障排除: 在大多数情况下，删除installer_files文件夹，然后依次运行configure.bat和start.bat即可解决问题。
🎁 免费激活密钥请求: 请填写此Google 表单以获取您的激活密钥。激活密钥每个电子邮件地址限领一个。
🏆 额外激活密钥请求: 使用Voice-Pro创建精彩内容。请在中分享您的帖子链接。我们将乐意奖励您的贡献。

📰 新闻与历史

version 3.1

🪄 支持 F5-TTS 的微调模型
🌍 支持的语言
- English & Chinese: SWivid/F5-TTS_v1
- Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
- French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
- Hindi: SPRINGLab/F5-Hindi-24KHz
- Italian: alien79/F5-TTS-italian
- Japanese: Jmica/F5TTS/JA_21999120
- Russian: hotstone228/F5-TTS-Russian
- Spanish: jpgallegoar/F5-Spanish

版本 3.0

🔥 AI Cover功能已移除。
🚀 添加了对m-bain/whisperX的支持。

版本 2.0

🐍 使用Python 3.10.15、Torch 2.5.1+cu124和Gradio 5.14.0构建。
🆓 免费试用支持最长60秒的媒体。
🔥 添加了AI Cover功能。
🎤 引入了对CosyVoice和kokoro的支持。
⏳ 首次运行时下载CozyVoice2-0.5B (9GB)，根据网络速度可能需要超过1小时。
🎧 用于语音克隆的语音样本将持续更新。
📝 添加了spaCy以实现自然逐句翻译和TTS。
☁️ 订阅版本包括Microsoft Azure的翻译和TTS。
🏪 订阅版本在订阅期间提供无限制使用（无60秒限制），可通过购买。

🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

⭐ 主要功能

1. 配音工作室

YouTube视频下载与音频提取
使用Demucs进行声音分离
支持100多种语言的语音识别与翻译

2. 语音技术

语音转文本: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
文本转语音:
- Edge-TTS: 100多种语言，400多种声音
- E2-TTS, F5-TTS, CosyVoice: 零样本克隆
- kokoro: 在HuggingFace TTS竞技场中排名第2

3. 实时翻译

即时语音识别
实时多语言翻译
可定制的音频输入

🤖 网页界面

`配音工作室`标签页

集成中心：YouTube下载、降噪、字幕、翻译、TTS
支持所有ffmpeg兼容格式
输出选项：WAV、FLAC、MP3
支持100多种语言的字幕和识别
可调节TTS的速度、音量、音调

`Whisper字幕`标签页

专用字幕：90多种语言
视频集成字幕显示
单词级高亮和降噪选项

`翻译`标签页

100多种语言翻译
支持字幕文件（ASS、SSA、SRT等）
实时语音识别和翻译

`语音生成`标签页

选项：Edge-TTS、F5-TTS、CosyVoice、kokoro
使用名人声音制作播客和多语言支持

🎤✨ 参考声音

请在Issues页面上请求想添加的声音。Issues

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

💻 系统要求

操作系统： Windows 10/11（64位）※不支持Linux/Mac
显卡： 支持CUDA 12.4的NVIDIA显卡（推荐）
显存： 4GB以上（推荐8GB以上）
内存： 4GB以上
存储： 20GB以上可用空间
网络： 必需

📀 安装

使用configure.bat和start.bat轻松安装Voice-Pro。

1. 准备包

从下载最新发布版本（Source code (zip)）

git clone https://github.com/abus-aikorea/voice-pro.git

2. 安装和运行

🚀 configure.bat
- 安装git、ffmpeg、CUDA（使用NVIDIA GPU时）
- 首次运行一次；需要网络，可能需要1小时以上
- 不要关闭命令窗口
🚀 start.bat
- 运行Voice-Pro网页界面
- 首次运行时安装依赖（可能需要1小时以上）
- 如果出现问题，删除installer_files后重新运行

3. 更新

🚀 update.bat：更新Python环境（比重新安装更快）

4. 卸载

运行uninstall.bat或删除文件夹（便携式安装）

❓使用技巧

浏览器没有自动启动时

关闭Windows命令窗口，重新运行start.bat，或
直接启动浏览器，在地址栏输入Windows命令窗口显示的地址（例如**http://127.0.0.1:7870**）

出现CUDA内存不足错误时

在Windows任务管理器-性能标签中检查GPU内存状态
将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存
将计算类型设置为int类型。float类型质量更好但需要更多GPU内存

如何提高字幕质量？

字幕质量通常随着使用更大的Whisper模型而提高，但并不总是如此。large > medium > small > base > tiny
在计算类型中，float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度，但性能较差
提高降噪级别可以更多地去除背景音，只将剩余的语音用于语音识别。但不总是能保证更好的结果

🚨 通知

此存储库提供 Voice-Pro 的免费试用版。
Voice-Pro 的免费试用版允许您处理长达 60 秒的媒体。
订阅版本支持 Microsoft Azure TTS 和 Translator。请在上购买。

	Trial Version	☕Contributor Version	Subscription Version
Media Length Limit	60 seconds	Unlimited	Unlimited
Translation Service	Google Translate (Open Source)	Google Translate (Open Source)	Azure Translate (Microsoft)
Text-to-Speech Service	Edge TTS (Open Source)	Edge TTS (Open Source)	Azure TTS (Microsoft)

⏳ 用于字幕制作、翻译和TTS的SaaS平台

下表列出了支持字幕制作、翻译和文本转语音（TTS/配音）功能的SaaS平台。成本基于2025年4月15日的最新定价数据，计算包括处理60分钟韩语视频的字幕生成、英语翻译和英语配音。

平台	字幕制作	翻译	TTS/配音	60分钟视频处理成本 (美元, 约)	主要功能
Maestra	✅	✅	✅	$23.70	支持125+语言，实时字幕，SEO关键词提取，15分钟免费试用。
Kapwing	✅	✅	✅	$30~$40 (Pro计划，按分钟)	AI字幕，100+语言翻译，自动唇同步配音，提供免费层。
VEED.IO	✅	✅	❌	$24~$36 (Pro计划，部分处理)	99.9%准确字幕，Instagram优化字幕，直观编辑器。
HappyScribe	✅	✅	✅	$36~$48 (按需付费)	120+语言，专业校对选项，安全，会议转录。
Sonix	✅	✅	✅	$30~$40 (Standard计划)	54+语言，30分钟免费转录，YouTube/Zoom集成。
Descript	✅	✅	✅	$36~$48 (Creator计划)	文本编辑，Overdub TTS，填充词移除，1小时免费转录。
AppTek	✅	✅	✅	定制定价 (联系)	媒体专用，定制模型，元数据生成，基于云的Workbench。
Transkriptor	✅	✅	❌	$12~$18 (按需付费)	100+语言，YouTube链接转录，99%准确度，简单编辑器。

成本计算详情

Maestra: Premium计划 ($158/月，1200积分)。60分钟视频：字幕60积分 + 翻译60积分 + 配音60积分 = 180积分。成本 = (180/1200) * $158 = $23.70。
Kapwing: Pro计划 (~$24/月，分钟限制)。字幕+翻译+配音每分钟$0.50~$0.67估算（基于分钟定价趋势）。60分钟成本：$30~$40。需确认准确价格。
VEED.IO: Pro计划 (~$24/月)。字幕+翻译每分钟$0.40~$0.60估算。无TTS，部分处理。60分钟成本：$24~$36。请在veed.io确认。
HappyScribe: 按需付费 (转录每分钟~$0.20，翻译$0.20，配音$0.20)。60分钟成本：$36~$48（假设组合服务）。请在happyscribe.com确认。
Sonix: Standard计划 (转录每小时~$10，翻译/配音额外)。总计每分钟$0.50~$0.67估算。60分钟成本：$30~$40。请在sonix.ai确认。
Descript: Creator计划 (~$24/月，时间限制)。字幕+翻译+配音每分钟$0.60~$0.80估算。60分钟成本：$36~$48。请在descript.com确认。
AppTek: 企业定制定价。无公开分钟费率。请联系apptek.ai获取报价。
Transkriptor: 按需付费 (转录每分钟$0.05~$0.10，翻译类似)。无TTS，部分处理。60分钟成本：$12~$18。请在transkriptor.com确认。

备注

60分钟视频处理成本: 成本为处理60分钟韩语视频的字幕、英语翻译和英语配音（若可用）的近似值。无TTS的平台（例：VEED.IO、Transkriptor）反映部分处理成本。
语言支持: 大多数平台支持韩语和英语。具体语言支持请在各网站确认。
使用场景:
- 媒体/娱乐: AppTek, Maestra
- 社交媒体: Kapwing, VEED.IO
- 播客/访谈: Sonix, Descript
- 在线学习/全球内容: Transkriptor, HappyScribe
价格更新: 因计划变更或促销，价格可能有所变动。请在官方网站查看最新信息。
如需贡献或推荐特定使用场景，请在此仓库中提交问题或拉取请求！

☕ 贡献

您好，我是Voice-Pro团队的戴维。我们的团队致力于发掘业内顶尖的人工智能技术，并提供给所有人，让大家都能轻松便捷地使用。我们是一家刚成立一年的韩国小型创业公司。我们努力工作，旨在帮助您和其他创作者制作出色的内容。

您的⭐⭐⭐⭐⭐评价对我们的业务与您共同成长至关重要，我们对此深表感谢。请您支持我们这个小团队。

谢谢， ABUS客户服务

如果您想参与并帮助我们进行此项目，请随时创建一个 Issues。
如果出现问题，请提交一个 Pull requests 以改进此项目。
欢迎任何类型的贡献。
有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询，请通过电子邮件 (abus.aikorea@gmail.com) 与我们联系。
如果您喜欢这个项目，请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐
您可以在这里通过捐赠支持 Voice-Pro：

📬 联系方式

Email: abus.aikorea@gmail.com
Homepage (Korean): https://abuskorea.imweb.me
付费版本购买: Shopify (Global), Naver (Korean)

🙏 鸣谢

Demucs: https://github.com/facebookresearch/demucs
yt-dlp: https://github.com/yt-dlp/yt-dlp
gradio: https://github.com/gradio-app/gradio
edge-TTS: https://github.com/rany2/edge-tts
F5-TTS: https://github.com/SWivid/F5-TTS.git
openai-whisper: https://github.com/openai/whisper
faster-whisper: https://github.com/SYSTRAN/faster-whisper
whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
whisperX: https://github.com/m-bain/whisperX
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
kokoro: https://github.com/hexgrad/kokoro
Deep-Translator: https://github.com/nidhaloff/deep-translator
spaCy: https://github.com/explosion/spaCy

©️ 版权信息

by ABUS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.zh.md

README.zh.md

Voice-Pro

🎙️ 为语音识别、翻译和配音设计的AI驱动网络应用程序

⚠️ 请注意

📰 新闻与历史

🎥 YouTube Showcase

⭐ 主要功能

1. 配音工作室

2. 语音技术

3. 实时翻译

🤖 网页界面

`配音工作室`标签页

`Whisper字幕`标签页

`翻译`标签页

`语音生成`标签页

🎤✨ 参考声音

💻 系统要求

📀 安装

1. 准备包

2. 安装和运行

3. 更新

4. 卸载

❓使用技巧

浏览器没有自动启动时

出现CUDA内存不足错误时

如何提高字幕质量？

🚨 通知

⏳ 用于字幕制作、翻译和TTS的SaaS平台

成本计算详情

备注

☕ 贡献

📬 联系方式

🙏 鸣谢

©️ 版权信息

Files

README.zh.md

Latest commit

History

README.zh.md

File metadata and controls

Voice-Pro

🎙️ 为语音识别、翻译和配音设计的AI驱动网络应用程序

⚠️ 请注意

📰 新闻与历史

🎥 YouTube Showcase

⭐ 主要功能

1. 配音工作室

2. 语音技术

3. 实时翻译

🤖 网页界面

配音工作室标签页

Whisper字幕标签页

翻译标签页

语音生成标签页

🎤✨ 参考声音

💻 系统要求

📀 安装

1. 准备包

2. 安装和运行

3. 更新

4. 卸载

❓使用技巧

浏览器没有自动启动时

出现CUDA内存不足错误时

如何提高字幕质量？

🚨 通知

⏳ 用于字幕制作、翻译和TTS的SaaS平台

成本计算详情

备注

☕ 贡献

📬 联系方式

🙏 鸣谢

©️ 版权信息

`配音工作室`标签页

`Whisper字幕`标签页

`翻译`标签页

`语音生成`标签页