最佳AI语音识别、翻译和多语言配音解决方案 🚀
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。
- 🔊 顶级语音识别: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
- 🎤 零样本语音克隆: F5-TTS, E2-TTS, CosyVoice
- 📢 多语言文本转语音: Edge-TTS, kokoro (付费版包括 Azure TTS)
- 🎥 YouTube处理与音频提取: yt-dlp
- 🌍 超过100种语言的即时翻译: Deep-Translator (付费版包括 Azure Translator)
作为ElevenLabs的强大替代方案,Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。
- 从v2.x升级到v3.x: 不可能。我们建议删除
installer_files
文件夹并运行最新版本的start.bat
。 - 从v3.x升级到v3.x: 可以。下载最新代码后,运行
update.bat
。 - 首次用户: 请参阅下面的安装说明。
- 故障排除: 在大多数情况下,删除
installer_files
文件夹,然后依次运行configure.bat
和start.bat
即可解决问题。 - 🎁 免费激活密钥请求: 请填写此Google 表单以获取您的激活密钥。激活密钥每个电子邮件地址限领一个。
- 🏆 额外激活密钥请求: 使用Voice-Pro创建精彩内容。请在
中分享您的帖子链接。我们将乐意奖励您的贡献。
version 3.1
- 🪄 支持 F5-TTS 的微调模型
- 🌍 支持的语言
English &
Chinese: SWivid/F5-TTS_v1
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
Hindi: SPRINGLab/F5-Hindi-24KHz
Italian: alien79/F5-TTS-italian
Japanese: Jmica/F5TTS/JA_21999120
Russian: hotstone228/F5-TTS-Russian
Spanish: jpgallegoar/F5-Spanish
版本 3.0
- 🔥 AI Cover功能已移除。
- 🚀 添加了对m-bain/whisperX的支持。
版本 2.0
- YouTube视频下载与音频提取
- 使用Demucs进行声音分离
- 支持100多种语言的语音识别与翻译
- 语音转文本: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
- 文本转语音:
- Edge-TTS: 100多种语言,400多种声音
- E2-TTS, F5-TTS, CosyVoice: 零样本克隆
- kokoro: 在HuggingFace TTS竞技场中排名第2
- 即时语音识别
- 实时多语言翻译
- 可定制的音频输入
- 集成中心:YouTube下载、降噪、字幕、翻译、TTS
- 支持所有ffmpeg兼容格式
- 输出选项:WAV、FLAC、MP3
- 支持100多种语言的字幕和识别
- 可调节TTS的速度、音量、音调
- 专用字幕:90多种语言
- 视频集成字幕显示
- 单词级高亮和降噪选项
- 100多种语言翻译
- 支持字幕文件(ASS、SSA、SRT等)
- 实时语音识别和翻译
- 选项:Edge-TTS、F5-TTS、CosyVoice、kokoro
- 使用名人声音制作播客和多语言支持
- 请在Issues页面上请求想添加的声音。Issues
English
Chinese
![]() 迪丽热巴 (Dílì Rèbā) |
![]() 蔡依林 (Cài Yīlín) |
![]() 吴亦凡 (Wú Yìfán) |
![]() 李易峰 (Lǐ Yìfēng) |
![]() 杨幂 (Yáng Mì) |
![]() 赵丽颖 (Zhào Lìyǐng) |
- 操作系统: Windows 10/11(64位)※不支持Linux/Mac
- 显卡: 支持CUDA 12.4的NVIDIA显卡(推荐)
- 显存: 4GB以上(推荐8GB以上)
- 内存: 4GB以上
- 存储: 20GB以上可用空间
- 网络: 必需
使用configure.bat和start.bat轻松安装Voice-Pro。
git clone https://github.com/abus-aikorea/voice-pro.git
- 🚀 configure.bat
- 安装git、ffmpeg、CUDA(使用NVIDIA GPU时)
- 首次运行一次;需要网络,可能需要1小时以上
- 不要关闭命令窗口
- 🚀 start.bat
- 运行Voice-Pro网页界面
- 首次运行时安装依赖(可能需要1小时以上)
- 如果出现问题,删除installer_files后重新运行
- 🚀 update.bat:更新Python环境(比重新安装更快)
- 运行uninstall.bat或删除文件夹(便携式安装)
- 关闭Windows命令窗口,重新运行start.bat,或
- 直接启动浏览器,在地址栏输入Windows命令窗口显示的地址(例如**http://127.0.0.1:7870**)
- 在Windows任务管理器-性能标签中检查GPU内存状态
- 将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存
- 将计算类型设置为int类型。float类型质量更好但需要更多GPU内存
- 字幕质量通常随着使用更大的Whisper模型而提高,但并不总是如此。large > medium > small > base > tiny
- 在计算类型中,float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度,但性能较差
- 提高降噪级别可以更多地去除背景音,只将剩余的语音用于语音识别。但不总是能保证更好的结果
- 此存储库提供 Voice-Pro 的免费试用版。
- Voice-Pro 的免费试用版允许您处理长达 60 秒的媒体。
- 订阅版本支持 Microsoft Azure TTS 和 Translator。请在
上购买。
Trial Version | ☕Contributor Version | Subscription Version | |
---|---|---|---|
Media Length Limit | 60 seconds | Unlimited | Unlimited |
Translation Service | Google Translate (Open Source) | Google Translate (Open Source) | Azure Translate (Microsoft) |
Text-to-Speech Service | Edge TTS (Open Source) | Edge TTS (Open Source) | Azure TTS (Microsoft) |
下表列出了支持字幕制作、翻译和文本转语音(TTS/配音)功能的SaaS平台。成本基于2025年4月15日的最新定价数据,计算包括处理60分钟韩语视频的字幕生成、英语翻译和英语配音。
平台 | 字幕制作 | 翻译 | TTS/配音 | 60分钟视频处理成本 (美元, 约) | 主要功能 |
---|---|---|---|---|---|
Maestra | ✅ | ✅ | ✅ | $23.70 | 支持125+语言,实时字幕,SEO关键词提取,15分钟免费试用。 |
Kapwing | ✅ | ✅ | ✅ | $30~$40 (Pro计划,按分钟) | AI字幕,100+语言翻译,自动唇同步配音,提供免费层。 |
VEED.IO | ✅ | ✅ | ❌ | $24~$36 (Pro计划,部分处理) | 99.9%准确字幕,Instagram优化字幕,直观编辑器。 |
HappyScribe | ✅ | ✅ | ✅ | $36~$48 (按需付费) | 120+语言,专业校对选项,安全,会议转录。 |
Sonix | ✅ | ✅ | ✅ | $30~$40 (Standard计划) | 54+语言,30分钟免费转录,YouTube/Zoom集成。 |
Descript | ✅ | ✅ | ✅ | $36~$48 (Creator计划) | 文本编辑,Overdub TTS,填充词移除,1小时免费转录。 |
AppTek | ✅ | ✅ | ✅ | 定制定价 (联系) | 媒体专用,定制模型,元数据生成,基于云的Workbench。 |
Transkriptor | ✅ | ✅ | ❌ | $12~$18 (按需付费) | 100+语言,YouTube链接转录,99%准确度,简单编辑器。 |
- Maestra: Premium计划 ($158/月,1200积分)。60分钟视频:字幕60积分 + 翻译60积分 + 配音60积分 = 180积分。成本 = (180/1200) * $158 = $23.70。
- Kapwing: Pro计划 (~$24/月,分钟限制)。字幕+翻译+配音每分钟$0.50~$0.67估算(基于分钟定价趋势)。60分钟成本:$30~$40。需确认准确价格。
- VEED.IO: Pro计划 (~$24/月)。字幕+翻译每分钟$0.40~$0.60估算。无TTS,部分处理。60分钟成本:$24~$36。请在veed.io确认。
- HappyScribe: 按需付费 (转录每分钟~$0.20,翻译$0.20,配音$0.20)。60分钟成本:$36~$48(假设组合服务)。请在happyscribe.com确认。
- Sonix: Standard计划 (转录每小时~$10,翻译/配音额外)。总计每分钟$0.50~$0.67估算。60分钟成本:$30~$40。请在sonix.ai确认。
- Descript: Creator计划 (~$24/月,时间限制)。字幕+翻译+配音每分钟$0.60~$0.80估算。60分钟成本:$36~$48。请在descript.com确认。
- AppTek: 企业定制定价。无公开分钟费率。请联系apptek.ai获取报价。
- Transkriptor: 按需付费 (转录每分钟$0.05~$0.10,翻译类似)。无TTS,部分处理。60分钟成本:$12~$18。请在transkriptor.com确认。
- 60分钟视频处理成本: 成本为处理60分钟韩语视频的字幕、英语翻译和英语配音(若可用)的近似值。无TTS的平台(例:VEED.IO、Transkriptor)反映部分处理成本。
- 语言支持: 大多数平台支持韩语和英语。具体语言支持请在各网站确认。
- 使用场景:
- 媒体/娱乐: AppTek, Maestra
- 社交媒体: Kapwing, VEED.IO
- 播客/访谈: Sonix, Descript
- 在线学习/全球内容: Transkriptor, HappyScribe
- 价格更新: 因计划变更或促销,价格可能有所变动。请在官方网站查看最新信息。
- 如需贡献或推荐特定使用场景,请在此仓库中提交问题或拉取请求!
您好,我是Voice-Pro团队的戴维。 我们的团队致力于发掘业内顶尖的人工智能技术,并提供给所有人,让大家都能轻松便捷地使用。 我们是一家刚成立一年的韩国小型创业公司。我们努力工作,旨在帮助您和其他创作者制作出色的内容。
您的⭐⭐⭐⭐⭐评价对我们的业务与您共同成长至关重要,我们对此深表感谢。请您支持我们这个小团队。
谢谢, ABUS客户服务
- 如果您想参与并帮助我们进行此项目,请随时创建一个 Issues。
- 如果出现问题,请提交一个 Pull requests 以改进此项目。
- 欢迎任何类型的贡献。
- 有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询,请通过电子邮件 ([email protected]) 与我们联系。
- 如果您喜欢这个项目,请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐
- 您可以在这里通过捐赠支持 Voice-Pro:
- Email: [email protected]
- Homepage (Korean): https://abuskorea.imweb.me
- 付费版本购买: Shopify (Global), Naver (Korean)
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- gradio: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
- openai-whisper: https://github.com/openai/whisper
- faster-whisper: https://github.com/SYSTRAN/faster-whisper
- whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
- whisperX: https://github.com/m-bain/whisperX
- CosyVoice: https://github.com/FunAudioLLM/CosyVoice
- kokoro: https://github.com/hexgrad/kokoro
- Deep-Translator: https://github.com/nidhaloff/deep-translator
- spaCy: https://github.com/explosion/spaCy
by ABUS