Skip to content

Latest commit

 

History

History
565 lines (472 loc) · 29 KB

README.zh.md

File metadata and controls

565 lines (472 loc) · 29 KB

Voice-Pro

最佳AI语音识别、翻译和多语言配音解决方案 🚀

Dubbing Studio


🎙️ 为语音识别、翻译和配音设计的AI驱动网络应用程序

South Korea Flag 한국어 United Kingdom Flag English China Flag 中文简体 Taiwan Flag 中文繁體 Japan Flag 日本語 Germany Flag Deutsch Spain Flag Español Portugal Flag Português

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。

  • 🔊 顶级语音识别: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 🎤 零样本语音克隆: F5-TTS, E2-TTS, CosyVoice
  • 📢 多语言文本转语音: Edge-TTS, kokoro (付费版包括 Azure TTS)
  • 🎥 YouTube处理与音频提取: yt-dlp
  • 🌍 超过100种语言的即时翻译: Deep-Translator (付费版包括 Azure Translator)

作为ElevenLabs的强大替代方案,Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。

⚠️ 请注意

  • 从v2.x升级到v3.x: 不可能。我们建议删除installer_files文件夹并运行最新版本的start.bat
  • 从v3.x升级到v3.x: 可以。下载最新代码后,运行update.bat
  • 首次用户: 请参阅下面的安装说明。
  • 故障排除: 在大多数情况下,删除installer_files文件夹,然后依次运行configure.batstart.bat即可解决问题。
  • 🎁 免费激活密钥请求: 请填写此Google 表单以获取您的激活密钥。激活密钥每个电子邮件地址限领一个。
  • 🏆 额外激活密钥请求: 使用Voice-Pro创建精彩内容。请在GitHub Discussions中分享您的帖子链接。我们将乐意奖励您的贡献。

📰 新闻与历史

version 3.1
版本 3.0
  • 🔥 AI Cover功能已移除。
  • 🚀 添加了对m-bain/whisperX的支持。
版本 2.0
  • 🐍 使用Python 3.10.15、Torch 2.5.1+cu124和Gradio 5.14.0构建。
  • 🆓 免费试用支持最长60秒的媒体。
  • 🔥 添加了AI Cover功能。
  • 🎤 引入了对CosyVoicekokoro的支持。
  • ⏳ 首次运行时下载CozyVoice2-0.5B (9GB),根据网络速度可能需要超过1小时。
  • 🎧 用于语音克隆的语音样本将持续更新。
  • 📝 添加了spaCy以实现自然逐句翻译和TTS。
  • ☁️ 订阅版本包括Microsoft Azure的翻译和TTS。
  • 🏪 订阅版本在订阅期间提供无限制使用(无60秒限制),可通过 Shopify 购买。

🎥 YouTube Showcase

Demo Video 1
Demo for Voice-Pro (v2.0)
Demo Video 2
F5-TTS: Voice Cloning
Demo Video 3
Live Transcription & Translation
Demo Video 4
Multi-Lingual Voice Cloning: Korean - German
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean
Demo Video 6
Multi-Lingual Voice Cloning: Korean - Japanese
Demo Video 7
NVIDIA RTX Video Super-Resolution
Demo Video 8
AI Karaoke
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean

⭐ 主要功能

1. 配音工作室

  • YouTube视频下载与音频提取
  • 使用Demucs进行声音分离
  • 支持100多种语言的语音识别与翻译

2. 语音技术

  • 语音转文本: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 文本转语音:
    • Edge-TTS: 100多种语言,400多种声音
    • E2-TTS, F5-TTS, CosyVoice: 零样本克隆
    • kokoro: 在HuggingFace TTS竞技场中排名第2

3. 实时翻译

  • 即时语音识别
  • 实时多语言翻译
  • 可定制的音频输入

🤖 网页界面

配音工作室标签页

  • 集成中心:YouTube下载、降噪、字幕、翻译、TTS
  • 支持所有ffmpeg兼容格式
  • 输出选项:WAV、FLAC、MP3
  • 支持100多种语言的字幕和识别
  • 可调节TTS的速度、音量、音调

多语言语音转换和字幕生成网页界面

Whisper字幕标签页

  • 专用字幕:90多种语言
  • 视频集成字幕显示
  • 单词级高亮和降噪选项

翻译标签页

  • 100多种语言翻译
  • 支持字幕文件(ASS、SSA、SRT等)
  • 实时语音识别和翻译

实时语音识别和翻译网页界面

语音生成标签页

  • 选项:Edge-TTSF5-TTSCosyVoicekokoro
  • 使用名人声音制作播客和多语言支持

使用语音克隆技术制作播客的网页界面

🎤✨ 参考声音

  • 请在Issues页面上请求想添加的声音。Issues
English

Andrew Bustamante

Andrew Huberman

Avi Loeb

Ben Shapiro

Brett Johnson

Brian Keating

Coffeezilla

Dan Carlin

David Buss

David Fravor

David Kipping

Dennis Whyte

Donald Hoffman

Donald Trump

Douglas Murray

Duncan Trussell

Elon Musk

Garry Nolan

Jack Barsky

James Sexton

Jeff Bezos

Joe Rogan

John Mearsheimer

Jordan Peterson

Kanye 'Ye' West

Mark Zuckerberg

Michael Levin

Michael Saylor

Michio Kaku

MrBeast

Nick Lane

Paul Rosolie

Ryan Graves

Sam Altman

Sam Harris

Stephen Wolfram

Tucker Carlson

Vitalik Buterin

Yuval Harari
Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)
Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석
Japanese

綾瀬はるか (Ayase Haruka)

💻 系统要求

  • 操作系统: Windows 10/11(64位)※不支持Linux/Mac
  • 显卡: 支持CUDA 12.4的NVIDIA显卡(推荐)
  • 显存: 4GB以上(推荐8GB以上)
  • 内存: 4GB以上
  • 存储: 20GB以上可用空间
  • 网络: 必需

📀 安装

使用configure.batstart.bat轻松安装Voice-Pro。

1. 准备包

  • GitHub Release下载最新发布版本(Source code (zip)
git clone https://github.com/abus-aikorea/voice-pro.git

2. 安装和运行

  1. 🚀 configure.bat
    • 安装git、ffmpeg、CUDA(使用NVIDIA GPU时)
    • 首次运行一次;需要网络,可能需要1小时以上
    • 不要关闭命令窗口
  2. 🚀 start.bat
    • 运行Voice-Pro网页界面
    • 首次运行时安装依赖(可能需要1小时以上)
    • 如果出现问题,删除installer_files后重新运行

3. 更新

  • 🚀 update.bat:更新Python环境(比重新安装更快)

4. 卸载

  • 运行uninstall.bat或删除文件夹(便携式安装)

❓使用技巧

浏览器没有自动启动时

  • 关闭Windows命令窗口,重新运行start.bat,或
  • 直接启动浏览器,在地址栏输入Windows命令窗口显示的地址(例如**http://127.0.0.1:7870**)

出现CUDA内存不足错误时

  • 在Windows任务管理器-性能标签中检查GPU内存状态
  • 将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存
  • 将计算类型设置为int类型。float类型质量更好但需要更多GPU内存

如何提高字幕质量?

  • 字幕质量通常随着使用更大的Whisper模型而提高,但并不总是如此。large > medium > small > base > tiny
  • 在计算类型中,float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度,但性能较差
  • 提高降噪级别可以更多地去除背景音,只将剩余的语音用于语音识别。但不总是能保证更好的结果

🚨 通知

  • 此存储库提供 Voice-Pro 的免费试用版
  • Voice-Pro 的免费试用版允许您处理长达 60 秒的媒体。
  • 订阅版本支持 Microsoft Azure TTS 和 Translator。请在 Shopify 上购买。
Trial Version ☕Contributor Version Subscription Version
Media Length Limit 60 seconds Unlimited Unlimited
Translation Service Google Translate (Open Source) Google Translate (Open Source) Azure Translate (Microsoft)
Text-to-Speech Service Edge TTS (Open Source) Edge TTS (Open Source) Azure TTS (Microsoft)

⏳ 用于字幕制作、翻译和TTS的SaaS平台

下表列出了支持字幕制作、翻译和文本转语音(TTS/配音)功能的SaaS平台。成本基于2025年4月15日的最新定价数据,计算包括处理60分钟韩语视频的字幕生成、英语翻译和英语配音。

平台 字幕制作 翻译 TTS/配音 60分钟视频处理成本 (美元, 约) 主要功能
Maestra $23.70 支持125+语言,实时字幕,SEO关键词提取,15分钟免费试用。
Kapwing $30~$40 (Pro计划,按分钟) AI字幕,100+语言翻译,自动唇同步配音,提供免费层。
VEED.IO $24~$36 (Pro计划,部分处理) 99.9%准确字幕,Instagram优化字幕,直观编辑器。
HappyScribe $36~$48 (按需付费) 120+语言,专业校对选项,安全,会议转录。
Sonix $30~$40 (Standard计划) 54+语言,30分钟免费转录,YouTube/Zoom集成。
Descript $36~$48 (Creator计划) 文本编辑,Overdub TTS,填充词移除,1小时免费转录。
AppTek 定制定价 (联系) 媒体专用,定制模型,元数据生成,基于云的Workbench。
Transkriptor $12~$18 (按需付费) 100+语言,YouTube链接转录,99%准确度,简单编辑器。

成本计算详情

  • Maestra: Premium计划 ($158/月,1200积分)。60分钟视频:字幕60积分 + 翻译60积分 + 配音60积分 = 180积分。成本 = (180/1200) * $158 = $23.70。
  • Kapwing: Pro计划 (~$24/月,分钟限制)。字幕+翻译+配音每分钟$0.50~$0.67估算(基于分钟定价趋势)。60分钟成本:$30~$40。需确认准确价格。
  • VEED.IO: Pro计划 (~$24/月)。字幕+翻译每分钟$0.40~$0.60估算。无TTS,部分处理。60分钟成本:$24~$36。请在veed.io确认。
  • HappyScribe: 按需付费 (转录每分钟~$0.20,翻译$0.20,配音$0.20)。60分钟成本:$36~$48(假设组合服务)。请在happyscribe.com确认。
  • Sonix: Standard计划 (转录每小时~$10,翻译/配音额外)。总计每分钟$0.50~$0.67估算。60分钟成本:$30~$40。请在sonix.ai确认。
  • Descript: Creator计划 (~$24/月,时间限制)。字幕+翻译+配音每分钟$0.60~$0.80估算。60分钟成本:$36~$48。请在descript.com确认。
  • AppTek: 企业定制定价。无公开分钟费率。请联系apptek.ai获取报价。
  • Transkriptor: 按需付费 (转录每分钟$0.05~$0.10,翻译类似)。无TTS,部分处理。60分钟成本:$12~$18。请在transkriptor.com确认。

备注

  • 60分钟视频处理成本: 成本为处理60分钟韩语视频的字幕、英语翻译和英语配音(若可用)的近似值。无TTS的平台(例:VEED.IO、Transkriptor)反映部分处理成本。
  • 语言支持: 大多数平台支持韩语和英语。具体语言支持请在各网站确认。
  • 使用场景:
    • 媒体/娱乐: AppTek, Maestra
    • 社交媒体: Kapwing, VEED.IO
    • 播客/访谈: Sonix, Descript
    • 在线学习/全球内容: Transkriptor, HappyScribe
  • 价格更新: 因计划变更或促销,价格可能有所变动。请在官方网站查看最新信息。
  • 如需贡献或推荐特定使用场景,请在此仓库中提交问题或拉取请求!

☕ 贡献

您好,我是Voice-Pro团队的戴维。 我们的团队致力于发掘业内顶尖的人工智能技术,并提供给所有人,让大家都能轻松便捷地使用。 我们是一家刚成立一年的韩国小型创业公司。我们努力工作,旨在帮助您和其他创作者制作出色的内容。

您的⭐⭐⭐⭐⭐评价对我们的业务与您共同成长至关重要,我们对此深表感谢。请您支持我们这个小团队。

谢谢, ABUS客户服务

  • 如果您想参与并帮助我们进行此项目,请随时创建一个 Issues
  • 如果出现问题,请提交一个 Pull requests 以改进此项目。
  • 欢迎任何类型的贡献。
  • 有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询,请通过电子邮件 ([email protected]) 与我们联系。
  • 如果您喜欢这个项目,请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐
  • 您可以在这里通过捐赠支持 Voice-Pro:
Buy Me a Coffee

📬 联系方式

🙏 鸣谢

©️ 版权信息

by ABUS