Voice-Pro

Die beste KI-Spracherkennung, Übersetzung und mehrsprachige Synchronlösung 🚀

🎙️ Eine KI-gestützte Webanwendung für Spracherkennung, Übersetzung und Synchronisation

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro ist eine hochmoderne Web-App, die die Erstellung von Multimedia-Inhalten revolutioniert. Sie kombiniert YouTube-Video-Downloads, Stimmseparation, Spracherkennung, Übersetzung und Text-to-Speech (TTS) in einem einzigen, leistungsstarken Tool und bietet so eine ideale Lösung für Kreative, Forscher und mehrsprachige Profis.

🔊 Erstklassige Spracherkennung: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
🎤 Zero-Shot-Stimmenklonierung: F5-TTS, E2-TTS, CosyVoice
📢 Mehrsprachige Text-to-Speech: Edge-TTS, kokoro (Die kostenpflichtige Version enthält Azure TTS)
🎥 YouTube-Verarbeitung & Audioextraktion: yt-dlp
🌍 Sofortübersetzung für über 100 Sprachen: Deep-Translator (Die kostenpflichtige Version enthält Azure Translator)

Als starke Alternative zu ElevenLabs bietet Voice-Pro Podcastern, Entwicklern und Kreativen fortschrittliche Sprachlösungen.

⚠️ Bitte beachten

Upgrade von v2.x auf v3.x: Nicht möglich. Wir empfehlen, den Ordner installer_files zu löschen und die neueste Version von start.bat auszuführen.
Upgrade von v3.x auf v3.x: Möglich. Nach dem Herunterladen des neuesten Codes führen Sie update.bat aus.
Erstbenutzer: Bitte lesen Sie die Installationsanweisungen unten.
Fehlerbehebung: In den meisten Fällen können Probleme durch das Löschen des installer_files-Ordners und das anschließende Ausführen von configure.bat gefolgt von start.bat behoben werden.
🎁 Anfrage für einen kostenlosen Aktivierungsschlüssel: Bitte füllen Sie dieses Google Formulare aus, um Ihren Aktivierungsschlüssel zu erhalten. Aktivierungsschlüssel sind auf einen pro E-Mail-Adresse beschränkt.
🏆 Anfrage für zusätzliche Aktivierungsschlüssel: Erstellen Sie großartige Inhalte mit Voice-Pro. Bitte teilen Sie den Link zu Ihrem Beitrag in der . Wir belohnen Ihre Beiträge gerne。

📰 Neuigkeiten & Verlauf

version 3.1

🪄 Unterstützung für feinabgestimmte Modelle von F5-TTS
🌍 Unterstützte Sprachen
- English & Chinese: SWivid/F5-TTS_v1
- Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
- French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
- Hindi: SPRINGLab/F5-Hindi-24KHz
- Italian: alien79/F5-TTS-italian
- Japanese: Jmica/F5TTS/JA_21999120
- Russian: hotstone228/F5-TTS-Russian
- Spanish: jpgallegoar/F5-Spanish

Version 3.0

🔥 Die AI Cover-Funktion wurde entfernt.
🚀 Unterstützung für m-bain/whisperX wurde hinzugefügt.

Version 2.0

🐍 Mit Python 3.10.15, Torch 2.5.1+cu124 und Gradio 5.14.0 erstellt.
🆓 Die kostenlose Testversion unterstützt Medien bis zu 60 Sekunden Länge.
🔥 Die AI Cover-Funktion wurde hinzugefügt.
🎤 Unterstützung für CosyVoice und kokoro wurde eingeführt.
⏳ Beim ersten Start wird CozyVoice2-0.5B (9GB) heruntergeladen, was je nach Netzwerkgeschwindigkeit über eine Stunde dauern kann.
🎧 Sprachproben für das Sprachklonen werden kontinuierlich aktualisiert.
📝 spaCy wurde für natürliche satzweise Übersetzung und TTS hinzugefügt.
☁️ Die Abonnement-Version umfasst den Microsoft Azure-Übersetzer und TTS.
🏪 Die Abonnement-Version bietet unbegrenzte Nutzung (keine 60-Sekunden-Beschränkung) während der Abonnementlaufzeit und kann über erworben werden.

🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

⭐ Hauptfunktionen

1. Synchronstudio

YouTube-Video-Downloads & Audioextraktion
Stimmtrennung mit Demucs
Unterstützt über 100 Sprachen für Spracherkennung & Übersetzung

2. Sprachtechnologien

Sprache-zu-Text: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
Text-zu-Sprache:
- Edge-TTS: Über 100 Sprachen, 400+ Stimmen
- E2-TTS, F5-TTS, CosyVoice: Zero-Shot-Klonen
- kokoro: Platz 2 in der HuggingFace TTS-Arena

3. Echtzeit-Übersetzung

Sofortige Spracherkennung
Mehrsprachige Übersetzung in Echtzeit
Anpassbare Audioeingaben

🤖 WebUI

`Dubbing-Studio`-Tab

All-in-One-Hub: YouTube-Downloads, Rauschunterdrückung, Untertitel, Übersetzung, TTS
Unterstützt alle ffmpeg-kompatiblen Formate
Ausgabeoptionen: WAV, FLAC, MP3
Untertitel & Erkennung für über 100 Sprachen
TTS mit einstellbarer Geschwindigkeit, Lautstärke und Tonlage

`Whisper-Untertitel`-Tab

Untertitel-spezifisch: Über 90 Sprachen
Integrierte Untertitelanzeige mit Video
Wortweise Hervorhebung & Optionen zur Rauschunterdrückung

`Übersetzung`-Tab

Übersetzung in über 100 Sprachen
Unterstützt Untertiteldateien (ASS, SSA, SRT usw.)
Echtzeit-Spracherkennung und Übersetzung

`Sprachgenerierung`-Tab

Optionen: Edge-TTS, F5-TTS, CosyVoice, kokoro
Podcasts mit Promi-Stimmen & mehrsprachige Unterstützung

🎤✨ Referenzstimme

Bitte fordern Sie die Stimme, die Sie hinzufügen möchten, auf der Issues-Seite an. Issues

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

💻 Systemanforderungen

OS: Windows 10/11 (64-Bit) ※ Linux/Mac nicht unterstützt
GPU: NVIDIA mit CUDA 12.4 (empfohlen)
VRAM: 4 GB+ (8 GB+ bevorzugt)
RAM: 4 GB+
Speicher: Mindestens 20 GB freier Speicherplatz
Internet: Erforderlich

📀 Installation

Mit configure.bat und start.bat lässt sich Voice-Pro einfach installieren.

1. Paketvorbereitung

Laden Sie die neueste Version von herunter (Source code (zip))

git clone https://github.com/abus-aikorea/voice-pro.git

2. Installation und Ausführung

🚀 configure.bat
- Installiert git, ffmpeg und CUDA (bei NVIDIA-GPU)
- Einmalige Ausführung; Internet erforderlich, kann über 1 Stunde dauern
- Schließen Sie das Befehlsfenster nicht
🚀 start.bat
- Startet die Voice-Pro-WebUI
- Bei erstmaliger Ausführung werden Abhängigkeiten installiert (kann über 1 Stunde dauern)
- Bei Problemen installer_files löschen und erneut ausführen

3. Update

🚀 update.bat: Aktualisiert die Python-Umgebung (schneller als Neuinstallation)

4. Deinstallation

Führen Sie uninstall.bat aus oder löschen Sie den Ordner (portable Installation)

❓ Nutzungstipps

Wenn der Browser nicht automatisch startet

Schließen Sie das Windows-Befehlsfenster und führen Sie start.bat erneut aus
Öffnen Sie den Browser manuell und geben Sie die im Befehlsfenster angezeigte Adresse ein (z. B. http://127.0.0.1:7870)

Bei einem CUDA-Out-of-Memory-Fehler

Überprüfen Sie den GPU-Speicherstatus im Windows Task-Manager – Reiter „Leistung“
Stellen Sie den Rauschunterdrückungslevel auf 0 oder 1 ein (Level 2 erfordert mindestens 8 GB GPU-Speicher)
Stellen Sie den Berechnungstyp auf „int“ ein („float“ bietet bessere Qualität, benötigt aber mehr GPU-Speicher)

Wie kann die Untertitelqualität verbessert werden?

Größere Whisper-Modelle tendieren zu besserer Untertitelqualität (large > medium > small > base > tiny), dies ist jedoch nicht garantiert
Unter den Berechnungstypen bietet „float“ gute Leistung; „int“ reduziert GPU-Nutzung und erhöht die Geschwindigkeit durch Modellquantisierung, allerdings mit Leistungseinbußen
Ein höherer Rauschunterdrückungslevel entfernt mehr Hintergrundgeräusche und nutzt nur die verbleibende Stimme für die Erkennung, garantiert aber nicht immer bessere Ergebnisse

🚨 Hinweis

Dieses Repository bietet eine kostenlose Testversion von Voice-Pro.
Die kostenlose Testversion von Voice-Pro ermöglicht die Verarbeitung von Medien bis zu 60 Sekunden.
Die Abonnementversion unterstützt Microsoft Azure TTS und Translator. Kaufen Sie es auf .

	Trial Version	☕Contributor Version	Subscription Version
Media Length Limit	60 seconds	Unlimited	Unlimited
Translation Service	Google Translate (Open Source)	Google Translate (Open Source)	Azure Translate (Microsoft)
Text-to-Speech Service	Edge TTS (Open Source)	Edge TTS (Open Source)	Azure TTS (Microsoft)

⏳ SaaS-Plattformen für Untertitelung, Übersetzung und TTS

Die folgende Tabelle listet SaaS-Plattformen auf, die Untertitelung, Übersetzung und Text-to-Speech (TTS/Synchronisation) unterstützen. Die Kosten wurden basierend auf den neuesten verfügbaren Preisdaten vom 15. April 2025 berechnet und beinhalten die Verarbeitung eines 60-minütigen koreanischen Videos mit Untertitelgenerierung, englischer Übersetzung und englischer Synchronisation.

Plattform	Untertitelung	Übersetzung	TTS/Synchronisation	Kosten für 60-min Video (USD, ca.)	Hauptmerkmale
Maestra	✅	✅	✅	$23.70	Über 125 Sprachen, Echtzeit-Untertitel, SEO-Keyword-Extraktion, 15-min kostenlose Testversion.
Kapwing	✅	✅	✅	$30~$40 (Pro-Plan, pro Minute)	KI-Untertitel, Übersetzung in über 100 Sprachen, automatische Lip-Sync-Synchronisation, kostenloser Tarif.
VEED.IO	✅	✅	❌	$24~$36 (Pro-Plan, teilweise)	99,9 % genaue Untertitel, Instagram-optimierte Untertitel, intuitiver Editor.
HappyScribe	✅	✅	✅	$36~$48 (Pay-as-you-go)	Über 120 Sprachen, professionelle Korrekturoption, sicher, Transkription von Meetings.
Sonix	✅	✅	✅	$30~$40 (Standard-Plan)	Über 54 Sprachen, 30-min kostenlose Transkription, YouTube/Zoom-Integration.
Descript	✅	✅	✅	$36~$48 (Creator-Plan)	Textbasierte Bearbeitung, Overdub TTS, Entfernung von Füllwörtern, 1-Stunde kostenlose Transkription.
AppTek	✅	✅	✅	Individuelle Preisgestaltung (Kontakt)	Medienfokussiert, individuelle Modelle, Metadatengenerierung, cloudbasierte Workbench.
Transkriptor	✅	✅	❌	$12~$18 (Pay-as-you-go)	Über 100 Sprachen, YouTube-Link-Transkription, 99 % Genauigkeit, einfacher Editor.

Details zur Kostenberechnung

Maestra: Premium-Plan ($158/Monat, 1200 Credits). 60-min Video: 60 Credits (Untertitel) + 60 Credits (Übersetzung) + 60 Credits (Synchronisation) = 180 Credits. Kosten = (180/1200) * $158 = $23.70.
Kapwing: Pro-Plan (~$24/Monat, begrenzte Minuten). Geschätzt $0.50~$0.67/Minute für Untertitel+Übersetzung+Synchronisation (basierend auf Preistrends). 60-min Kosten: $30~$40. Exakte Preise erfordern Bestätigung.
VEED.IO: Pro-Plan (~$24/Monat). Untertitel+Übersetzung geschätzt $0.40~$0.60/Minute. Kein TTS, daher teilweise Verarbeitung. 60-min Kosten: $24~$36. Bestätigen Sie auf veed.io.
HappyScribe: Pay-as-you-go (~$0.20/Minute Transkription, $0.20 Übersetzung, $0.20 Synchronisation). 60-min Kosten: $36~$48 (unter Annahme kombinierter Dienste). Bestätigen Sie auf happyscribe.com.
Sonix: Standard-Plan (~$10/Stunde Transkription, zusätzlich für Übersetzung/Synchronisation). Geschätzt $0.50~$0.67/Minute gesamt. 60-min Kosten: $30~$40. Bestätigen Sie auf sonix.ai.
Descript: Creator-Plan (~$24/Monat, begrenzte Stunden). Geschätzt $0.60~$0.80/Minute für Untertitel+Übersetzung+Synchronisation. 60-min Kosten: $36~$48. Bestätigen Sie auf descript.com.
AppTek: Individuelle Preisgestaltung für Unternehmen. Keine öffentlichen Minutenpreise. Kontaktieren Sie apptek.ai für Angebote.
Transkriptor: Pay-as-you-go ($0.05~$0.10/Minute Transkription, ähnlich für Übersetzung). Kein TTS, daher teilweise Verarbeitung. 60-min Kosten: $12~$18. Bestätigen Sie auf transkriptor.com.

Hinweise

Kosten für 60-min Video: Die Kosten sind Näherungswerte und basieren auf der Verarbeitung eines 60-minütigen koreanischen Videos für Untertitel, englische Übersetzung und englische Synchronisation (falls verfügbar). Plattformen ohne TTS (z. B. VEED.IO, Transkriptor) berücksichtigen teilweise Verarbeitungskosten.
Sprachunterstützung: Die meisten Plattformen unterstützen Koreanisch und Englisch. Überprüfen Sie die Verfügbarkeit spezifischer Sprachen auf den jeweiligen Websites.
Anwendungsfälle:
- Medien/Unterhaltung: AppTek, Maestra
- Soziale Medien: Kapwing, VEED.IO
- Podcasts/Interviews: Sonix, Descript
- E-Learning/globale Inhalte: Transkriptor, HappyScribe
Preisaktualisierungen: Preise können aufgrund von Planänderungen oder Aktionen variieren. Überprüfen Sie die offiziellen Websites für aktuelle Details.
Für Beiträge oder Empfehlungen zu spezifischen Anwendungsfällen öffnen Sie ein Issue oder reichen Sie einen Pull Request in diesem Repository ein!

☕ Beiträge

Hallo, ich bin David vom Voice-Pro-Team. Unser Team entdeckt die besten KI-Technologien der Branche und stellt sie jedem zur einfachen und bequemen Nutzung zur Verfügung. Wir sind ein kleines Startup in Korea, das erst seit einem Jahr existiert. Wir arbeiten hart daran, Ihnen und anderen Kreativen zu helfen, großartige Inhalte zu erstellen.

Ihre ⭐⭐⭐⭐⭐ Bewertung wäre sehr willkommen, da sie unserem Unternehmen hilft, mit Ihnen zu wachsen. Bitte helfen Sie mit, unser kleines Team zu unterstützen.

Vielen Dank, ABUS Kundenservice

Wenn Sie an diesem Projekt teilnehmen und uns helfen möchten, können Sie gerne ein Issues erstellen.
Wenn etwas schief geht, senden Sie bitte einen Pull Requests, um dieses Projekt zu verbessern.
Jede Art von Beitrag ist willkommen.
Für Anfragen zu Käufen, Geschäftspartnerschaften, technischer Anpassung, Investitionen und anderen Angelegenheiten kontaktieren Sie uns bitte per E-Mail (abus.aikorea@gmail.com).
Wenn Ihnen dieses Projekt gefällt, geben Sie diesem Repository bitte einen Stern. Wir würden uns sehr freuen. ⭐⭐⭐
Sie können Voice-Pro hier mit einer Spende unterstützen:

📬 Kontakt

Email: abus.aikorea@gmail.com
Homepage (Korean): https://abuskorea.imweb.me
Kauf der kostenpflichtigen Version: Shopify (Global), Naver (Korean)

🙏 Danksagung

Demucs: https://github.com/facebookresearch/demucs
yt-dlp: https://github.com/yt-dlp/yt-dlp
gradio: https://github.com/gradio-app/gradio
edge-TTS: https://github.com/rany2/edge-tts
F5-TTS: https://github.com/SWivid/F5-TTS.git
openai-whisper: https://github.com/openai/whisper
faster-whisper: https://github.com/SYSTRAN/faster-whisper
whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
whisperX: https://github.com/m-bain/whisperX
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
kokoro: https://github.com/hexgrad/kokoro
Deep-Translator: https://github.com/nidhaloff/deep-translator
spaCy: https://github.com/explosion/spaCy

by ABUS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.deu.md

README.deu.md

Voice-Pro

🎙️ Eine KI-gestützte Webanwendung für Spracherkennung, Übersetzung und Synchronisation

⚠️ Bitte beachten

📰 Neuigkeiten & Verlauf

🎥 YouTube Showcase

⭐ Hauptfunktionen

1. Synchronstudio

2. Sprachtechnologien

3. Echtzeit-Übersetzung

🤖 WebUI

`Dubbing-Studio`-Tab

`Whisper-Untertitel`-Tab

`Übersetzung`-Tab

`Sprachgenerierung`-Tab

🎤✨ Referenzstimme

💻 Systemanforderungen

📀 Installation

1. Paketvorbereitung

2. Installation und Ausführung

3. Update

4. Deinstallation

❓ Nutzungstipps

Wenn der Browser nicht automatisch startet

Bei einem CUDA-Out-of-Memory-Fehler

Wie kann die Untertitelqualität verbessert werden?

🚨 Hinweis

⏳ SaaS-Plattformen für Untertitelung, Übersetzung und TTS

Details zur Kostenberechnung

Hinweise

☕ Beiträge

📬 Kontakt

🙏 Danksagung

©️ Urheberrecht

Files

README.deu.md

Latest commit

History

README.deu.md

File metadata and controls

Voice-Pro

🎙️ Eine KI-gestützte Webanwendung für Spracherkennung, Übersetzung und Synchronisation

⚠️ Bitte beachten

📰 Neuigkeiten & Verlauf

🎥 YouTube Showcase

⭐ Hauptfunktionen

1. Synchronstudio

2. Sprachtechnologien

3. Echtzeit-Übersetzung

🤖 WebUI

Dubbing-Studio-Tab

Whisper-Untertitel-Tab

Übersetzung-Tab

Sprachgenerierung-Tab

🎤✨ Referenzstimme

💻 Systemanforderungen

📀 Installation

1. Paketvorbereitung

2. Installation und Ausführung

3. Update

4. Deinstallation

❓ Nutzungstipps

Wenn der Browser nicht automatisch startet

Bei einem CUDA-Out-of-Memory-Fehler

Wie kann die Untertitelqualität verbessert werden?

🚨 Hinweis

⏳ SaaS-Plattformen für Untertitelung, Übersetzung und TTS

Details zur Kostenberechnung

Hinweise

☕ Beiträge

📬 Kontakt

🙏 Danksagung

©️ Urheberrecht

`Dubbing-Studio`-Tab

`Whisper-Untertitel`-Tab

`Übersetzung`-Tab

`Sprachgenerierung`-Tab