FAQ

Informations de Base sur RVC

Qu'est-ce que RVC ?

RVC (Retrieval-Based Voice Conversion) est une technique de clonage vocal avancée utilisant la synthèse vocale pour convertir ou modifier une voix cible en utilisant l’intelligence artificielle.

Exigences pour RVC

Pour l’entraînement local, une carte graphique Nvidia RTX série 20 avec 8 Go de VRAM est nécessaire. Pour l’inférence, un CPU décent avec au moins 4 Go de VRAM suffit. Les processeurs Celeron devraient envisager d’autres alternatives disponibles ici.

Utilisation de RVC sur un Mac

RVC peut être utilisé sur un Mac uniquement pour l’inférence. L’installation doit être réalisée comme sur Linux.

Composants Techniques de RVC

Epochs

Un “epoch” désigne un cycle complet de passage de l’ensemble des données à travers le réseau lors de l’entraînement d’un modèle. Plusieurs centaines d’epochs peuvent être nécessaires pour optimiser la performance du modèle. Un nombre excessif d’epochs peut toutefois mener à un surapprentissage, diminuant la capacité du modèle à généraliser.

Pitch

Le “pitch” en musique détermine la hauteur d’un son. Modifier le pitch d’une mélodie peut la rendre plus aiguë ou plus grave, influençant ainsi les émotions et l’ambiance transmises.

Feature Retrieval

Le “Feature Retrieval” concerne l’extraction de caractéristiques spécifiques d’un signal audio, telles que le timbre, le rythme, ou le volume. Ces caractéristiques sont utilisées pour analyser ou modifier le signal audio de manière ciblée.

'f0Detector'

Le choix du modèle “f0Detector” dépend de la manière dont vous comptez l’utiliser, que ce soit pour chanter, parler, rapper, etc. Voici des recommandations pour différents cas d’utilisation :

RMVPE : Il offre une excellente qualité et est très performant, adapté à tout.
Harvest : Convient aux conversations de base et au rap avec des tonalités plus basses.
Dio : Convient aux conversations de base et au rap avec des tonalités moyennes/élevées.
Crepe / Crepe-full : Recommandés pour parler et chanter avec diverses tonalités.
Crepe-tiny : Une version plus rapide et moins gourmande en puissance de traitement du modèle Crepe, idéale pour de nombreux usages.

Sélectionnez le modèle en fonction de vos besoins spécifiques pour obtenir les meilleurs résultats possibles avec la conversion vocale.

Dataset

Un dataset, en français “ensemble de données”, est une collection structurée de données qui sont généralement organisées en tableaux, listes, fichiers ou d’autres formats similaires. Ces données peuvent être de nature variée, telles que des chiffres, des textes, des images, des vidéos, etc. Pour crée des voix les données seront des audio.

Modèle

Un Modèle est le résultat d’un entraînement.

Index ajouté

L’index ajouté contient le Dataset compressé et gère les tonalités du modèle lors de l’inférence.

Pth

Pth stocke toutes les données du modèle entraîné utilisées pour l’inférence.

Taille du Lot (Batch Size)

La taille du lot indique la quantité de GPU utilisée pour l’entraînement. Des tailles plus grandes réduisent la durée d’entraînement. Il est recommandé d’utiliser des multiples de 4, avec 8 étant le plus courant.

Inférence et Artifacting

L’inférence transforme un audio avec le modèle vocal. L’artifacting décrit les distorsions sonores telles que le bruit de fond et la modulation robotique lors de l’inférence.

Modèle Pré-entraîné et Sur-entraînement

Un modèle pré-entraîné utilise des audios de longue durée comme base d’entraînement. Le sur-entraînement survient lorsque le modèle devient moins capable d’articuler clairement et sonne robotique.

Rôles de G et D dans le Modèle

G (Générateur) et D (Discriminateur) stockent et traitent les données d’entraînement. G tente de reproduire des résultats fidèles à l’original, tandis que D différencie les données réelles des créations de G.

Questions Générales sur RVC

FileNotFoundError

Cette erreur indique que le chemin d’accès au répertoire nécessaire n’est pas correctement configuré. Ajouter le chemin d’accès au répertoire ‘runtime/scripts’ d’Applio-RVC-Fork à la variable PATH de Windows peut résoudre ce problème.

Quels réglages devrais-je utiliser si la voix est plutôt grave ou plutôt aiguë ?

Les ajustements dépendent de la tonalité de la voix et des caractéristiques désirées. Il est conseillé de tester différents réglages pour trouver ceux qui conviennent le mieux à chaque cas.

Quels sont les GPU recommandés pour réaliser du clonage vocal ?

NVIDIA GeForce RTX 30xx Series (par exemple, RTX 3090, RTX 3080)
NVIDIA GeForce RTX 20xx Series (par exemple, RTX 2080 Ti, RTX 2070)
NVIDIA Quadro Series (pour des performances professionnelles)
NVIDIA Tesla Series (pour des charges de travail intensives en IA)
NVIDIA A100 (pour des tâches intensives en IA et des performances extrêmes)
AMD Radeon Instinct Series (pour des tâches professionnelles)

Cependant, il est important de noter que les performances en matière de clonage vocal dépendent également du logiciel que vous utilisez. Certains logiciels de clonage vocal peuvent tirer parti des spécificités de certaines cartes graphiques ou d’autres accélérateurs matériels. Avant d’acheter une carte graphique pour le clonage vocal, vérifiez les recommandations spécifiques du logiciel que vous utilisez.

J'ai toujours des erreurs 'No module named'. Que faire ?

Déjà :

pip install -r Requirements.txt

Sinon :Si vous continuez à obtenir des erreurs “No module named”, cela signifie que Python ne peut pas trouver certaines bibliothèques. Voici comment résoudre cela :

Identifiez le nom du module manquant dans le message d’erreur.
Exécutez la commande suivante pour installer le module manquant (remplacez “nom du module” par le nom réel du module) :

pip install "nom du module"

Répétez cette étape pour chaque module manquant jusqu’à ce que toutes les erreurs disparaissent. Si rien ne fonctionne supprimer tout et reinstaller.

Plutôt GPU ou CPU ?

Utiliser un GPU accélère considérablement le traitement par rapport à un CPU, surtout pour des tâches exigeantes comme le traitement vocal.

Lorsque je fais CTRL + B sur Audacity, rien ne se passe.

Vérifier les raccourcis clavier dans les préférences d’Audacity pour s’assurer que la commande est correctement configurée.

Que dois-je faire à l'étape 'Enter the path of the audio file to be processed' ?

Indiquer le chemin d’accès complet au fichier audio que l’on souhaite traiter. Assurez-vous que le chemin est correct et que le fichier existe.

Questions sur le Voice Changer en Temps Réel

Quels réglages devrais-je utiliser si la voix est plutôt grave ou plutôt aiguë ?

Les ajustements doivent être expérimentés et ajustés progressivement. L’écoute attentive permettra de trouver les réglages les plus adéquats pour chaque type de voix.

J'obtiens le message d'erreur : 'No such file or directory.'

Ce message indique que le fichier ou le répertoire spécifié n’existe pas. Vérifiez le chemin d’accès et assurez-vous que le fichier ou le dossier existe bien à l’emplacement spécifié.

On ne m'entend pas quand j'ai le Voice Changer Realtime

Sur le logiciel du Voice Changer:

Sélectionnez votre microphone principal pour l’entrée.
Sélectionnez le périphérique audio VB-Cable : « [MME] CABLE Input (VB-Audio Virtual Cable) » pour la sortie.
Utilisez le moniteur pour écouter l’audio de sortie. Sélectionnez votre casque.

Assurez-vous que votre casque est correctement configuré comme périphérique de sortie par défaut dans les paramètres système.

Sur un autre logiciel:

Si vous utilisez d’autres logiciels tels que Discord, configurez-les comme suit :

Pour l’entrée, sélectionnez « CABLE Output ».
Pour la sortie, choisissez votre casque.

Je saccade/la voix est horrible avec le Voice Changer Realtime

Tout d’abord, passez par VB-Audio Cable, je trouve que c’est plus simple que Voicemeeter, donc ce tuto sera uniquement pour VB Audio. Le lien si jamais vous voulez le télécharger : https://vb-audio.com/Cable/ Vous le téléchargez sur Windows ou Mac selon sur quoi vous êtes. Une fois téléchargé, vous allez exécuter VBCABLE_Setup en administrateur, si rien ne s’ouvre, faites pareil avec VBCABLE_Setup_x64 (en administrateur aussi). Lorsque l’application s’ouvre, installez-la et redémarrez votre pc. Une fois le redémarrage effectué, ouvrez RVC, et en bas à gauche, dans la catégorie “AUDIO”, dans “output” vous mettez “CABLE Input (VB-Audio Virutal Cable)”. Sur discord, dans “Voix & Vidéo”, vous mettez dans le périphérique d’entrée “CABLE Output (VB-Audio Virtual”. Essayez de voir si vous vous entendez, normalement, il y a de grandes chances pour que ce soit toujours saccadé. La dernière étape, allez dans votre “Gestionnaire des tâches”, puis dans “Détails”, puis dans audiodg.exe. Vous faites clic droit sur audiodg.exe, sur “Définir la priorité”, puis sur “Haute”. Pour finir, faites clic droit encore une fois sur audiodg.exe, puis “définir l’affinité”, puis cliquez sur la case “Tous les processeurs”, et cliquez uniquement sur la case “UC 2”. Voilà, votre problème est normalement réglé !

Bienvenue sur RVC 👋

💻 Local

🌐 Online

📚 Autre Guide

Informations de Base sur RVC

Composants Techniques de RVC

Questions Générales sur RVC

Questions sur le Voice Changer en Temps Réel

Sur le logiciel du Voice Changer:

Sur un autre logiciel:

Bienvenue sur RVC 👋

💻 Local

🌐 Online

📚 Autre Guide

Documentation Index

​Informations de Base sur RVC

​Composants Techniques de RVC

​Questions Générales sur RVC

​Questions sur le Voice Changer en Temps Réel

​Sur le logiciel du Voice Changer:

​Sur un autre logiciel:

Informations de Base sur RVC

Composants Techniques de RVC

Questions Générales sur RVC

Questions sur le Voice Changer en Temps Réel

Sur le logiciel du Voice Changer:

Sur un autre logiciel: