Skip to main content

Documentation Index

Fetch the complete documentation index at: https://aihubfrance.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Informations de Base sur RVC

RVC (Retrieval-Based Voice Conversion) est une technique de clonage vocal avancĂ©e utilisant la synthĂšse vocale pour convertir ou modifier une voix cible en utilisant l’intelligence artificielle.
Pour l’entraĂźnement local, une carte graphique Nvidia RTX sĂ©rie 20 avec 8 Go de VRAM est nĂ©cessaire. Pour l’infĂ©rence, un CPU dĂ©cent avec au moins 4 Go de VRAM suffit. Les processeurs Celeron devraient envisager d’autres alternatives disponibles ici.
RVC peut ĂȘtre utilisĂ© sur un Mac uniquement pour l’infĂ©rence. L’installation doit ĂȘtre rĂ©alisĂ©e comme sur Linux.

Composants Techniques de RVC

Un “epoch” dĂ©signe un cycle complet de passage de l’ensemble des donnĂ©es Ă  travers le rĂ©seau lors de l’entraĂźnement d’un modĂšle. Plusieurs centaines d’epochs peuvent ĂȘtre nĂ©cessaires pour optimiser la performance du modĂšle. Un nombre excessif d’epochs peut toutefois mener Ă  un surapprentissage, diminuant la capacitĂ© du modĂšle Ă  gĂ©nĂ©raliser.
Le “pitch” en musique dĂ©termine la hauteur d’un son. Modifier le pitch d’une mĂ©lodie peut la rendre plus aiguĂ« ou plus grave, influençant ainsi les Ă©motions et l’ambiance transmises.
Le “Feature Retrieval” concerne l’extraction de caractĂ©ristiques spĂ©cifiques d’un signal audio, telles que le timbre, le rythme, ou le volume. Ces caractĂ©ristiques sont utilisĂ©es pour analyser ou modifier le signal audio de maniĂšre ciblĂ©e.
Le choix du modĂšle “f0Detector” dĂ©pend de la maniĂšre dont vous comptez l’utiliser, que ce soit pour chanter, parler, rapper, etc. Voici des recommandations pour diffĂ©rents cas d’utilisation :
  • RMVPE : Il offre une excellente qualitĂ© et est trĂšs performant, adaptĂ© Ă  tout.
  • Harvest : Convient aux conversations de base et au rap avec des tonalitĂ©s plus basses.
  • Dio : Convient aux conversations de base et au rap avec des tonalitĂ©s moyennes/Ă©levĂ©es.
  • Crepe / Crepe-full : RecommandĂ©s pour parler et chanter avec diverses tonalitĂ©s.
  • Crepe-tiny : Une version plus rapide et moins gourmande en puissance de traitement du modĂšle Crepe, idĂ©ale pour de nombreux usages.
Sélectionnez le modÚle en fonction de vos besoins spécifiques pour obtenir les meilleurs résultats possibles avec la conversion vocale.
Un dataset, en français “ensemble de donnĂ©es”, est une collection structurĂ©e de donnĂ©es qui sont gĂ©nĂ©ralement organisĂ©es en tableaux, listes, fichiers ou d’autres formats similaires. Ces donnĂ©es peuvent ĂȘtre de nature variĂ©e, telles que des chiffres, des textes, des images, des vidĂ©os, etc. Pour crĂ©e des voix les donnĂ©es seront des audio.
Un ModĂšle est le rĂ©sultat d’un entraĂźnement.
L’index ajoutĂ© contient le Dataset compressĂ© et gĂšre les tonalitĂ©s du modĂšle lors de l’infĂ©rence.
Pth stocke toutes les donnĂ©es du modĂšle entraĂźnĂ© utilisĂ©es pour l’infĂ©rence.
La taille du lot indique la quantitĂ© de GPU utilisĂ©e pour l’entraĂźnement. Des tailles plus grandes rĂ©duisent la durĂ©e d’entraĂźnement. Il est recommandĂ© d’utiliser des multiples de 4, avec 8 Ă©tant le plus courant.
L’infĂ©rence transforme un audio avec le modĂšle vocal. L’artifacting dĂ©crit les distorsions sonores telles que le bruit de fond et la modulation robotique lors de l’infĂ©rence.
Un modĂšle prĂ©-entraĂźnĂ© utilise des audios de longue durĂ©e comme base d’entraĂźnement. Le sur-entraĂźnement survient lorsque le modĂšle devient moins capable d’articuler clairement et sonne robotique.
G (GĂ©nĂ©rateur) et D (Discriminateur) stockent et traitent les donnĂ©es d’entraĂźnement. G tente de reproduire des rĂ©sultats fidĂšles Ă  l’original, tandis que D diffĂ©rencie les donnĂ©es rĂ©elles des crĂ©ations de G.

Questions Générales sur RVC

Cette erreur indique que le chemin d’accĂšs au rĂ©pertoire nĂ©cessaire n’est pas correctement configurĂ©. Ajouter le chemin d’accĂšs au rĂ©pertoire ‘runtime/scripts’ d’Applio-RVC-Fork Ă  la variable PATH de Windows peut rĂ©soudre ce problĂšme.
Les ajustements dépendent de la tonalité de la voix et des caractéristiques désirées. Il est conseillé de tester différents réglages pour trouver ceux qui conviennent le mieux à chaque cas.
  1. NVIDIA GeForce RTX 30xx Series (par exemple, RTX 3090, RTX 3080)
  2. NVIDIA GeForce RTX 20xx Series (par exemple, RTX 2080 Ti, RTX 2070)
  3. NVIDIA Quadro Series (pour des performances professionnelles)
  4. NVIDIA Tesla Series (pour des charges de travail intensives en IA)
  5. NVIDIA A100 (pour des tĂąches intensives en IA et des performances extrĂȘmes)
  6. AMD Radeon Instinct Series (pour des tĂąches professionnelles)
Cependant, il est important de noter que les performances en matiĂšre de clonage vocal dĂ©pendent Ă©galement du logiciel que vous utilisez. Certains logiciels de clonage vocal peuvent tirer parti des spĂ©cificitĂ©s de certaines cartes graphiques ou d’autres accĂ©lĂ©rateurs matĂ©riels. Avant d’acheter une carte graphique pour le clonage vocal, vĂ©rifiez les recommandations spĂ©cifiques du logiciel que vous utilisez.
Déjà :
pip install -r Requirements.txt
Sinon :Si vous continuez Ă  obtenir des erreurs “No module named”, cela signifie que Python ne peut pas trouver certaines bibliothĂšques. Voici comment rĂ©soudre cela :
  • Identifiez le nom du module manquant dans le message d’erreur.
  • ExĂ©cutez la commande suivante pour installer le module manquant (remplacez “nom du module” par le nom rĂ©el du module) :
pip install "nom du module"
RĂ©pĂ©tez cette Ă©tape pour chaque module manquant jusqu’à ce que toutes les erreurs disparaissent. Si rien ne fonctionne supprimer tout et reinstaller.
Utiliser un GPU accélÚre considérablement le traitement par rapport à un CPU, surtout pour des tùches exigeantes comme le traitement vocal.
VĂ©rifier les raccourcis clavier dans les prĂ©fĂ©rences d’Audacity pour s’assurer que la commande est correctement configurĂ©e.
Indiquer le chemin d’accùs complet au fichier audio que l’on souhaite traiter. Assurez-vous que le chemin est correct et que le fichier existe.

Questions sur le Voice Changer en Temps Réel

Les ajustements doivent ĂȘtre expĂ©rimentĂ©s et ajustĂ©s progressivement. L’écoute attentive permettra de trouver les rĂ©glages les plus adĂ©quats pour chaque type de voix.
Ce message indique que le fichier ou le rĂ©pertoire spĂ©cifiĂ© n’existe pas. VĂ©rifiez le chemin d’accĂšs et assurez-vous que le fichier ou le dossier existe bien Ă  l’emplacement spĂ©cifiĂ©.

Sur le logiciel du Voice Changer:

  1. SĂ©lectionnez votre microphone principal pour l’entrĂ©e.
  2. Sélectionnez le périphérique audio VB-Cable : « [MME] CABLE Input (VB-Audio Virtual Cable) » pour la sortie.
  3. Utilisez le moniteur pour Ă©couter l’audio de sortie. SĂ©lectionnez votre casque.
Assurez-vous que votre casque est correctement configuré comme périphérique de sortie par défaut dans les paramÚtres systÚme.

Sur un autre logiciel:

Si vous utilisez d’autres logiciels tels que Discord, configurez-les comme suit :
  1. Pour l’entrĂ©e, sĂ©lectionnez « CABLE Output ».
  2. Pour la sortie, choisissez votre casque.
Tout d’abord, passez par VB-Audio Cable, je trouve que c’est plus simple que Voicemeeter, donc ce tuto sera uniquement pour VB Audio. Le lien si jamais vous voulez le tĂ©lĂ©charger : https://vb-audio.com/Cable/ Vous le tĂ©lĂ©chargez sur Windows ou Mac selon sur quoi vous ĂȘtes. Une fois tĂ©lĂ©chargĂ©, vous allez exĂ©cuter VBCABLE_Setup en administrateur, si rien ne s’ouvre, faites pareil avec VBCABLE_Setup_x64 (en administrateur aussi). Lorsque l’application s’ouvre, installez-la et redĂ©marrez votre pc. Une fois le redĂ©marrage effectuĂ©, ouvrez RVC, et en bas Ă  gauche, dans la catĂ©gorie “AUDIO”, dans “output” vous mettez “CABLE Input (VB-Audio Virutal Cable)”. Sur discord, dans “Voix & VidĂ©o”, vous mettez dans le pĂ©riphĂ©rique d’entrĂ©e “CABLE Output (VB-Audio Virtual”. Essayez de voir si vous vous entendez, normalement, il y a de grandes chances pour que ce soit toujours saccadĂ©. La derniĂšre Ă©tape, allez dans votre “Gestionnaire des tĂąches”, puis dans “DĂ©tails”, puis dans audiodg.exe. Vous faites clic droit sur audiodg.exe, sur “DĂ©finir la prioritĂ©â€, puis sur “Haute”. Pour finir, faites clic droit encore une fois sur audiodg.exe, puis “dĂ©finir l’affinitĂ©â€, puis cliquez sur la case “Tous les processeurs”, et cliquez uniquement sur la case “UC 2”. VoilĂ , votre problĂšme est normalement rĂ©glĂ© !