IA

Meta lance AudioCraft, un outil audio IA open source

Illustration de Meta AudioCraft

Meta a annoncé qu’elle ouvrait AudioCraft, une suite d’outils d’IA générative permettant de créer de la musique et de l’audio à partir de textes. Grâce à ces outils, les créateurs de contenu peuvent saisir de simples descriptions textuelles pour générer des paysages audio complexes, composer des mélodies ou même simuler des orchestres virtuels entiers.

Les composants clés d’AudioCraft : AudioGen, MusicGen et EnCodec

AudioCraft se compose de trois éléments principaux : AudioGen, un outil permettant de générer divers effets audio et paysages sonores ; MusicGen, qui peut créer des compositions musicales et des mélodies à partir de descriptions ; et EnCodec, un codec de compression audio basé sur un réseau neuronal.

Améliorations d’EnCodec pour une qualité sonore optimisée

Meta indique en particulier qu’EnCodec, dont nous avons parlé pour la première fois en novembre, a été récemment amélioré et permet de « générer de la musique de meilleure qualité avec moins d’artefacts ». De plus, AudioGen peut créer des effets sonores tels que l’aboiement d’un chien, le klaxon d’une voiture ou des bruits de pas sur un plancher en bois. Enfin, MusicGen peut créer des chansons de différents genres à partir de zéro, en se basant sur des descriptions telles que « piste de danse pop avec des mélodies accrocheuses, des percussions tropicales et des rythmes entraînants, parfaits pour la plage ».

Création d’effets sonores, compositions musicales et chansons avec AudioCraft

Meta a fourni plusieurs échantillons audio sur son site web pour évaluation. Les résultats semblent conformes à l’étiquetage de l’état de l’art, mais on peut penser qu’ils ne sont pas d’une qualité suffisante pour remplacer des effets audio ou de la musique commerciale produits par des professionnels.

Défis de la génération d’audio par l’IA

Meta note que si les modèles d’IA générative centrés sur le texte et les images fixes ont reçu beaucoup d’attention (et sont relativement faciles à expérimenter en ligne), le développement d’outils audio génératifs est resté à la traîne. « Il y a des travaux en cours, mais ils sont très compliqués et peu ouverts, de sorte que les gens ne sont pas en mesure de jouer avec », écrivent-ils. Mais ils espèrent que la publication d’AudioCraft sous la licence MIT contribuera à l’élargissement de la communauté en fournissant des outils accessibles pour l’expérimentation audio et musicale.

Les avancées dans la génération de musique par l’IA

« Les modèles sont disponibles à des fins de recherche et pour permettre aux gens de mieux comprendre la technologie. Nous sommes ravis de permettre aux chercheurs et aux praticiens d’y accéder afin qu’ils puissent former leurs propres modèles avec leurs propres ensembles de données pour la première fois et contribuer à faire progresser l’état de l’art », a déclaré M. Meta.

A LIRE AUSSI  Le pape lance une mise en garde contre les dangers de l'IA

Éthique et entraînement des modèles : Approche de Meta vs. controverses passées

Meta n’est pas la première entreprise à expérimenter des générateurs de musique et de son alimentés par l’IA. Parmi les tentatives récentes les plus notables, OpenAI a lancé son Jukebox en 2020, Google a lancé MusicLM en janvier, et en décembre dernier, une équipe de recherche indépendante a créé une plateforme de génération de texte en musique appelée Riffusion en utilisant une base de diffusion stable.

Perspectives d’intégration et d’expérimention open source

Aucun de ces projets audio génératifs n’a attiré autant d’attention que les modèles de synthèse d’images, mais cela ne signifie pas que le processus de développement n’est pas moins compliqué, comme le note Meta sur son site web :

La génération d’un son de haute fidélité, quel qu’il soit, nécessite la modélisation de signaux

Les avancées dans la génération de musique par l’IA

La musique est sans doute le type de son le plus difficile à générer, car elle est composée de motifs locaux et à longue portée, allant d’une suite de notes à une structure musicale globale avec plusieurs instruments. La génération de musique cohérente par l’IA a souvent été abordée par le biais de représentations symboliques telles que le MIDI ou les rouleaux de piano. Toutefois, ces approches ne permettent pas de saisir pleinement les nuances expressives et les éléments stylistiques présents dans la musique. Des avancées plus récentes exploitent l’apprentissage auto-supervisé de la représentation audio et un certain nombre de modèles hiérarchiques ou en cascade pour générer de la musique, en introduisant l’audio brut dans un système complexe afin de capturer les structures à longue portée du signal tout en générant un son de qualité. Mais nous savions qu’il y avait encore beaucoup à faire dans ce domaine.

Éthique et entraînement des modèles : Approche de Meta vs. controverses passées

Au milieu de la controverse sur le matériel d’entraînement non divulgué et potentiellement contraire à l’éthique utilisé pour créer des modèles de synthèse d’image tels que Stable Diffusion, DALL-E et Midjourney, il est remarquable que Meta affirme que MusicGen a été entraîné sur « 20 000 heures de musique appartenant à Meta ou sous licence spécifiquement à cette fin ». À première vue, il s’agit d’une démarche plus éthique qui pourrait plaire à certains détracteurs de l’IA générative.

Perspectives d’intégration et d’expérimentation open source

Il sera intéressant de voir comment les développeurs open source choisiront d’intégrer ces modèles audio Meta dans leur travail. Il pourrait en résulter des outils audio génératifs intéressants et faciles à utiliser dans un avenir proche. Pour l’instant, les plus férus de code d’entre nous peuvent trouver les poids des modèles et le code des trois outils AudioCraft sur GitHub.