Meta AudioCraft : générateur de musique AI basé sur des invites de texte

Par Todd Spangler

Éditeur numérique de New York

Meta a publié AudioCraft, un nouvel ensemble d'outils d'IA pour générer ce que le géant de la technologie prétend être « un son et une musique réalistes et de haute qualité à partir de texte » – par exemple, produire une séquence musicale basée sur la chaîne de texte « set de DJ de reggae électronique jamaïcain ». .»

"Imaginez un musicien professionnel capable d'explorer de nouvelles compositions sans avoir à jouer une seule note sur un instrument", explique Meta dans un article de blog sur AudioCraft. "Ou un propriétaire de petite entreprise qui ajoute facilement une bande sonore à sa dernière publicité vidéo sur Instagram."

AudioCraft se compose de trois modèles : MusicGen (pour la musique), AudioGen (pour les effets sonores) et EnCodec (un décodeur IA génératif). MusicGen a été formé sur environ 400 000 enregistrements accompagnés d'une description textuelle et de métadonnées, ce qui représente 20 000 heures de musique appartenant à Meta ou sous licence spécifiquement à cet effet, selon le géant de la technologie. "Les morceaux de musique sont plus complexes que les sons environnementaux, et générer des échantillons cohérents sur la structure à long terme est particulièrement important lors de la création de nouvelles pièces musicales", explique la société.

"Avec encore plus de contrôles, nous pensons que MusicGen peut devenir un nouveau type d'instrument, tout comme les synthétiseurs lors de leur apparition", a déclaré la société dans le blog.

Meta a partagé un extrait de ce à quoi ressemble la musique générée par MusicGen. En plus du riff reggae, les exemples incluent « Scène de film dans un désert avec percussions », « Electronique des années 80 avec rythmes de batterie », « Jazz instrumental, tempo moyen, piano fougueux » et « Hip-hop doux, scratch vinyle, profondeur ». basse":

Pendant ce temps, Meta a déclaré qu'AudioGen a été formé sur les « effets sonores publics » et peut générer des sons environnementaux et des effets sonores comme un chien qui aboie, des voitures qui klaxonnent ou des pas sur un plancher en bois. La société a également publié ce qu'elle dit être une version améliorée du décodeur EnCodec, "qui permet de générer de la musique de meilleure qualité avec moins d'artefacts".

La société publie les modèles AudioCraft sous forme de code open source, expliquant que l'objectif est de donner « aux chercheurs et aux praticiens un accès afin qu'ils puissent former leurs propres modèles avec leurs propres ensembles de données pour la première fois, et contribuer à faire progresser le domaine des modèles générés par l'IA ». audio et musique.

Meta a reconnu que les ensembles de données utilisés pour entraîner les modèles AudioCraft manquent de diversité – en particulier, l’ensemble de données musicales utilisé « contient une plus grande partie de la musique de style occidental » et est limité à des paires audio-texte avec du texte et des métadonnées écrites en anglais. "En partageant le code d'AudioCraft, nous espérons que d'autres chercheurs pourront tester plus facilement de nouvelles approches pour limiter ou éliminer les biais potentiels et l'utilisation abusive des modèles génératifs", a déclaré la société.