Sony introduit l’IA pour la génération d’accompagnement sur un seul instrument dans la production musicale


Crédit : Saint-Marin, S. Lattner, DALL-E

Au cours des dernières décennies, de nombreux ingénieurs ont commencé à développer des outils basés sur l’intelligence artificielle (IA) capables de soutenir le travail des professionnels de la création, en accélérant ou en améliorant la production de différents types de contenu. Ceux-ci incluent des modèles informatiques capables de générer des pistes musicales et de faciliter certains aspects de la production musicale.

Les chercheurs de Sony CSL ont travaillé sur diverses solutions basées sur l’IA conçues pour aider les musiciens, les producteurs de musique et autres passionnés de musique tout au long de leurs efforts créatifs. Dans un récent article publié sur le arXiv serveur de préimpression, ils ont présenté Diff-A-Riff, un modèle informatique prometteur capable de générer des accompagnements instrumentaux de haute qualité pour n’importe quelle musique.

“Notre récent article s’appuie sur nos recherches précédentes sur la génération d’accompagnements de basse”, a déclaré l’équipe musicale de Sony CSL Paris à Tech Xplore. “Alors que nos travaux antérieurs se concentraient sur la création de lignes de basse pour compléter les pistes existantes, Diff-A-Riff étend ce concept pour générer des accompagnements mono-instruments de tout type d’instrument.”

“Cette évolution a été inspirée par les besoins pratiques des producteurs de musique et des artistes, qui recherchent souvent des outils pour améliorer leurs compositions existantes en ajoutant des instruments supplémentaires, et par leur désir d’être flexible concernant les types/timbres d’instruments.”

L’objectif principal des travaux récents de l’équipe musicale de Sony CSL Paris était de créer un système d’IA polyvalent capable de générer des accompagnements instrumentaux de haute qualité s’intégrant parfaitement à un contexte musical donné, en se concentrant sur un instrument à la fois. L’outil qu’ils ont développé repose sur deux techniques d’apprentissage profond distinctes et puissantes : les modèles de diffusion latente et les auto-encodeurs de cohérence.






“Diff-A-Riff exploite la puissance des modèles de diffusion latente et des auto-encodeurs de cohérence pour générer des accompagnements instrumentaux qui correspondent au style et à la tonalité d’un contexte musical donné”, ont-ils expliqué.

“Le système compresse d’abord l’audio d’entrée en une représentation latente à l’aide d’un encodeur automatique de cohérence pré-entraîné, un codec développé en interne, qui garantit un décodage de haute qualité via un décodeur génératif. Cette représentation compressée est ensuite introduite dans notre modèle de diffusion latente, qui génère un nouvel audio dans l’espace latent, conditionné par le contexte d’entrée et des références de style facultatives à partir d’intégrations de texte ou d’audio.

Diff-A-Riff présente de nombreux avantages par rapport aux autres outils de génération d’accompagnement instrumental. Le premier est son contrôle polyvalent, qui permet aux utilisateurs de conditionner à la fois les invites audio et textuelles, leur offrant une plus grande flexibilité dans le guidage de la génération des accompagnements. De plus, Diff-A-Riff produit des sorties de haute qualité, avec un audio pseudo-stéréo de 48 kHz.

“Diff-A-Riff réduit également considérablement le temps d’inférence et l’utilisation de la mémoire par rapport aux systèmes précédents, car nous utilisons un taux de compression de 64x”, a expliqué l’équipe. “Nous avons constaté qu’il peut générer des accompagnements pour n’importe quel contexte musical, ce qui en fait un outil précieux pour les producteurs de musique et les artistes.

“De plus, il propose des commandes supplémentaires, telles que l’interpolation entre les références d’instruments et les invites de texte, la définition de la largeur stéréo et la possibilité de créer des transitions fluides pour les boucles.”

L’équipe de Sony CSL Music a évalué son modèle dans le cadre d’une série de tests. Les résultats se sont révélés très prometteurs, car le modèle a généré des accompagnements instrumentaux de haute qualité pour divers morceaux de musique que les auditeurs humains étaient incapables de distinguer des accompagnements enregistrés joués par des musiciens humains.

Crédit : C. Aouameur

“Une vitesse de génération de trois secondes pour une minute d’audio est sans précédent et est obtenue grâce au taux de compression élevé de l’encodeur automatique de cohérence”, ont-ils déclaré. “Dans des scénarios réels, Diff-A-Riff peut être appliqué à la production musicale, à la collaboration créative et à la conception sonore.”

L’outil de génération d’accompagnement instrumental développé par Sony CSL pourrait bientôt être utilisé par les producteurs de musique du monde entier, leur permettant de créer des pistes instrumentales complétant leurs compositions existantes. Diff-A-Riff pourrait également être utilisé par les artistes pour explorer facilement de nouvelles idées musicales ou par les concepteurs sonores pour tester rapidement différents timbres ou styles de jeu pour leurs projets.

“Nos futurs plans de recherche incluent l’amélioration des capacités de Diff-A-Riff en améliorant les mécanismes de contrôle et en explorant de nouvelles façons d’intégrer le modèle aux différentes étapes du processus de production musicale”, a ajouté l’équipe.

“Nous visons à fournir des entrées encore plus intuitives pour rendre le modèle plus accessible et utile aux artistes, y compris les amateurs et les professionnels. De plus, nous prévoyons de collaborer avec des musiciens et des compositeurs pour affiner et valider davantage nos modèles, en nous assurant qu’ils répondent aux besoins pratiques de utilisateurs de l’industrie musicale.

Plus d’information:
Javier Nistal et al, Diff-A-Riff : co-création d’accompagnement musical via des modèles de diffusion latente, arXiv (2024). DOI : 10.48550/arxiv.2406.08384

Plus d’images et d’audio disponibles sur : sonycslparis.github.io/diffariff-companion/

Informations sur la revue :
arXiv

© 2024 Réseau Science X

Citation: Sony introduit l’IA pour la génération d’accompagnement sur un seul instrument dans la production musicale (26 juin 2024) récupéré le 26 juin 2024 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.



Related posts

Une nouvelle technique de microscopie computationnelle permet d’obtenir des images plus nettes

L’électrode douce et extensible simule les sensations tactiles à l’aide de signaux électriques

Mise à jour du manuel sur la polarisation dans le nitrure de gallium pour optimiser les semi-conducteurs à large bande interdite