Créer des collages artistiques grâce à l’apprentissage par renforcement


Le “Color Face” fait de journaux, image source de pixabay.com/photos/girl-face-colorful-colors-artistic-2696947. Crédit : Dai et al.

Des chercheurs de l’Université nationale de Séoul ont récemment tenté de former un agent d’intelligence artificielle (IA) pour créer des collages (c’est-à-dire des œuvres d’art créées en collant divers morceaux de matériaux ensemble), reproduisant des œuvres d’art renommées et d’autres images. Le modèle proposé a été présenté dans un article pré-imprimé sur arXiv et présenté à l’ICCV 2023 en octobre.

“L’art du collage nécessite un haut niveau artistique humain, et nous nous demandions à quoi ressembleraient les œuvres de collage créées par l’IA”, ont déclaré les auteurs par courrier électronique à Tech Xplore. “Les outils de génération d’images IA existants comme DALL-E ou StableDiffusion peuvent déjà générer des images de collage, mais ils ne sont que des « imitations de collage » à partir de pixels, et non le collage réel issu des véritables étapes du collage. Ce que nous voulions faire, c’était entraîner l’IA à créer un « vrai collage ».

Dans une étude précédente axée sur la génération de peinture, les chercheurs ont utilisé l’apprentissage par renforcement (RL) pour apprendre à l’IA à peindre en suivant des étapes similaires à celles suivies par les humains. Ils ont alors commencé à se demander si cela pouvait également être réalisé pour la création de collages et ont commencé à travailler sur leur générateur d’œuvres d’art de collage autonome basé sur l’apprentissage par renforcement.

L’objectif principal de leur récent article était donc de former un agent d’IA à créer des collages aussi similaires que possible aux images cibles (par exemple, peintures, photographies, etc.) en déchirant et en collant plusieurs matériaux, en utilisant l’apprentissage par renforcement. Ces collages seraient créés à l’aide d’un ensemble de matériaux fournis par des utilisateurs humains.

“Notre modèle RL doit faire comprendre à un agent ce qu’est un collage et comment bien le faire”, expliquent les auteurs. “Comme RL nécessite fondamentalement de nombreux essais et erreurs, le modèle doit acquérir de l’expérience en interagissant avec une toile et en produisant un véritable collage.”






Comme les collages sont constitués de divers morceaux de matériaux, pour créer efficacement ces œuvres d’art, un agent doit d’abord tester diverses options de copier-coller pour finalement déterminer quels matériaux produisent un collage qui ressemble le mieux aux images cibles. Les chercheurs ont constaté qu’au départ, leur modèle fonctionnait très mal, mais qu’au fil du temps, ses compétences se sont considérablement améliorées.

“L’agent RL apprend à augmenter la récompense, la récompense étant définie comme une amélioration de la similarité entre son canevas et une image cible”, ont déclaré les auteurs. “La fonction de récompense continue également d’évoluer au fil du temps, apprenant à mieux évaluer la similitude entre le collage réalisé par l’agent et l’image cible.”

Au cours de la formation, le modèle des chercheurs a reçu une image aléatoire attribuée au hasard et a tenté de créer un collage reproduisant cette image sur une toile blanche. À chaque étape du collage, l’agent sélectionne un matériau aléatoire parmi les options disponibles et choisit comment le couper, le mettre au rebut et le coller sur la toile.

“Comme les images et le matériel des cibles sont donnés de manière aléatoire lors de la formation, l’agent devient capable de gérer n’importe quelle cible et n’importe quel matériel à un stade ultérieur”, ont expliqué les auteurs. “L’ensemble de ce processus est un peu compliqué pour l’utilisation du RL sans modèle existant, nous avons donc développé un environnement de collage différenciable pour permettre à l’agent de suivre facilement la dynamique du collage. Cela nous a permis d’appliquer le RL basé sur un modèle et d’améliorer les performances.”

Le programme de formation RL basé sur un modèle développé par les chercheurs s’inspire des travaux antérieurs sur les peintures basées sur RL. Cependant, l’équipe a développé son propre algorithme RL basé sur un modèle qui aborde la dynamique associée à la création de collages, qui est plus complexe que celle qui sous-tend la peinture.

L'”Oiseau” fait de journaux, image cible de pixabay.com/photos/kingfisher-bird-close-up-perched-2046453. Crédit : Dai et al.

“Alors que la peinture utilise un coup de pinceau prédéfini, un collage doit observer à quoi ressemble le matériau donné et comprendre comment le manipuler pour créer un fragment d’image approprié pour le collage total, comprenant la forme, la texture, les couleurs et les coordonnées”, ont déclaré les auteurs. . “Puisque SAC permet à un agent d’expérimenter diverses actions plus efficacement dans l’espace d’action continu que DDPG, qui était utilisé dans les peintures, SAC correspond à notre cas.”

Pour générer efficacement des collages, les auteurs ont utilisé leur modèle entraîné comme unité génératrice de collages partiels. Cette unité s’est avérée produire des collages haute résolution qui ressemblaient beaucoup à diverses images cibles.

“Nous avons également développé un module d’analyse de la complexité de l’image cible afin d’attribuer davantage de charge de travail au générateur de collages partiels aux endroits où la complexité est élevée”, a expliqué Lee. “Ce module peut améliorer la qualité esthétique des collages.”

Un avantage crucial de l’architecture de l’équipe est qu’elle ne nécessite aucun échantillon de collage ni donnée de démonstration, car elle a simplement été formée à l’aide d’exemples de matériaux et d’images cibles. Notamment, ces matériaux et images sont beaucoup plus faciles à collectionner que les œuvres d’art originales.

“Sans données ni connaissances artistiques, l’agent a appris de manière indépendante à réaliser un collage”, expliquent les auteurs. “La capacité de collage finale a été créée par la propre exploration de l’agent, ce qui constitue la découverte notable de ce travail ; cela montre la puissante capacité de RL en tant que domaine d’apprentissage sans données.”

L’« Église » faite de journaux. Crédit : Dai et al.

À mesure que le modèle formé par l’équipe a progressivement compris le processus de création de collages, celui-ci a pu se généraliser à un large éventail d’images et de scénarios. Jusqu’à présent, il n’a été testé que dans des simulations. Cependant, s’il est appliqué à un robot humanoïde ou à une main robotique, le modèle pourrait également fournir des « plans » pour la création de collages physiques.

“Construire un environnement dans lequel l’agent RL peut apprendre correctement était très difficile”, ont déclaré les auteurs. “Nous avons passé beaucoup de temps à développer et à définir des dynamiques et des actions de collage légitimes pour RL. De plus, pour gagner du temps de formation, nous devons les garder aussi compacts et efficaces que possible. De plus, nous devions garder la dynamique différenciable pour notre également un schéma RL basé sur un modèle.

L’art étant très subjectif, évaluer la qualité des collages produits par le modèle est un défi. Les chercheurs ont d’abord mené une étude auprès des utilisateurs, demandant à divers participants humains de partager leurs opinions et leurs commentaires sur les collages créés par l’IA.

“Nous avons mené une étude auprès des utilisateurs, mais cela pourrait ne pas suffire”, ont déclaré les auteurs. “Après mûre réflexion pour une évaluation plus objective, nous avons décidé d’utiliser CLIP, un grand modèle pré-entraîné de langage de vision. Étant donné que CLIP est formé avec environ 400 millions de paires texte-image, nous pensons qu’il a la capacité d’évaluer de manière plus objective que l’étude des utilisateurs. Avec l’étude des utilisateurs et CLIP, nous avons comparé notre modèle avec d’autres modèles de génération basés sur les pixels en évaluant le collage et la cohérence du contenu des images générées.

L’étude des utilisateurs et l’évaluation basée sur CLIP réalisée par les chercheurs ont donné des résultats similaires. Dans ces deux tests, le nouveau modèle s’est avéré surpasser les autres modèles pour la génération de collages.

La “Fille à la perle” réalisée à partir de journaux. Crédit : Dai et al.

Le modèle présenté dans cet article récent pourrait bientôt être développé et testé pour permettre des styles personnalisés utilisant une gamme plus large d’images et de matériaux. De plus, le travail de l’équipe pourrait inspirer le développement d’outils d’IA supplémentaires pour générer divers types d’œuvres d’art.

“Nous souhaitons désormais développer des stratégies permettant à nos modèles de s’adapter à diverses préférences de style”, ajoutent les auteurs. “En tant que travail futur, nous envisageons de développer une interface utilisateur interactive, qui puisse refléter les préférences de l’utilisateur lors de la création de collages par notre modèle.”

Plus d’information:
Ganghun Lee et al, Transfert de collage neuronal : reconstruction artistique via la manipulation de matériaux, arXiv (2023). DOI : 10.48550/arxiv.2311.02202

Ganghun Lee et al, From Scratch to Sketch: Apprentissage par renforcement hiérarchique découplé en profondeur pour l’agent d’esquisse robotique, Conférence internationale 2022 sur la robotique et l’automatisation (ICRA) (2022). DOI : 10.1109/ICRA46639.2022.9811858

Informations sur la revue :
arXiv

© 2023 Réseau Science X

Citation: Création de collages artistiques grâce à l’apprentissage par renforcement (26 novembre 2023) récupéré le 27 novembre 2023 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique