Le modèle de diffusion contrôlée peut modifier les propriétés matérielles des objets dans les images


Les chercheurs du MIT CSAIL ont contribué au développement d'un modèle de diffusion capable de modifier quatre propriétés matérielles des objets dans les images : la rugosité, la métallicité, l'albédo et la transparence. Crédit : Alex Shipps/MIT CSAIL

Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT et de Google Research viennent peut-être de réaliser de la sorcellerie numérique, sous la forme d'un modèle de diffusion capable de modifier les propriétés matérielles des objets dans les images.

Surnommé Alchemist, le système permet aux utilisateurs de modifier quatre attributs des images réelles et générées par l'IA : la rugosité, la métallicité, l'albédo (la couleur de base initiale d'un objet) et la transparence. En tant que modèle de diffusion d'image à image, on peut saisir n'importe quelle photo, puis ajuster chaque propriété sur une échelle continue de -1 à 1 pour créer un nouveau visuel. Ces capacités de retouche photo pourraient potentiellement s’étendre à l’amélioration des modèles dans les jeux vidéo, à l’extension des capacités de l’IA en matière d’effets visuels et à l’enrichissement des données d’entraînement robotique.

La magie derrière Alchemist commence avec un modèle de diffusion débruitant : en pratique, les chercheurs ont utilisé Stable Diffusion 1.5, qui est un modèle texte-image loué pour ses résultats photoréalistes et ses capacités d'édition. Des travaux antérieurs s'appuyaient sur le modèle populaire pour permettre aux utilisateurs d'effectuer des modifications de niveau supérieur, comme échanger des objets ou modifier la profondeur des images. En revanche, la méthode CSAIL et Google Research applique ce modèle pour se concentrer sur les attributs de bas niveau, en révisant les détails les plus fins des propriétés matérielles d'un objet avec une interface unique basée sur des curseurs qui surpasse ses homologues.

Alors que les systèmes de diffusion antérieurs pouvaient sortir un lapin proverbial d'un chapeau pour une image, Alchemist pouvait transformer ce même animal pour qu'il paraisse translucide. Le système pourrait également donner un aspect métallique à un canard en caoutchouc, supprimer la teinte dorée d'un poisson rouge et faire briller une vieille chaussure. Des programmes comme Photoshop ont des capacités similaires, mais ce modèle peut modifier les propriétés des matériaux de manière plus simple. Par exemple, modifier l’aspect métallique d’une photo nécessite plusieurs étapes dans l’application largement utilisée.

“Lorsque vous regardez une image que vous avez créée, le résultat n'est souvent pas exactement ce que vous avez en tête”, explique Prafull Sharma, Ph.D. du MIT. étudiant en génie électrique et informatique, affilié au CSAIL et auteur principal d'un nouvel article décrivant le travail. “Vous souhaitez contrôler l'image tout en la modifiant, mais les commandes existantes dans les éditeurs d'images ne sont pas en mesure de modifier les matériaux. Avec Alchemist, nous capitalisons sur le photoréalisme des sorties des modèles texte-image et développons un contrôle à curseur qui nous permet de modifier une propriété spécifique après avoir fourni l'image initiale.”

Contrôle précis

“Les modèles génératifs de texte en image ont permis aux utilisateurs quotidiens de générer des images aussi facilement que d'écrire une phrase. Cependant, contrôler ces modèles peut s'avérer difficile”, explique Jun-Yan Zhu, professeur adjoint à l'Université Carnegie Mellon, qui n'a pas participé à l'étude. .

“Bien que générer un vase soit simple, synthétiser un vase avec des propriétés matérielles spécifiques telles que la transparence et la rugosité nécessite que les utilisateurs passent des heures à essayer différentes invites de texte et des graines aléatoires. Cela peut être frustrant, en particulier pour les utilisateurs professionnels qui exigent de la précision dans leur travail. Alchimiste présente une solution pratique à ce défi en permettant un contrôle précis des matériaux d'une image d'entrée tout en exploitant les a priori basés sur les données des modèles de diffusion à grande échelle, inspirant les travaux futurs pour intégrer de manière transparente des modèles génératifs dans les interfaces existantes des logiciels de création de contenu couramment utilisés. “, a poursuivi Zhu.

Les capacités de conception d'Alchemist pourraient aider à peaufiner l'apparence de différents modèles dans les jeux vidéo. L'application d'un tel modèle de diffusion dans ce domaine pourrait aider les créateurs à accélérer leur processus de conception, en affinant les textures pour les adapter au gameplay d'un niveau. De plus, le projet de Sharma et de son équipe pourrait aider à modifier les éléments de conception graphique, les vidéos et les effets de films pour améliorer le photoréalisme et obtenir l'apparence matérielle souhaitée avec précision.

La méthode pourrait également affiner les données d’entraînement robotique pour des tâches telles que la manipulation. En présentant aux machines davantage de textures, ils peuvent mieux comprendre les divers éléments qu'ils saisiront dans le monde réel. Alchemist peut même potentiellement aider à la classification des images, en analysant les cas où un réseau neuronal ne parvient pas à reconnaître les changements matériels d'une image.

Le travail de l'équipe a dépassé les modèles similaires en éditant fidèlement uniquement l'objet d'intérêt demandé. Par exemple, lorsqu'un utilisateur a demandé à différents modèles d'ajuster un dauphin pour maximiser la transparence, seul Alchemist a réussi cet exploit tout en laissant le fond de l'océan inchangé. Lorsque les chercheurs ont formé un modèle de diffusion comparable InstructPix2Pix sur les mêmes données que leur méthode de comparaison, ils ont constaté qu'Alchemist obtenait des scores de précision supérieurs. De même, une étude utilisateur a révélé que le modèle MIT était préféré et considéré comme plus photoréaliste que son homologue.

Rester réel avec des données synthétiques

Selon les chercheurs, la collecte de données réelles n’était pas pratique. Au lieu de cela, ils ont entraîné leur modèle sur un ensemble de données synthétiques, en modifiant de manière aléatoire les attributs de 1 200 matériaux appliqués à 100 objets 3D uniques et accessibles au public dans Blender, un outil de conception graphique informatique populaire.

“Le contrôle de la synthèse d'images générative de l'IA a jusqu'à présent été limité par ce que le texte peut décrire”, déclare Frédo Durand, professeur d'informatique Amar Bose au Département de génie électrique et d'informatique (EECS) du MIT et membre du CSAIL, qui est un auteur principal du journal. “Ce travail ouvre un contrôle nouveau et plus fin pour les attributs visuels hérités de décennies de recherche en infographie.”

“Alchemist est le genre de technique nécessaire pour rendre les modèles d'apprentissage automatique et de diffusion pratiques et utiles à la communauté CGI et aux graphistes”, ajoute Mark Matthews, ingénieur logiciel senior et co-auteur de Google Research. “Sans cela, vous êtes coincé dans ce genre de stochasticité incontrôlable. C'est peut-être amusant pendant un moment, mais à un moment donné, vous devez accomplir un vrai travail et le faire obéir à une vision créative.”

Le dernier projet de Sharma intervient un an après qu'il ait mené des recherches sur Materialistic, une méthode d'apprentissage automatique capable d'identifier des matériaux similaires dans une image. Ce travail précédent a démontré comment les modèles d'IA peuvent affiner leurs compétences en matière de compréhension des matériaux et, comme Alchemist, a été affiné sur un ensemble de données synthétiques de modèles 3D de Blender.

Néanmoins, Alchemist présente actuellement quelques limites. Le modèle a du mal à déduire correctement l'éclairage, de sorte qu'il ne parvient parfois pas à suivre les entrées d'un utilisateur. Sharma note que cette méthode génère parfois également des transparences physiquement invraisemblables. Imaginez une main partiellement à l'intérieur d'une boîte de céréales, par exemple : au réglage maximum d'Alchemist pour cet attribut, vous verriez un récipient transparent sans que les doigts n'y pénètrent.

Les chercheurs aimeraient expliquer comment un tel modèle pourrait améliorer les ressources 3D pour les graphiques au niveau de la scène. Alchemist pourrait également aider à déduire les propriétés des matériaux à partir d’images. Selon Sharma, ce type de travail pourrait à l'avenir révéler des liens entre les caractéristiques visuelles et mécaniques des objets.

William T. Freeman, professeur au MIT EECS et membre du CSAIL, est également auteur principal, rejoignant Varun Jampani et les scientifiques de Google Research Yuanzhen Li, Ph.D., Xuhui Jia et Dmitry Lagun. Les travaux du groupe seront mis en valeur au CVPR en juin.

Plus d'information:
Prafull Sharma et al, Alchemist : Contrôle paramétrique des propriétés des matériaux avec des modèles de diffusion (2024)

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.

Citation: Le modèle de diffusion contrôlée peut modifier les propriétés matérielles des objets dans les images (28 mai 2024) récupéré le 28 mai 2024 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique