La réalité augmentée (AR) et la réalité virtuelle (VR) sont conçues pour reproduire artificiellement l'expérience de navigation dans certains environnements. Ces dernières années, les sociétés de jeux vidéo et de divertissement ont produit des contenus de plus en plus immersifs accessibles via ces technologies.
Certains outils informatiques peuvent faciliter la création de contenu VR ou AR, permettant aux ingénieurs de produire des modèles réalistes d'environnements du monde réel. Ces outils incluent ce que l'on appelle des modèles acoustiques d'environnement, conçus pour représenter de manière fiable la façon dont les sons sont transformés par les caractéristiques physiques des différents environnements intérieurs.
Des chercheurs de l'Université du Texas à Austin ont récemment introduit ActiveRIR, une nouvelle approche permettant d'estimer et de modéliser efficacement l'acoustique des environnements. Cette approche, introduite dans un article publié sur le serveur de préimpression arXivutilise l'apprentissage par renforcement pour produire des modèles acoustiques de haute qualité reposant sur seulement quelques échantillons acoustiques.
“Nous nous intéressons depuis un certain temps déjà au sujet de l'estimation efficace de l'acoustique de l'environnement”, ont déclaré Arjun Somayazulu et Sagnik Majumder, co-auteurs de l'article, à Tech Xplore.
« Dans ce contexte, « l'efficacité » fait référence à la notion d'utilisation d'un ensemble limité de mesures acoustiques dans un nouvel environnement 3D pour estimer l'acoustique de l'ensemble de la scène. L'estimation de l'acoustique de la scène peut faciliter les applications AR/VR, où l'on souhaite restituer spatialement. des sons appropriés pour une scène 3D.”
Les approches conventionnelles de modélisation de l'acoustique ne peuvent produire des estimations fiables qu'après avoir analysé une grande quantité d'échantillons audio collectés dans l'environnement d'intérêt. Cela les rend peu pratiques, car ils épuiseraient la batterie des appareils VR/AR et nécessiteraient beaucoup de temps pour effectuer des estimations.
“Avec cette motivation à l'esprit, nous avons d'abord proposé l'idée d'un apprentissage audiovisuel de l'acoustique de l'environnement en quelques plans, dont l'objectif est de prédire l'acoustique de la scène en utilisant très peu d'échantillons audiovisuels”, ont expliqué Somayazulu et Majumder.
“Cependant, ce travail et d'autres travaux simultanés sont limités dans la mesure où ils sélectionnent au hasard quelques points de la scène pour collecter les échantillons, ce qui pourrait être sous-optimal dans la mesure où les points choisis au hasard pourraient ne pas constituer le meilleur ensemble d'échantillons en termes de capture de la scène globale. acoustique.
“En outre, ils supposent une connaissance préalable du plan de l'environnement, qui pourrait ne pas être disponible pour des environnements auparavant inédits, et ignorent le temps et l'énergie qu'il faudrait pour couvrir physiquement tous les points choisis au hasard, ce qui le rend un peu déconnecté des applications du monde réel. “.
Dans le cadre de leur récente étude, Somayazulu et Majumder ont entrepris de remédier aux limites de leur méthode proposée précédemment pour modéliser l'acoustique environnementale, en utilisant une nouvelle tâche connue sous le nom d'échantillonnage acoustique actif. Cette tâche implique l'utilisation d'un agent incarné qui se déplace dans un environnement 3D inconnu, tout en décidant activement où collecter des échantillons audiovisuels qui faciliteraient le mieux l'estimation de l'acoustique de l'environnement.
“L'agent opère à la fois avec un budget temporel et un budget exemplaire”, ont déclaré Somayazulu et Majumder. “Alors que le budget temps garantit que l'agent navigue efficacement, le budget échantillon garantit que l'agent ne collecte pas d'échantillons qui ne fournissent pas d'informations significatives sur l'acoustique de l'environnement. La combinaison de ces deux budgets améliore l'efficacité de la tâche d'estimation acoustique en limitant le temps et l'énergie utilisés pour la tâche.
Le modèle ActiveRIR, l'approche introduite par cette équipe de recherche, se compose de deux composants principaux qui se complètent. La première est une politique d’échantillonnage audiovisuel, tandis que la seconde est un modèle d’estimation acoustique.
“La politique d'échantillonnage prend des instantanés audiovisuels à la première personne de l'environnement et prend deux décisions importantes : a) comment se déplacer dans la scène et b) où collecter un échantillon pour estimer l'acoustique de la scène”, ont déclaré Somayazulu et Majumder.
“Le modèle d'estimation acoustique prend ces échantillons et améliore continuellement son estimation de l'acoustique globale de la scène. Ces deux composants partagent une relation symbiotique.”
Les deux composants d'ActiveRIR travaillent en étroite collaboration pour finalement produire des modèles acoustiques d'environnement réalistes. La politique d'échantillonnage partage les échantillons audiovisuels les plus informatifs avec l'estimateur acoustique, lui permettant d'estimer de manière fiable l'acoustique d'un environnement donné. À son tour, l’estimateur acoustique aide la politique d’échantillonnage à diriger un agent incorporé vers les endroits où la collecte d’échantillons serait la plus bénéfique pour les prédictions acoustiques.
Les chercheurs ont évalué leur approche dans une série de tests, comparant ses performances à celles d'autres techniques d'estimation de l'acoustique. Ils ont constaté que leur politique d'échantillonnage fonctionnait bien mieux que de nombreuses méthodes existantes de planification de mouvement et de collecte d'échantillons acoustiques, y compris des techniques de pointe qui apprennent à collecter des échantillons à de nouveaux endroits d'une scène.
“Notre cadre est suffisamment modulaire et généralisable pour prendre en charge plusieurs modèles d'estimation acoustique différents, ce qui suggère la possibilité qu'il puisse être utilisé pour améliorer l'efficacité de l'échantillonnage de n'importe quel modèle disponible dans le commerce existant de votre choix, tout en faisant un minimum de compromis sur son estimation acoustique. qualité”, ont déclaré Somayazulu et Majumder.
La nouvelle approche introduite par cette équipe de chercheurs pourrait bientôt être testée dans une plus grande variété de contextes en utilisant différents agents pour collecter des échantillons audiovisuels. À terme, cela pourrait contribuer à la production de davantage de contenus VR et AR reproduisant de manière réaliste les sons de scènes 3D spécifiques.
“Jusqu'à présent, nous avons testé notre modèle sur une plateforme de simulation de scènes intérieures très réaliste”, ont ajouté Somayazulu et Majumder. “Pour l'avenir, cependant, il serait intéressant d'explorer la possibilité de combler le fossé entre la simulation et le monde réel en évaluant les performances d'ActiveRIR sur un robot physique dans un espace intérieur réel.”
Plus d'information:
Arjun Somayazulu et al, ActiveRIR : Exploration audiovisuelle active pour la modélisation de l'environnement acoustique, arXiv (2024). DOI : 10.48550/arxiv.2404.16216
arXiv
© 2024 Réseau Science X
Citation: Une nouvelle approche pour modéliser efficacement l'acoustique d'un environnement (29 mai 2024) récupéré le 29 mai 2024 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.