Prédire la réponse des gènes fongiques à l’aide d’une nouvelle approche d’apprentissage automatique


Le modèle FUN-PROSE prédit avec précision l’expression génique spécifique à une condition pour trois espèces fongiques différentes. Les résultats de FUN-PROSE prédisent l’expression génique spécifique à une condition de N. crassa (a), S. cerevisiae (b) et I. orientalis (c). Le panneau supérieur montre des nuages ​​de points des niveaux d’expression prédits (axe des y) et mesurés expérimentalement (axe des x), la couleur représentant la densité des points. Les panneaux du bas montrent des matrices de confusion des niveaux d’expression discrétisés en trois catégories (faible, moyen et élevé) (voir le texte pour plus de détails). Crédit: Biologie computationnelle PLOS (2023). DOI : 10.1371/journal.pcbi.1011563

Les signaux provenant de l’environnement déclenchent une cascade de changements qui affectent différents gènes de différentes manières. Par conséquent, il est traditionnellement difficile d’étudier comment de tels signaux influencent un organisme. Dans une nouvelle étude, les chercheurs ont développé une approche d’apprentissage automatique appelée FUN-PROSE pour prédire comment les gènes réagissent à différentes conditions environnementales.

Les cellules, quel que soit l’organisme, ajustent leur réaction à leur environnement grâce à l’ARNm. Premièrement, ils utilisent des protéines appelées facteurs de transcription qui détectent les changements et se lient ensuite à la séquence d’ADN – appelée promoteur – devant les gènes. Cette fixation peut soit arrêter la formation d’ARNm à partir du gène, soit augmenter la quantité d’ARNm produite.

L’ARNm sert ensuite de modèle pour produire des protéines responsables de diverses fonctions dans la cellule. Ce mécanisme permet aux cellules de réaffecter rapidement les ressources aux processus nécessaires à la survie.

L’étude de la manière dont les promoteurs sont contrôlés est l’un des défis les plus anciens de la génomique, et pourtant les chercheurs continuent de s’y attaquer. Le plus gros problème est que différents facteurs de transcription peuvent se lier à la même séquence promotrice et le faire selon des arrangements différents et dans diverses conditions environnementales.

De plus, bien qu’il existe des preuves selon lesquelles les facteurs de transcription ont tendance à se lier à des motifs de séquence spécifiques dans les promoteurs, tous n’ont pas été étudiés de manière approfondie. Ces dernières années, les chercheurs se sont tournés vers l’intelligence artificielle pour les aider à résoudre ces défis.

“Les gènes ont un niveau d’expression moyen, et les modèles d’apprentissage automatique précédents étaient incapables de mesurer l’évolution de ces niveaux dans différentes conditions”, a déclaré Sergei Maslov (responsable du CAIM/CABBI), professeur de bio-ingénierie et de physique. “Nous souhaitions comprendre comment des gènes spécifiques réagissent aux changements de pH, de température et de nutriments.”

Les chercheurs ont développé un modèle appelé FUNgal PRomoter to condition-Specific Expression, ou FUN-PROSE, pour prédire comment la levure de boulanger (Saccharomyces cerevisiae) et les champignons moins étudiés Neurospora crassa et Issatchenkia orientalis réagiraient aux changements environnementaux.

Pour développer le modèle, les chercheurs ont d’abord dû identifier les séquences promotrices et les facteurs de transcription pour les trois espèces. Ensuite, ils ont formé le modèle pour savoir quels motifs promoteurs sont reconnus par les facteurs de transcription dans différentes conditions.

“Les facteurs de transcription de N. crassa et I. orientalis ne sont pas aussi connus que ceux de S. cerevisiae, nous avons donc dû déduire quels gènes peuvent être identifiés par des facteurs de transcription chez ces espèces”, a déclaré Ananthan Nambiar, étudiant diplômé du Groupe Maslov. Selon Veronika Dubinkina, ancienne étudiante diplômée du groupe Maslov, aujourd’hui chercheuse postdoctorale aux instituts Gladstone, ce processus impliquait une approche couramment utilisée consistant à rechercher des régions protéiques connues pour se lier à l’ADN.

Enfin, le modèle a appris à intégrer toutes les informations pour calculer la quantité d’ARNm produite dans une condition particulière par rapport au niveau moyen d’ARNm. Les chercheurs ont ensuite comparé les résultats obtenus avec FUN-PROSE aux données RNA-seq, qui mesurent les niveaux fluctuants d’ARNm des trois champignons. Chaque organisme possède plus de 4 000 gènes et 180 facteurs de transcription qui ont été mesurés dans 12 à 295 conditions, selon la qualité de leur étude.

“Prédire quels gènes sont importants dans un ensemble de conditions a toujours été un problème difficile. Cependant, nous avons constaté que notre modèle était très proche de prédire ce qui se passe réellement dans ces organismes”, a déclaré Nambiar.

En plus d’évaluer ses performances, les chercheurs ont élucidé la manière dont le modèle fait ses prédictions. “Même avec sa nature de boîte noire, nous avons pu comprendre comment notre modèle considère les promoteurs et avons constaté qu’il avait appris à rechercher des séquences connues”, a déclaré Simon Liu, ancien étudiant du groupe Maslov. “Être capable d’interpréter le modèle formé est essentiel pour valider sa logique ainsi que pour l’utiliser pour découvrir de nouvelles connaissances réglementaires.”

Le modèle rencontre cependant des difficultés avec des promoteurs qu’il n’a jamais rencontrés auparavant. “Le modèle est excellent avec de nouvelles conditions, mais si vous lui attribuez un nouveau gène ou une nouvelle séquence de promoteur, il commet des erreurs”, a déclaré Nambiar.

Selon Maslov, ces erreurs étaient dues au manque de données disponibles. “L’apprentissage automatique est une boîte noire, et vous devez bien l’entraîner pour pouvoir apprendre la biologie”, a-t-il déclaré. “Si nous pouvons obtenir plus de données, le modèle aura plus de modèles à partir desquels apprendre et des prédictions plus précises.”

Les chercheurs souhaitent désormais tester leur modèle sur d’autres organismes. “En principe, notre technique n’a aucune limite : elle devrait fonctionner sur n’importe quel organisme. Cependant, chez les animaux, par exemple, les gènes sont contrôlés de manière plus compliquée, ce qui nécessitera des changements importants dans l’architecture du modèle et beaucoup plus de données d’entraînement”, ” a déclaré Maslov. “Il serait néanmoins intéressant de voir les performances de ce modèle.”

La recherche est publiée dans la revue Biologie computationnelle PLOS.

Plus d’information:
Ananthan Nambiar et al, FUN-PROSE : Une approche d’apprentissage en profondeur pour prédire l’expression génique spécifique à une condition chez les champignons, Biologie computationnelle PLOS (2023). DOI : 10.1371/journal.pcbi.1011563

Fourni par l’Université de l’Illinois à Urbana-Champaign

Citation: Prédire la réponse des gènes fongiques à l’aide d’une nouvelle approche d’apprentissage automatique (20 novembre 2023) récupéré le 20 novembre 2023 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique