Informations

Quelle est la relation entre les réseaux d'interaction protéine-protéine et les réseaux métaboliques ?


J'essaie de savoir comment ces réseaux peuvent être reliés entre eux. Je sais que les réseaux d'interaction protéine-protéine et les réseaux métaboliques relèvent tous deux du type intracellulaire des réseaux biologiques qui décrivent le fonctionnement cellulaire. Mais quelle est la relation entre eux ?

Merci beaucoup.


Les protéines interagissent souvent entre elles à des fins de régulation et de localisation de plusieurs réactions enzymatiques pour une efficacité accrue. Par exemple, certaines protéines inhibent leurs partenaires de liaison. Ou le complexe de réplication de l'ADN est constitué d'un tas de protéines, dont beaucoup font des tâches différentes, mais elles sont dans un complexe physique (par exemple, une hélicase avec de l'ADN polymérase).

Les réseaux métaboliques sont des ensembles de réactions chimiques, ils peuvent même se produire dans différents compartiments à l'intérieur de la cellule. Alors que vous pouvez essayer d'étudier le réseau d'interaction protéique en réticulant les protéines, puis en analysant les complexes que vous extrayez, les réseaux métaboliques sont construits en déchiffrant des séquences de réactions chimiques (par exemple, les cycles métaboliques) et en trouvant les enzymes appropriées pour chaque réaction.

Le processus métabolique (par exemple, la réplication de l'ADN) peut être exécuté par des protéines en interaction, mais peut également inclure des protéines qui n'interagissent pas directement les unes avec les autres. Par exemple, le complexe d'ADN polymérase ne produit pas de nucléotides, mais ils sont nécessaires à sa fonction.


En bref, les protéines des réseaux d'interaction protéine-protéine remplissent une fonction en interagissant directement les unes avec les autres. Ils peuvent par exemple se lier les uns aux autres en formant des complexes permanents ou momentanés (par exemple la liaison de l'insuline au récepteur de l'insuline ou les morceaux de la combinaison F0-F1 ATPase), ou ils peuvent se modifier chimiquement (par exemple les protéines kinases ajoutant un phosphate au résidu d'un autre protéine).

Les protéines d'un réseau métabolique pourraient ne jamais être en contact physique les unes avec les autres. Ils s'influencent mutuellement en produisant des composés chimiques qui sont utilisés par d'autres enzymes, formant un réseau de transformations chimiques.

Bien entendu, une enzyme dans un réseau métabolique peut également voir son activité modulée en interagissant avec d'autres protéines dans un réseau protéine-protéine. Les deux termes ne s'excluent bien sûr pas l'un l'autre, mais décrivent différentes sortes de relations entre les protéines.


La structure de base des réseaux métaboliques (MN) est la suivante : molécule1 -> molécule2, où les bords sont des enzymes.

Et la structure de base du PPIN est la suivante : Protéine1 - Protéine2, où les bords sont les forces de van der Waals entre les protéines.

Il y a quelques différences, PPIN n'est pas directionnel et MN est directionnel dans le sens de la réaction spontanée. PPIN a deux modes d'interactions de date d'interaction (1-1) et d'interactions de partie (plusieurs-plusieurs).

Un moyen simple de combiner les deux est d'inverser le MN afin que les enzymes soient maintenant les nœuds et les métabolites soient maintenant les bords, comme ceci : enzyme1 -> enzyme2, puis ajoutez les protéines dans le PPIN, comme ceci : enzyme1(protein1) -> enzyme(protéine2). Mais de cette façon, vous devez démontrer que certaines propriétés du réseau sont conservées.


Réseaux d'interaction protéine-protéine

Les protéines sont des macromolécules vitales qui facilitent divers processus biologiques aux niveaux cellulaire et systémique. D'énormes processus moléculaires sont régulés via un grand nombre de composants protéiques organisés par des interactions protéine-protéine (IPP), qui font référence à des contacts physiques intentionnels établis entre deux ou plusieurs protéines et qui ont entraîné des événements biochimiques spécifiques. De telles interactions se déroulent au cœur de l'ensemble du système d'interaction des cellules vivantes, sans surprise, des IPP spécifiques sont identifiés avec une corrélation de plusieurs maladies.

Figure 1. Points chauds d'interaction protéine-protéine et sites allostériques. (Turnbull A P. et al. 2014)

La découverte et la vérification de l'interaction protéine-protéine est la première étape pour comprendre où, comment et dans quelles conditions ces protéines interagissent in vitro / in vivo et leurs implications fonctionnelles sous-jacentes aux interactions. Comme le montre le tableau 1, certaines méthodes populaires dans les études PPI énumérées ci-dessous.

Tableau 1. Les méthodes les plus populaires dans les études PPI

MéthodeTypes d'IPP
Co-Immunoprécipitation (co-IP)Stable ou fort
Dosage Pull-DownStable ou fort
Analyse d'interaction de protéines de réticulationTransitoire ou faible
Analyse d'interaction de protéines de transfert d'étiquettesTransitoire ou faible
Analyse Far-Western BlotMoyennement stable

Analyse des interactions protéine-protéine chez Creative Proteomics

Diverses techniques ont été appliquées dans notre groupe pour étudier les IPP. Chaque méthode a ses propres avantages et limites. Nous instruisons la méthode la mieux adaptée à nos clients. Nos services comprennent, sans s'y limiter :

Co-IP est un outil utile in vitro méthode pour évaluer les protéines impliquées dans le complexe et si elles se lient étroitement les unes aux autres. L'identification des PPI utilise des anticorps spécifiques à la protéine cible pour capturer les protéines qui sont liées à la protéine cible spécifique. Co-IP permet de capturer et de purifier non seulement la cible principale, mais aussi d'autres macromolécules impliquées dans les interactions.

Le test pull-down est capable de détecter une interaction physique entre deux ou plusieurs protéines et identifie des IPP jusque-là inconnus. Dans un essai pull-down, une protéine d'appât est marquée et immobilisée sur une résine d'affinité. Lorsqu'un échantillon incube avec les protéines d'appât, les protéines se liant à la protéine d'appât seront capturées et « tirées vers le bas ».

L'analyse de l'interaction des protéines de réticulation convient aux interactions transitoires ou faibles, qui peuvent être effectuées in vivo ou in vitro. Dans cette méthode, la solution analytique, comme les réactifs de réticulation ou les agents de réticulation, permet d'arrêter les complexes protéine-protéine par liaison covalente, suivie d'un isolement et d'une caractérisation conséquents.

Le transfert d'étiquette a été appliqué pour détecter les PPI transitoires ou faibles qui sont difficiles à capturer à l'aide d'autres in vitro stratégies de détection. Un réactif de transfert de marqueur sera effectué pour marquer les protéines qui interagissent avec une protéine d'intérêt. Le développement de nouveaux réactifs et méthodes non isotopiques a amélioré une analyse de transfert de marqueur plus simple et plus accessible.

La procédure d'immunotransfert basée sur le transfert de Far-western détecte également les IPP in vitro et ne nécessitent pas de préserver l'état natif de la protéine cible. Dans cette méthode, une protéine « appât » purifiée et marquée est utilisée pour sonder la protéine « proie » cible sur la membrane.

Le résultat de deux ou plusieurs protéines qui interagissent avec un objectif fonctionnel spécifique peut être démontré de plusieurs manières différentes. Les effets mesurables des interactions protéiques ont été décrits comme suit :

  • Inactiver ou dénaturer une protéine
  • Modifier les propriétés cinétiques des enzymes
  • Créer un nouveau site de liaison, généralement pour les petites molécules effectrices
  • Changer la spécificité d'une protéine pour son substrat grâce à l'interaction avec différents partenaires de liaison
  • Rôle réglementaire dans un événement en amont ou en aval
  • Permettre la canalisation du substrat en déplaçant un substrat entre des domaines ou des sous-unités, résultant finalement en un produit final prévu

Creative Proteomics dispose d'une équipe de scientifiques ayant une expérience spécifique dans les études d'interaction protéine-protéine, notre plate-forme de réseau d'interaction protéine-protéine vous aidera à déchiffrer l'interaction protéine-protéine et à élargir les perspectives de votre recherche.

Notre procédure de commande est la suivante. Si vous avez des questions ou des exigences spécifiques, n'hésitez pas à nous contacter.

1. Turnbull A P, Boyd S M, Walse B. Découverte de médicaments à base de fragments et interactions protéine-protéine. Recherche et rapports en biochimie, 2014, 4: 13-26.


La biologie des systèmes et les réseaux métaboliques prédisent l'hétérosis

Lorsque des individus génétiquement éloignés sont croisés, leur progéniture montre souvent une plus grande vigueur que leurs parents pour les traits quantitatifs. Par exemple, la croissance est plus rapide, l'âge de reproduction est plus précoce, la fertilité est plus élevée et la résistance aux maladies est plus forte. Ce phénomène, appelé hétérosis, a été exploité par les humains dans la sélection animale et végétale et a des implications pour la biologie évolutive.

L'introduction de plantes à pollinisation croisée (hybrides) a été l'une des innovations les plus importantes dans l'agriculture et la sécurité alimentaire mondiale. La plupart des cultures annuelles présentent une hétérosis. Le maïs hybride, par exemple, peut produire deux fois plus que les plantes mères. Le taux de croissance de certaines levures hybrides dépasse celui des souches parentales de plus d'un ordre de grandeur.

Jusqu'à présent, l'hétérosis a été utilisé sans une connaissance complète des principes génétiques ou moléculaires sous-jacents. Parce que les effets de l'hétérosis peuvent être si impressionnants, une telle compréhension pourrait grandement faire progresser la sélection. Les études les plus récentes sur l'hétérosis se sont concentrées sur la détection de loci de traits quantitatifs (QTL) – des sections d'ADN en corrélation avec la variation d'un trait. Les QTL sont utilisés pour explorer les effets génétiques ou pour rechercher l'expression de transcrits ou de protéines dans des hybrides dans l'espoir d'identifier les mécanismes moléculaires de l'hétérosis dans des traits particuliers.

Cependant, des approches descriptives comme celle-ci ne peuvent pas fournir un modèle général et biologiquement réaliste expliquant l'omniprésence de l'hétérosis. C'est là qu'une approche systémique basée sur la modélisation des réseaux métaboliques s'avère utile.

Biologie des systèmes et des réseaux
L'hétérose a inspiré de nombreuses études génétiques, génomiques et moléculaires, mais a moins souvent été étudiée du point de vue de la biologie des systèmes, l'objectif du Pr Dominique de Vienne. Les biologistes des systèmes modélisent des systèmes biologiques complexes, tels que des molécules et leurs interactions au sein d'une cellule vivante, plutôt que d'examiner des parties isolées.

La biologie des réseaux permet de représenter et d'analyser des systèmes biologiques avec des outils dérivés de la théorie des graphes, qui utilise des structures mathématiques pour modéliser de multiples relations entre les objets, et la topologie, qui considère l'agencement des éléments d'un réseau.

L'analyse de réseau fonctionne avec la complexité du réseau pour extraire des informations significatives que vous n'auriez pas si les composants individuels étaient examinés séparément. L'explosion des données de l'ère « omique » de la recherche biologique a conduit à des approches plus systémiques de l'analyse des données et à un éloignement des études sur un seul gène/protéine.

L'ajout de la terminaison « omiques » à un terme moléculaire implique une évaluation complète d'un ensemble de molécules. La génomique, la première approche omique, s'est concentrée sur des génomes entiers par opposition à la génétique qui examine des variantes individuelles ou des gènes uniques. La protéomique quantitative fournit des données d'expression pour des centaines de protéines, y compris des enzymes, tandis que les techniques de métabolomique peuvent accéder à des milliers de métabolites.

L'hétérosis a inspiré des études génétiques, génomiques et moléculaires, mais a moins souvent été étudiée du point de vue de la biologie des systèmes.

Des informations complexes comme celle-ci peuvent être représentées par des réseaux pour modéliser le système biologique d'intérêt. Certains des types les plus courants de réseaux biologiques sont les réseaux d'interaction protéine-protéine, les réseaux métaboliques, les réseaux d'interaction génétique, les réseaux de régulation gène/transcriptionnel et les réseaux de signalisation cellulaire : l'hétérosis pourrait émerger de tous ces réseaux.

Étudier les relations génotype-phénotype
La constitution génétique d'un individu, son « génotype », détermine ses caractéristiques ou son « phénotype » dans un environnement donné. La relation génotype-phénotype est d'un intérêt fondamental pour les sélectionneurs car elle décrit comment le polymorphisme génétique provoque une variation phénotypique. Le polymorphisme génétique dû aux mutations du génotype produit la variété des formes observées dans les populations.

L'hétérosis en action. La plante du milieu est la progéniture des deux plantes de part et d'autre : sa vigueur accrue est nette. Crédit photo : Julie B. Fiévet

Si les relations génotype-phénotype étaient linéaires (proportionnalité entre les valeurs du génotype et du phénotype), la progéniture aurait des valeurs de trait intermédiaires par rapport à leurs parents, pas de meilleures. En fait, les processus cellulaires impliqués dans les fonctions et les structures biologiques sont complexes, et la relation entre les paramètres mesurables au niveau du génotype et du phénotype s'avère souvent non linéaire. Les modèles de réseau en biologie des systèmes sont généralement très non linéaires et peuvent être utilisés efficacement pour étudier les réponses du phénotype à la variation du génotype.

Dominique de Vienne et ses collègues suggèrent que l'hétérosis est une propriété émergente des systèmes vivants résultant de relations non linéaires entre variables génotypiques et phénotypes ou entre différents niveaux phénotypiques, du moléculaire à l'individu. Ils utilisent une approche systémique pour montrer que la clé pour comprendre l'hétérosis peut résider dans la « loi des rendements décroissants ».

Cette «loi» stipule que dans tous les processus de production, l'ajout de plusieurs facteurs tout en maintenant tous les autres constants produira finalement des rendements incrémentiels inférieurs. En termes biologiques, lorsque la concentration ou l'activité d'un composant cellulaire augmente progressivement, l'effet sur le phénotype est d'abord élevé mais commence ensuite à s'estomper.

La modélisation mathématique de la dominance physiologique a suggéré que l'hétérosis est une propriété intrinsèque des relations non linéaires entre les traits.

Par exemple, si la concentration d'une enzyme dans un réseau métabolique augmente, le flux métabolique (vitesse de synthèse de molécules catalysées par des enzymes) à travers ce réseau croît d'abord rapidement, puis ralentit au fur et à mesure que la concentration en enzyme augmente. Ainsi, la cinétique (ou les vitesses) des réactions biochimiques et moléculaires sont intrinsèquement liées de manière non linéaire aux concentrations enzymatiques.

La relation génotype-phénotype non linéaire est la clé de l'hétérosis
La non-linéarité a été démontrée à différents niveaux d'organisation, de la transcription/traduction génétique aux caractéristiques liées à la forme physique. Lorsqu'on considère un locus, il semble expliquer la dominance de l'allèle le plus actif sur le moins actif, comme proposé dès 1934 par Sewall Wright, un célèbre généticien évolutionniste américain.

Les améliorations technologiques ont fait progresser la sélection végétale. LuckyStep/Shutterstock.com

Lorsque le trait est contrôlé par de nombreux loci, ce qui est la situation la plus courante, l'hétérosis survient à la suite de deux phénomènes liés. Premièrement, les allèles récessifs légèrement délétères d'un parent sont complétés par des allèles dominants supérieurs de l'autre parent. L'hybride peut donc avoir une valeur plus élevée que les deux parents, et la vigueur hybride devrait donc être plus forte lorsque les parents sont génétiquement éloignés en raison d'une meilleure complémentarité. Ce modèle, de même, explique la dépression de consanguinité comme l'accumulation d'allèles récessifs délétères à des loci homozygotes, c'est-à-dire des loci avec des allèles identiques. Deuxièmement, la non-linéarité entraîne une épistasie, ce qui signifie que l'effet de la substitution d'un allèle par un autre dépend du génotype d'autres loci. Cet effet génétique joue également un rôle dans l'hétérosis.

Dominique de Vienne et ses collègues ont mathématiquement formalisé et validé le modèle dominance/épistasie de l'hétérosis expérimentalement en utilisant la génétique in vitro et in silico (simulée par ordinateur). Ils ont travaillé avec la voie glycolytique chez la levure pour étudier la prédiction et l'optimisation des flux métaboliques en relation avec l'hétérosis.

Ils ont d'abord reconstitué in vitro le segment amont à quatre enzymes de la voie de la glycolyse, simulant la variabilité génétique en faisant varier les concentrations d'enzymes dans des tubes à essai. Des « hybrides » ont été obtenus en mélangeant le contenu de tubes « parentaux », et leurs flux ont été mesurés. Ils ont constaté qu'habituellement la valeur phénotypique d'un hybride est supérieure à la moyenne de ses parents, et dans certains cas supérieure à celle du meilleur parent.

Ensuite, ils ont utilisé la modélisation mathématique. La modélisation des réseaux métaboliques s'appuie sur des outils mathématiques et des programmes informatiques spécialisés. Mais il est difficile d'identifier et d'estimer les nombreux paramètres enzymatiques des processus biochimiques. Ainsi, les efforts de modélisation basés sur des raccourcis conceptuels sont essentiels pour simuler des comportements cellulaires complexes à partir d'une plus petite quantité de données biologiques.

Un formalisme simplifié basé sur l'analyse du contrôle métabolique a été utilisé pour dériver des paramètres globaux qui représentaient le comportement cinétique de quatre enzymes de la partie amont de la glycolyse. Selon la structure de la voie et la position de l'enzyme dans la voie, un ou deux paramètres par enzyme suffisaient.

La variabilité génétique a été créée en faisant varier les concentrations d'enzymes in silico. Les parents virtuels ont été croisés pour obtenir des hybrides dont le flux a été calculé. Encore une fois, la courbure de la relation décrivant la relation génotype-phénotype a entraîné une hétérosis. Ce résultat est robuste, car il a été confirmé par une modélisation explicite de l'ensemble de la glycolyse et une approche similaire de la génétique in silico.

Ce mécanisme d'hétérosis est valable au-delà des systèmes métaboliques. Dans un autre travail récent, Dominique de Vienne, le co-auteur François Vasseur et ses collègues ont prédit avec succès l'amplitude de l'hétérosis pour deux caractères liés à la fitness - le taux de croissance et le nombre de fruits - dans des séries d'hybrides parmi les accessions d'Arabidopsis thaliana, une plante modèle précieuse pour études de croissance et de développement et le premier génome végétal à être entièrement séquencé.

Les traits d'intérêt étaient liés de manière non linéaire à la biomasse individuelle, de la même manière que les flux métaboliques sont liés de manière non linéaire aux concentrations enzymatiques. Cette non-linéarité oblige les hybrides à s'écarter de la valeur moyenne de leurs parents, ce qui conduit à leur meilleure vigueur. La modélisation mathématique a permis de prédire jusqu'à 75 % de l'amplitude de l'hétérosis alors que la distance génétique entre parents expliquait au mieux 7 % de l'hétérosis.

Les résultats mathématiques et expérimentaux suggèrent que l'apparition d'hétérosis chez les hybrides est une propriété systémique émergeant de la complexité biologique. Ces résultats étaient cohérents avec diverses observations en génétique quantitative et évolutive, et fournissent un modèle unifiant les effets génétiques sous-jacents à l'hétérosis. La vue géométrique de la relation génotype-phénotype chez les plantes cultivées a le potentiel de prédire l'hétérosis dans les traits affectant le rendement et la stabilité environnementale.

Réponse personnelle

Comment le domaine de la génétique végétale a-t-il évolué depuis que vous y travaillez ?

Depuis que j'ai commencé à travailler en génétique végétale, il y a eu une évolution spectaculaire des techniques disponibles pour le biologiste. Des robots pour le génotypage et le phénotypage à haut débit, des spectromètres de masse pour la protéomique et la métabolomique, des ordinateurs de plus en plus puissants, etc., permettent d'accumuler et d'analyser d'énormes quantités de données dans un temps relativement court. Il est désormais possible de cartographier finement et d'identifier des QTL pour les traits à tous les niveaux d'organisation biologique, des abondances de transcrits/protéines/métabolites aux composants de fitness, et de mieux comprendre les bases génomiques de la variation des traits phénotypiques. Pour le sélectionneur, la sélection assistée par marqueurs ou génomique permet de mettre en œuvre des méthodes de sélection plus efficaces.


Quelle est la relation entre les réseaux d'interaction protéine-protéine et les réseaux métaboliques ? - La biologie

Influence de la structure et de la fonction du réseau métabolique sur l'évolution des enzymes

7 5 R39 http://genomebiology.com/2006/7/5/R39

2006 Vitkup et al. titulaire de la licence BioMed Central Ltd. Il s'agit d'un article en libre accès distribué sous les termes de la Creative Commons Attribution License ( http://creativecommons.org/licenses/by/2.0 ), qui permet une utilisation, une distribution et une reproduction sans restriction sur tout support, à condition que l'œuvre originale soit correctement citée.

Évolution des enzymes métaboliques

Une analyse des contraintes évolutives, de la duplication des gènes et de l'essentiabilité dans le réseau métabolique de la levure démontre que la structure et la fonction d'un réseau métabolique façonnent l'évolution de ses enzymes.

La plupart des études sur l'évolution moléculaire sont axées sur des gènes et des protéines individuels. Cependant, la compréhension des principes de conception et des propriétés évolutives des réseaux moléculaires nécessite une perspective systémique. Dans le présent travail, nous relions l'évolution moléculaire au niveau des gènes aux propriétés systémiques d'un réseau métabolique cellulaire. Contrairement aux réseaux d'interaction protéique, où plusieurs études antérieures ont étudié l'évolution moléculaire des protéines, les réseaux métaboliques ont une fonction globale relativement bien définie. La capacité à considérer les flux dans un réseau métabolique nous permet de relier le rôle fonctionnel de chaque enzyme dans un réseau à sa vitesse d'évolution.

Nos résultats, basés sur le réseau métabolique de la levure, démontrent que d'importants processus évolutifs, tels que la fixation de mutations nucléotidiques uniques, les duplications de gènes et les suppressions de gènes, sont influencés par la structure et la fonction du réseau. Plus précisément, les enzymes centrales et hautement connectées évoluent plus lentement que les enzymes moins connectées. De plus, les enzymes transportant des flux métaboliques élevés dans des conditions biologiques naturelles subissent des contraintes évolutives plus élevées. Les gènes codant pour des enzymes avec une connectivité élevée et un flux métabolique élevé ont plus de chances de conserver des doublons au cours de l'évolution. Contrairement aux réseaux d'interaction protéique, les enzymes hautement connectées ne sont pas plus susceptibles d'être essentielles que les enzymes moins connectées.

L'analyse présentée des contraintes évolutives, de la duplication des gènes et de l'essentialité démontre que la structure et la fonction d'un réseau métabolique façonnent l'évolution de ses enzymes. Nos résultats soulignent le besoin d'approches systémiques dans les études de l'évolution moléculaire.

Evolution Biochimie et biologie structurale Bioinformatique

Dans la présente étude, nous demandons comment la topologie d'un réseau métabolique et les flux métaboliques (un flux métabolique est la vitesse à laquelle une réaction chimique convertit les réactifs en produits) à travers des réactions dans le réseau influencent l'évolution des gènes du réseau métabolique à travers des mutations ponctuelles et la duplication de gènes. Nos résultats suggèrent que la structure et la fonction du réseau doivent être comprises pour apprécier pleinement comment les réseaux métaboliques contraignent l'évolution de leurs parties. La présente étude est devenue possible avec la publication récente d'un compendium complet des réactions métaboliques chez la levure Saccharomyces cerevisiae 10 . Ce recueil comprend 1 175 réactions métaboliques et 584 métabolites, et concerne environ 16 % de tous les gènes de levure.

En utilisant les équations stoechiométriques qui décrivent les réactions chimiques, nous calculons la connectivité d'une enzyme comme le nombre d'autres enzymes métaboliques qui produisent ou consomment les produits ou réactifs de l'enzyme (voir Matériaux et méthodes et fichier de données supplémentaires 1). En d'autres termes, une enzyme métabolique A et une enzyme métabolique B sont connectées si elles partagent le même métabolite en tant que produit ou réactif. Les enzymes hautement connectées dans cette représentation sont des enzymes qui partagent des métabolites avec de nombreuses autres enzymes. Inclure les métabolites et les cofacteurs les plus fortement connectés tels que l'ATP ou l'hydrogène dans une représentation en réseau rendrait la structure du réseau dominée par ces quelques nœuds et obscurcirait les relations fonctionnelles entre les enzymes. Nous avons ainsi exclu le top 14 des métabolites les plus connectés : ATP, H, ADP, pyrophosphate, orthophosphate, CO2, NAD, glutamate, NADP, NADH, NADPH, AMP, NH3, et CoA 12 . Les résultats que nous rapportons ci-dessous sont qualitativement insensibles au nombre exact de métabolites éliminés.

Les enzymes hautement connectées évoluent lentement

Nous allons d'abord discuter de la façon dont la structure du réseau - en particulier, la position d'une enzyme dans le réseau - influence l'évolution de l'enzyme. Généralement, les enzymes dans les parties centrales du métabolisme telles que le cycle de l'acide tricarboxylique auront plus de voisins que les enzymes dans les voies métaboliques périphériques (Figure 1). La corrélation illustrée sur la figure 1 provient du fait que davantage d'enzymes connectées ont un accès direct à de nombreux nœuds de réseau et ont par conséquent des chemins plus courts vers d'autres enzymes du réseau. Les contraintes évolutives d'une enzyme métabolique peuvent être estimées par le rapport normalisé des substitutions non synonymes aux substitutions synonymes par site nucléotidique (Kune/Ks) qui s'est produite dans le gène codant pour l' enzyme 13 . Un petit Kune/Ks rapport suggère des contraintes évolutives plus élevées sur l'enzyme, c'est-à-dire une plus petite fraction de substitutions d'acides aminés acceptées. Dans notre analyse, nous avons utilisé le rapport moyen Kune/Ks d'orthologues sans ambiguïté dans quatre espèces de Saccharomyces séquencées : S. cerevisiae , S. paradoxus , S. bayanus et S. mikatae 14 . Le K moyenune/Ks les valeurs utilisées dans l'analyse principale ont été tirées de l'étude de Kellis et al. 14 . Nous avons également recalculé les ratios moyens en utilisant la méthode du maximum de vraisemblance de Yang et Nielsen 15 et avons obtenu des résultats qualitativement similaires.

La corrélation entre connectivité enzymatique et centralité dans le réseau métabolique de la levure

La corrélation entre la connectivité enzymatique et la centralité dans le réseau métabolique de la levure. Corrélation de rang de Spearman r = -0,74, P < 0,0001 Corrélation de Pearson r = -0,67, P < 0,0001. La centralité d'une enzyme est égale à la longueur moyenne des distances du réseau de l'enzyme à toutes les autres enzymes des réseaux (les paires d'enzymes non connectées par un chemin dans le réseau ont été exclues du calcul).

La figure 2 démontre une corrélation négative statistiquement significative entre la connectivité métabolique d'une enzyme et le rapport Kune/Ks (Corrélation de rang de Spearman r = -0,20, P = 1,1 × 10 -4 Corrélation de Pearson r = -0,18, P = 7 × 10 -4 ). L'encart de la figure 2 montre que cette association négative s'applique à un large éventail de connectivités et qu'elle n'est pas causée par un petit nombre de protéines hautement connectées. Le fichier de données supplémentaires 2 montre une corrélation négative plus faible entre les substitutions non synonymes (changement d'acide aminé) Kune et la connectivité des gènes (corrélation de rang de Spearman r = -0,13, P = 1,6 × 10 -2 ). La raison en est qu'en utilisant seulement Kune, au lieu du préférable Kune/Ks, en tant que mesure des contraintes évolutives, ne compense pas les différences spécifiques aux gènes dans les taux de substitution synonymes et introduit ainsi du bruit supplémentaire dans les données. Le fichier de données supplémentaires 3 montre que les substitutions (silencieuses) synonymes Ks et la connectivité enzymatique ne sont pas significativement corrélées (corrélation de rang de Spearman r = 0,056, P = 0,30). Ceci est normal, car les substitutions synonymes ne provoquent pas de changements d'acides aminés et sont donc sélectivement neutres aux fins de notre analyse.

La relation entre la connectivité enzymatique dans le réseau métabolique de la levure et la contrainte évolutive quantifiée par le Kune/Ks rapport

La relation entre la connectivité enzymatique dans le réseau métabolique de la levure et la contrainte évolutive quantifiée par le Kune/Ks rapport. Corrélation de rang de Spearman r = -0,20, P = 1,1 × 10 -4 Corrélation de Pearson r = -0,18, P = 7 × 10 -4 . La connectivité d'une enzyme métabolique est égale au nombre total d'autres enzymes du réseau produisant ou consommant les réactifs et les produits de l'enzyme. Kune est la fraction de substitutions de remplacement d'acides aminés par site de remplacement d'acides aminés sur l'ADN Ks est la fraction de substitutions silencieuses par site silencieux sur l'ADN. L'encart montre l'histogramme de la connectivité enzymatique par rapport à la contrainte évolutive médiane Kune/Ks (en utilisant les mêmes données que dans la figure principale). Les erreurs standard dans chaque casier sont également affichées.

Les enzymes qui transportent de grands flux métaboliques évoluent lentement

Corrélation entre l'amplitude du flux enzymatique et la contrainte évolutive Kune/Ks

Taux d'absorption maximum (mmol/gDW/h)

Corrélation de rang de Spearman (valeur P) avec des flux nuls

Corrélation de rang de Spearman (valeur P) sans flux nuls

La corrélation entre l'amplitude du flux enzymatique et la contrainte évolutive Kune/Ks a été calculé avec et sans enzymes portant des flux nuls. gDW, grammes de poids sec.

Corrélation de duplication de gènes avec connectivité et flux

Les duplications de gènes ont des effets opposés à ceux de la plupart des changements d'acides aminés : elles peuvent augmenter plutôt que réduire le flux par une réaction enzymatique. Nous avons établi que les enzymes hautement connectées et les enzymes avec un flux associé élevé sont particulièrement sensibles aux changements d'acides aminés (Figures 2 et 3). A l'inverse, leurs gènes codant pour des enzymes sont-ils également plus susceptibles de subir une duplication ? La figure 4 montre que c'est bien le cas pour la connectivité enzymatique. La figure démontre une association entre le nombre de doublons d'un gène codant pour une enzyme et la connectivité enzymatique (seules les enzymes ayant une identité de séquence supérieure à 40 % ont été considérées comme des doublons). La connectivité moyenne pour les gènes sans doublons est de 15,0, et pour les gènes avec doublons, elle est de 19,2 (test de Wilcoxon non paramétrique, P = 1,4 × 10 -4 ). Ce résultat suggère que les doublons d'enzymes produisant ou consommant des métabolites largement utilisés sont plus susceptibles d'être conservés dans l'évolution. La figure 5 et le fichier de données supplémentaires 5 démontrent qu'une association similaire existe entre un flux enzymatique non nul à travers une réaction et le nombre de doublons du gène codant de l'enzyme respective. Plus précisément, plus le flux à travers une réaction est élevé, plus un gène codant pour une enzyme a de doublons. Une association qualitative entre le flux enzymatique et la duplication de gènes a également été récemment démontrée par Papp et al. 22 .

La relation entre flux métabolique et contrainte évolutive

La relation entre flux métabolique et contrainte évolutive.(une) La relation entre les valeurs des flux métaboliques et la contrainte évolutive Kune/Ks pour la croissance aérobie sur glucose. (taux d'absorption maximale pour le glucose 15,3 mmol/g de poids sec (DW)/h absorption maximale d'oxygène 0,2 mmol/gDW/h). Corrélation de rang de Spearman r = -0,30 P = 2,7 × 10 -3 Corrélation de Pearson r = -0,24, P = 1,7 × 10 -2 . Les flux métaboliques ont été calculés en utilisant l'analyse du bilan de flux pour maximiser le taux de croissance cellulaire. Les flux supérieurs de plus de deux ordres de grandeur au flux médian non nul - représentant des flux glycolytiques importants - ont été exclus de l'analyse. (b) Identique à (a) mais en utilisant des coordonnées log pour l'amplitude du flux métabolique.

La relation entre la connectivité enzymatique et le nombre moyen de duplications dans les gènes correspondants codant pour les enzymes

La relation entre la connectivité enzymatique et le nombre moyen de duplications dans les gènes correspondants codant pour les enzymes. Les enzymes avec une identité de séquence supérieure à 40 % sur 100 acides aminés alignés ou plus ont été considérées comme des doublons.

La relation entre le nombre de doublons d'un gène codant pour une enzyme et l'ampleur du flux métabolique à travers la réaction enzymatique

Relation entre le nombre de doublons d'un gène codant pour une enzyme et l'ampleur du flux métabolique à travers la réaction enzymatique. Les résultats sont présentés pour la croissance aérobie sur glucose (taux d'absorption maximal pour le glucose 15,3 mmol/gDW/h oxygène 0,2 mmol/gDW/h). Les paires dupliquées putatives avec moins de 40 % de similarité d'acides aminés ou moins de 100 résidus d'acides aminés alignés ont été exclues.

Connectivité, essentialité et robustesse métabolique

Les contraintes évolutives sur les enzymes sont des indicateurs indirects de la robustesse métabolique aux changements d'acides aminés, changements qu'un réseau métabolique a toléré pendant plus de millions d'années d'évolution. Un autre type de robustesse biologique est celui contre les délétions complètes de gènes. La robustesse contre les délétions de gènes peut être dérivée d'études en laboratoire dans lesquelles les effets des délétions de gènes sur le taux de croissance et d'autres indicateurs de fitness sont étudiés 23 24 . Ces études déterminent des gènes essentiels, c'est-à-dire des gènes dont l'élimination dans un ou plusieurs environnements de laboratoire est effectivement mortelle. Notre utilisation des données d'essentialité disponibles est motivée par l'observation que les protéines hautement connectées dans les réseaux d'interaction protéique peuvent être plus susceptibles d'être essentielles à une cellule 1 . Nous avons effectué des analyses en utilisant des données sur les gènes essentiels dérivées d'une étude de délétion de gènes à grande échelle par Giaever et al. 23 et utilisé la base de données du génome Saccharomyces (SGD) 25 pour collecter les données d'essentialité.

La relation entre la connectivité enzymatique et l'essentialité des gènes

La relation entre la connectivité enzymatique et l'essentialité des gènes. La connectivité d'une enzyme métabolique est égale au nombre total d'autres enzymes du réseau produisant ou consommant les réactifs et les produits de l'enzyme. Les informations sur l'essentialité des gènes ont été obtenues à partir de l'étude de suppression systématique de gènes par Giaever et al. [23] en utilisant la base de données SGD [25].

En résumé, nous démontrons que les enzymes hautement connectées et les enzymes qui transportent des flux métaboliques élevés dans le réseau métabolique de la levure ont toléré moins de substitutions d'acides aminés au cours de leur histoire évolutive. Pourquoi les enzymes transportant des flux plus importants sont-elles plus contraintes ? La réponse probable vient de l'observation que la plupart des mutations affectant l'activité enzymatique peuvent réduire plutôt qu'augmenter le flux. Les enzymes transportant des flux élevés ont tendance à avoir des produits de réaction qui pénètrent dans un grand nombre de voies métaboliques. Par conséquent, une réduction mutationnelle de l'activité de telles enzymes devrait être plus préjudiciable qu'une réduction de l'activité d'enzymes avec un flux plus faible.

Nous montrons également que les gènes codant pour des enzymes à flux élevé ont plus de doublons. Surtout, nous ne prétendons pas que les duplications surviennent plus fréquemment pour les gènes dont les produits portent un flux élevé, mais que de telles duplications sont plus susceptibles d'être préservées dans l'évolution, en raison de l'avantage - un flux plus élevé - qu'elles offrent. Alors que les doublons d'un gène peuvent initialement être préservés grâce à une augmentation avantageuse du flux métabolique, après divergence, ils peuvent fournir d'autres avantages fonctionnels 30 . La divergence des gènes métaboliques dans leur expression et leur régulation est bien établie pour le gène dans des parties du métabolisme intensément étudiées, telles que les enzymes du cycle de l'acide tricarboxylique 31 .

Nous avons constaté que l'association entre le flux enzymatique prédit et le taux d'évolution est plus prononcée pour les sources de carbone qui dominent l'environnement naturel de la levure. Cela suggère que l'on peut utiliser l'association entre flux et contrainte évolutive pour rechercher les conditions qui ont dominé l'évolution des réseaux métaboliques. Des analyses similaires, qui utilisent des données génomiques pour déduire l'environnement qui a façonné l'évolution d'un organisme, ont déjà été utilisées pour montrer que la limitation en carbone peut avoir influencé l'évolution du réseau métabolique d'E. coli plus fortement que la limitation en azote 19 , et pour montrer que l'évolution des levures a favorisé la fermentation par rapport à la respiration 32 .

Il ne faut pas s'étonner que les associations observées soient de faible amplitude. La raison de la faible amplitude est que de nombreux autres facteurs influencent l'évolution des gènes codant pour les enzymes. Deux de ces facteurs sont les niveaux d'expression des gènes (discutés dans l'article) et les contraintes découlant de la structure tertiaire et quaternaire des enzymes, qui peuvent différer selon les enzymes (on sait peu de choses sur ces contraintes). Le point clé est qu'outre tous ces autres facteurs, la fonction et la structure du réseau métabolique ont également une influence claire sur l'évolution des protéines.

En conclusion, notre analyse des contraintes évolutives, de la duplication des gènes et de l'essentialité démontre que la structure et la fonction d'un réseau métabolique façonnent l'évolution de ses enzymes. À long terme, les analyses systémiques des réseaux biologiques nous permettront de replacer de plus en plus l'évolution des gènes dans le contexte plus large dans lequel ils opèrent, en tant que blocs de construction des réseaux cellulaires.

Les données supplémentaires suivantes sont disponibles avec la version en ligne de ce document. Le fichier de données supplémentaires 1 est une figure montrant des exemples de connectivité métabolique. (a) Un exemple du réseau de réaction métabolique des métabolites du métabolisme des sphingoglycolipides est dessiné sous forme de petits cercles (DHSP, sphinganine 1-phosphate PETHM, phosphate d'éthanolamine SPH, sphinganine CDPETN, CDPéthanolamine ETHM, éthanolamine) et les gènes codant pour l'enzyme sont présentés dans des rectangles. (b) Connectivité métabolique du gène dpl1 (bords pleins), telle que définie par les réactions illustrées en (a). Le gène dpl1 a un total de six connexions métaboliques : deux établies par le phosphate d'éthanolamine (bords rouges) et quatre par le phosphate de sphinganine 1 (bords bleus). Les connexions métaboliques entre d'autres enzymes sont représentées par des bords en pointillés. Le fichier de données supplémentaires 2 démontre la relation entre la connectivité enzymatique et la divergence moyenne des acides aminés Kune. Corrélation de rang de Spearman r = -0,13, P = 1,6 × 10 -2 . Le fichier de données supplémentaires 3 montre la relation entre la connectivité enzymatique et la divergence silencieuse moyenne Ks. Corrélation de rang de Spearman r = -0,056, P = 0,30. Le fichier de données supplémentaires 4 est un histogramme des flux métaboliques calculés dans le réseau de levures pour la croissance aérobie sur glucose (taux d'absorption maximal pour le glucose 15,3 mmol/g poids sec/h oxygène 0,2 mmol/g poids sec/h).Notez le petit nombre de flux - représentant la glycolyse - avec des amplitudes disproportionnées. Des distributions de flux similaires ont également été obtenues pour d'autres conditions de croissance. Le fichier de données supplémentaires 5 montre la corrélation entre un flux enzymatique non nul à travers une réaction et le nombre de doublons du gène codant de l'enzyme respective. Le fichier de données supplémentaires 6 fournit la connectivité et les paramètres évolutifs (Kune/Ks, Kune, Ks) pour les enzymes métaboliques de la levure.

Exemples de connectivité métabolique

(a) Un exemple du réseau de réaction métabolique des métabolites du métabolisme des sphingoglycolipides est dessiné sous forme de petits cercles (DHSP, sphinganine 1-phosphate PETHM, phosphate d'éthanolamine SPH, sphinganine CDPETN, CDPéthanolamine ETHM, éthanolamine) et les gènes codant pour l'enzyme sont présentés dans des rectangles. (b) Connectivité métabolique du gène dpl1 (bords pleins), telle que définie par les réactions illustrées en (a). Le gène dpl1 a un total de six connexions métaboliques : deux établies par le phosphate d'éthanolamine (bords rouges) et quatre par le phosphate de sphinganine 1 (bords bleus). Les connexions métaboliques entre d'autres enzymes sont représentées par des bords en pointillés.

La relation entre la connectivité enzymatique et la divergence moyenne des acides aminés Kune

La relation entre la connectivité enzymatique et la divergence moyenne des acides aminés Kune. Corrélation de rang de Spearman r = -0,13, P = 1,6 × 10 -2

La relation entre la connectivité enzymatique et la divergence silencieuse moyenne Ks

La relation entre la connectivité enzymatique et la divergence silencieuse moyenne Ks. Corrélation de rang de Spearman r = -0,056, P = 0,30.

Histogramme des flux métaboliques calculés dans le réseau de levures pour la croissance aérobie sur glucose

Taux d'absorption maximal pour le glucose 15,3 mmol/g poids sec/h et pour l'oxygène 0,2 mmol/g poids sec/h. Notez le petit nombre de flux - représentant la glycolyse - avec des amplitudes disproportionnées. Des distributions de flux similaires ont également été obtenues pour d'autres conditions de croissance.

La corrélation entre le flux enzymatique non nul à travers une réaction et le nombre de doublons du gène codant de l'enzyme respective

La corrélation entre le flux enzymatique non nul à travers une réaction et le nombre de doublons du gène codant de l'enzyme respective.

Connectivité et paramètres évolutifs (Kune/Ks, Kune, Ks) pour les enzymes métaboliques de levure

Connectivité et paramètres évolutifs (Kune/Ks, Kune, Ks) pour les enzymes métaboliques de la levure.

Nous remercions le Dr Andrey Rzhetsky, le Dr Uwe Sauer et le Dr Eugene Koonin pour des discussions précieuses. Nous remercions également deux relecteurs anonymes pour plusieurs suggestions très utiles.

Létalité et centralité dans les réseaux de protéines.

Dispense de protéines et taux d'évolution.

Les gènes fortement exprimés dans la levure évoluent lentement.

Taux d'évolution dans le réseau d'interaction protéique.

Pas de dépendance simple entre la vitesse d'évolution des protéines et le nombre d'interactions protéine-protéine : seuls les interacteurs les plus prolifiques ont tendance à évoluer lentement.

Évolution moléculaire dans les grands réseaux génétiques : connectivité égale contrainte ?

Évaluation comparative d'ensembles de données à grande échelle sur les interactions protéine-protéine.

Quelle est la fiabilité des données expérimentales sur les interactions protéine-protéine ?

Le logiciel Pathway Tools.

Reconstruction à l'échelle du génome du réseau métabolique de Saccharomyces cerevisiae.

Le génotype métabolique d'Escherichia coli MG1655 in silico : sa définition, ses caractéristiques et ses capacités.

Combler les lacunes d'un réseau métabolique à l'aide d'informations d'expression.

Sunderland : Sinauer Associates

Séquençage et comparaison d'espèces de levures pour identifier des gènes et des éléments régulateurs.

Estimation des taux de substitution synonymes et non synonymes sous des modèles évolutifs réalistes.

Disséquer les circuits de régulation d'un génome eucaryote.

Capacités de production biochimique d'Escherichia coli.

Les prédictions in silico des capacités métaboliques d'Escherichia coli sont cohérentes avec les données expérimentales.

Analyse de l'optimalité dans les réseaux métaboliques naturels et perturbés.

Évaluation à grande échelle des délétions de gènes in silico chez Saccharomyces cerevisiae.

La biologie moléculaire de la levure Saccharomyces.

Presse Cold Spring Harbor, NY

Analyse du réseau métabolique des causes et de l'évolution de la dispensabilité enzymatique chez la levure.

Profilage fonctionnel du génome de Saccharomyces cerevisiae.

Criblage systématique des gènes de maladies humaines chez la levure.

Base de données du génome de Saccharomyces : principes sous-jacents et organisation.

Propriétés des réseaux métaboliques : structure versus fonction.

Rôle des gènes dupliqués dans la robustesse génétique contre les mutations nulles.

Robustesse contre les mutations dans les réseaux génétiques de la levure.

Analyse de robustesse du réseau métabolique d'Esherichia coli.

Fonctions métaboliques des gènes dupliqués chez Saccharomyces cerevisiae.

Génétique moléculaire des isozymes du cycle du TCA de levure.

Déduire le mode de vie à partir des modèles d'expression des gènes.

Boston : Fondation du logiciel libre

GenomeHistory : un outil logiciel et son application aux génomes entièrement séquencés.

Gapped BLAST et PSI-BLAST : une nouvelle génération de programmes de recherche de bases de données de protéines.

Une méthode générale applicable à la recherche de similitudes pour les séquences d'acides aminés de deux protéines.

Une approche de vraisemblance pour comparer les taux de substitution de nucléotides synonymes et non synonymes, avec application au génome chloroplastique.

Un modèle à base de codons de substitution de nucléotides pour des séquences d'ADN codant pour des protéines.


Les références

Watts, D. J. & Strogatz, S. H. Dynamique collective des réseaux du « petit monde ». La nature 393, 440–442 (1998).

Uetz, P. et al. Une analyse complète des interactions protéine-protéine dans Saccharomyces cerevisiae. La nature 403, 623–627 (2000).

Ito, T. et al. Une analyse complète à deux hybrides pour explorer l'interactome de la protéine de levure. Proc. Natl Acad. Sci. Etats-Unis 98, 4569–4574 (2001).

Rain, J.C. et al. La carte d'interaction protéine-protéine de Helicobacter pylori. La nature 409, 211–215 (2001).

Reboul, J. et al. C. elegans ORFeome version 1.1 : vérification expérimentale de l'annotation du génome et ressource pour l'expression des protéines à l'échelle du protéome. Genêt nature. 34, 35–41 (2003).

Giot, L. et al. Une carte d'interaction protéique de Drosophila melanogaster. Science 302, 1727–1736 (2003).

Rual, J.F. et al. Vers une carte à l'échelle du protéome du réseau d'interaction protéine-protéine humaine. La nature 437, 1173–1178 (2005).

Stelzl, U. et al. Un réseau d'interaction protéine-protéine humaine : une ressource pour annoter le protéome. Cellule 122, 957–968 (2005).

Butland, G. et al. Réseau d'interaction contenant des complexes protéiques conservés et essentiels dans Escherichia coli. La nature 433, 531–537 (2005).

Arifuzzaman, M. et al. Identification à grande échelle de l'interaction protéine-protéine de Escherichia coli K-12. Recherche sur le génome 16, 686–691 (2006).

Gavin, A.C. et al. Organisation fonctionnelle du protéome de levure par analyse systématique de complexes protéiques. La nature 415, 141–147 (2002).

Ho, Y. et al. Identification systématique des complexes protéiques dans Saccharomyces cerevisiae par spectrométrie de masse. La nature 415, 180–183 (2002).

Gavin, A.C. et al. L'étude du protéome révèle la modularité de la machinerie des cellules de levure. La nature 440, 631–636 (2006).

Krogan, N.J. et al. Paysage global des complexes protéiques dans la levure Saccharomyces cerevisiae. La nature 440, 637–643 (2006).

Tarassov, K. et al. Un in vivo carte de l'interactome de la protéine de levure. Science 320, 1465–1470 (2008).

Fell, D. A. & Sauro, H. M. Le contrôle métabolique et son analyse. Relations supplémentaires entre les élasticités et les coefficients de contrôle. EUR. J. Biochem. 148, 555–561 (1985).

Thomas, S. & Fell, D. A. Un programme informatique pour la détermination algébrique des coefficients de contrôle dans l'analyse du contrôle métabolique. Biochimie. J. 292, 351–360 (1993).

Durek, P. & Walther, D. L'analyse intégrée des réseaux d'interaction métabolique et protéique révèle de nouveaux principes d'organisation moléculaire. Biologie des systèmes BMC 2, 100 (2008). Fournit les différences topologiques entre les réseaux PPI et métaboliques.

Díaz-Mejía, J. J., Pérez-Rueda, E. & Segovia, L. Une perspective de réseau sur l'évolution du métabolisme par duplication de gènes. Biologie du génome 8, R26 (2007).

Jensen, R. A. Recrutement d'enzymes dans l'évolution d'une nouvelle fonction. Annu. Rév. Microbiol 30, 409–425 (1976).

Feist, A.M. et al. Une reconstruction métabolique à l'échelle du génome pour Escherichia coli K-12 MG1655 qui représente 1260 ORF et informations thermodynamiques. Mol. Syst. Biol. 3, 121 (2007).

Herrgård, M.J. et al. Une reconstruction consensuelle du réseau métabolique de la levure obtenue à partir d'une approche communautaire de la biologie des systèmes. Nature Biotechnol. 26, 1155–1160 (2008).

Duarte, N. et al. Reconstitution globale du réseau métabolique humain à partir de données génomiques et bibliomiques. Proc. Natl Acad. Sci. Etats-Unis 104, 1777–1782 (2007).

Sharan, R. et al. Modèles conservés d'interaction protéique chez plusieurs espèces. Proc. Natl Acad. Sci. Etats-Unis 102, 1974–1979 (2005).

Kanehisa, M. et al. KEGG pour relier les génomes à la vie et à l'environnement. Acides nucléiques Res. 36, D480–D484 (2008).

Joshi-Tope, G. et al. Reactome : une base de connaissances sur les voies biologiques. Acides nucléiques Res. 33, D428–D432 (2005).

Salwinski, L. et al. La base de données des protéines en interaction : mise à jour 2004. Acides nucléiques Res. 32, D449–D451 (2004).

Jensen, L.J. et al. STRING 8 — une vue globale sur les protéines et leurs interactions fonctionnelles dans 630 organismes. Acides nucléiques Res. 37, D412 (2009).

Jensen, L.J. & Bork, P. Biochimie. Pas comparable, mais complémentaire. Science 322, 56–57 (2008).

Yu, H. et al. Carte d'interaction protéique binaire de haute qualité du réseau d'interactome de levure. Science 322, 104–110 (2008).

von Mering, C. et al. Évaluation comparative d'ensembles de données à grande échelle sur les interactions protéine-protéine. La nature 417, 399–403 (2002).

Bader, J. S., Chaudhuri, A., Rothberg, J. M. & Chant, J. Gagner en confiance dans les réseaux d'interaction de protéines à haut débit. Nature Biotechnol. 22, 78–85 (2004).

Feist, A. M. & Palsson, B. Ø. Le champ d'application croissant des reconstructions métaboliques à l'échelle du génome utilisant Escherichia coli. Nature Biotechnol. 26, 659–667 (2008).

Jeong, H., Tombor, B., Albert, R., Oltvai, Z. N. & Barabási, A. L. L'organisation à grande échelle des réseaux métaboliques. La nature 407, 651–654 (2000).

Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N. & Barabási, A. L. Organisation hiérarchique de la modularité dans les réseaux métaboliques. Science 297, 1551–1555 (2002). La première démonstration d'une analyse topologique des réseaux biomoléculaires, suggérant que le réseau métabolique est sans échelle.

Barabási, A. L. & Oltvai, Z. N. Biologie des réseaux : comprendre l'organisation fonctionnelle de la cellule. Nature Rév. Genet. 5, 101–113 (2004).

van Noort, V., Snel, B. & Huynen, M. A. Le réseau de coexpression de levure a une architecture de petit monde, sans échelle et peut être expliqué par un modèle simple. Représentant EMBO 5, 280–284 (2004).

Wagner, A. Comment évolue la structure globale des réseaux d'interactions protéiques. Proc. Biol. Sci. 270, 457–466 (2003).

Rison, S. C. & Thornton, J. Pathway evolution, structurellement parlant. Opinion actuelle en biologie structurale 12, 374–382 (2002).

Janga, S. C. & Babu, M. M. Approches basées sur le réseau pour lier le métabolisme à l'environnement. Biologie du génome 9, 239 (2008).

Schmidt, S., Sunyaev, S., Bork, P. & Dandekar, T. Métabolites : un coup de main pour l'évolution des voies ? Tendances Biochem. Sci. 28, 336–341 (2003).

Horowitz, N. H. Sur l'évolution des synthèses biochimiques. Proc. Natl Acad. Sci. Etats-Unis 31, 153–157 (1945). Avec la référence 43, cet article fournit les premiers modèles évolutifs de réseaux biochimiques.

Ycas, M. Sur les états antérieurs du système biochimique. J. Théor. Biol. 44, 145–160 (1974).

Lazcano, A. & Miller, S. L. Sur l'origine des voies métaboliques. J. Mol. Évol. 49, 424–431 (1999).

Copley, R. & Bork, P. Homologie parmi (βα)8 barils : implications pour l'évolution des voies métaboliques. J. Mol. Biol. 303, 627–641 (2000).

Teichmann, S.A. et al. L'évolution et l'anatomie structurelle des voies métaboliques des petites molécules dans Escherichia coli. J. Mol. Biol. 311, 693–708 (2001).

Alves, R., Chaleil, R. A. & Sternberg, M. J. Evolution des enzymes dans le métabolisme: une perspective de réseau. J. Mol. Biol. 320, 751–770 (2002).

Raymond, J. & Segrè, D. L'effet de l'oxygène sur les réseaux biochimiques et l'évolution de la vie complexe. Science 311, 1764–1767 (2006).

Borenstein, E., Kupiec, M., Feldman, M. W. & Ruppin, E. Reconstruction à grande échelle et analyse phylogénétique des environnements métaboliques. Proc. Natl Acad. Sci. Etats-Unis 105, 14482–14487 (2008).

Gianoulis, T.A. et al. Quantification de l'adaptation environnementale des voies métaboliques en métagénomique. Proc. Natl Acad. Sci. Etats-Unis 106, 1374–1379 (2009).

Snel, B., Bork, P. & Huynen, M. A. Genomes in flux: the evolution of archaeal and proteobacterial gene content. Recherche sur le génome 12, 17–25 (2002).

Berg, J., Lässig, M. & Wagner, A. Structure et évolution des réseaux d'interaction protéique : un modèle statistique pour la dynamique des liens et les duplications de gènes. BMC Évol. Biol. 4, 51 (2004).

Campillos, M., Doerks, T., Shah, P. K. & Bork, P. Caractérisation informatique de plusieurs protéines humaines de type Gag. Tendances Genet. 22, 585–589 (2006).

Liang, H. & Li, W. H. Essentialité des gènes, duplicabilité des gènes et connectivité des protéines chez l'homme et la souris. Tendances Genet. 23, 375–378 (2007).

Rambaldi, D., Giorgi, F., Capuani, F., Ciliberto, A. & Ciccarelli, F. Faible duplicabilité et fragilité du réseau des gènes du cancer. Tendances Genet. 24, 427–430 (2008).

Molina, N. & van Nimwegen, E. L'évolution du contenu du domaine dans les génomes bactériens. Biologie Directe 3, 51 (2008).

Maslov, S., Krishna, S., Pang, T. Y. & Sneppen, K. Modèle de boîte à outils de l'évolution des réseaux métaboliques procaryotes et de leur régulation. Proc. Natl Acad. Sci. Etats-Unis 106, 9743–9748 (2009).

Raes, J., Korbel, J. O., Lercher, M. J., von Mering, C. & Bork, P. Prédiction de la taille effective du génome dans les échantillons métagénomiques. Biologie du génome 8, R10 (2007).

Sorek, R. et al. Détermination expérimentale à l'échelle du génome des obstacles au transfert horizontal de gènes. Science 318, 1449 (2007).

Prachumwat, A. & Li, W. H. Fonction, connectivité et duplicabilité des protéines chez la levure. Mol. Biol. Évo. 23, 30–39 (2006).

Han, J.D. et al. Preuve d'une modularité organisée de manière dynamique dans le réseau d'interaction protéine-protéine de levure. La nature 430, 88–93 (2004).

Jeong, H., Mason, S. P., Barabási, A. L. & Oltvai, Z. N. Létalité et centralité dans les réseaux de protéines. La nature 411, 41–42 (2001). Première démonstration d'une analyse à grande échelle des interactions physiques protéine-protéine en tant que réseau biomoléculaire.

Wuchty, S. Evolution et topologie dans le réseau d'interaction protéine de levure. Recherche sur le génome 14, 1310–1314 (2004).

Fraser, H. B. Modularité et contrainte évolutive sur les protéines. Genêt nature. 37, 351–352 (2005).

Drummond, D. A., Raval, A. & Wilke, C. O. Un seul déterminant domine le taux d'évolution des protéines de levure. Mol. Biol. Évo. 23, 327–337 (2006).

Ekman, D. et al. Quelles propriétés caractérisent les protéines hub du réseau d'interaction protéine-protéine de Saccharomyces cerevisiae? Biologie du génome 7, R45 (2006).

Lu, C. et al. Impacts de la structure du réseau métabolique de la levure sur l'évolution des enzymes. Biologie du génome 8, 407 (2007).

Ciccarelli, F. et al. Des réarrangements génomiques complexes conduisent à une nouvelle fonction génique de primate. Recherche sur le génome 15, 343–351 (2005).

Kim, P. M., Korbel, J. O. & Gerstein, M. B. Sélection positive à la périphérie du réseau de protéines : évaluation en termes de contraintes structurelles et de contexte cellulaire. Proc. Natl Acad. Sci. Etats-Unis 104, 20274–20279 (2007).

Roguev, A. et al. Conservation et recâblage de modules fonctionnels révélés par une carte d'épistasie chez la levure à fission. Science 322, 405–410 (2008). Montre des événements de recâblage sur le réseau d'interaction génétique avec des expériences et des analyses à grande échelle.

Conaway, R. & Conaway, J. Le complexe de remodelage de la chromatine INO80 dans la transcription, la réplication et la réparation. Tendances Biochem. Sci. 34, 71–77 (2009).

Jin, J. et al. In and out : échange de variants d'histones dans la chromatine. Tendances Biochem. Sci. 30, 680–687 (2005).

Shevchenko, A. et al. Chromatine centrale : vers le protéome comparatif par cartographie précise de l'environnement protéomique de la levure. Biologie du génome 9, R167 (2008).

Lorch, Y., Zhang, M. & Kornberg, R. Transfert d'octamère d'Histone par un complexe de remodelage de la chromatine. Cellule 96, 389–392 (1999).

Park, Y., Chodaparambil, J. V., Bao, Y., McBryant, S. J. & Luger, K. La protéine d'assemblage du nucléosome 1 échange les dimères d'histone H2A-H2B et aide le glissement des nucléosomes. J. Biol. Chem. 280, 1817–1825 (2005).

Park, Y. J. & Luger, K. La structure de la protéine d'assemblage des nucléosomes 1. Proc. Natl Acad. Sci. Etats-Unis 103, 1248–1253 (2006).

Walfridsson, J., Khorosjutina, O., Matikainen, P., Gustafsson, C. M. & Ekwall, K. Un rôle à l'échelle du génome pour les facteurs de remodelage CHD et Nap1 dans le désassemblage des nucléosomes. EMBO J. 26, 2868–2879 (2007).

Hahn, M. W. & amp Kern, A. D. Génomique comparative de la centralité et de l'essentialité dans trois réseaux d'interactions protéiques eucaryotes. Mol. Biol. Évo. 22, 803–806 (2005).

Barton, N. H. & Keightley, P. D. Comprendre la variation génétique quantitative. Nature Rév. Genet. 3, 11–21 (2002).

Maslov, S. & Sneppen, K. Spécificité et stabilité de la topologie des réseaux de protéines. Science 296, 910–913 (2002).

Zhu, D. & Qin, Z. S. Comparaison structurelle des réseaux métaboliques dans des organismes monocellulaires sélectionnés. BMC Bioinformatique 6, 8 (2005).

Wolf, D. M. & Arkin, A. P. Motifs, modules et jeux chez les bactéries. Cour. Avis. Microbiole. 6, 125–134 (2003).

Kreimer, A., Borenstein, E., Gophna, U. & Ruppin, E. L'évolution de la modularité dans les réseaux métaboliques bactériens. Proc. Natl Acad. Sci. Etats-Unis 105, 6976–6981 (2008).

Spirin, V. & Mirny, L. A. Complexes protéiques et modules fonctionnels dans les réseaux moléculaires. Proc. Natl Acad. Sci. Etats-Unis 100, 12123–12128 (2003).

Spirin, V., Gelfand, M. S., Mironov, A. A. & Mirny, L. A. Un réseau métabolique dans le contexte évolutif : structure multi-échelle et modularité. Proc. Natl Acad. Sci. Etats-Unis 103, 8774–8779 (2006).

Snel, B. & Huynen, M. A. Quantification de la modularité dans l'évolution des systèmes biomoléculaires. Recherche sur le génome 14, 391–397 (2004).

Ihmels, J., Levy, R. & Barkai, N. Principes de contrôle transcriptionnel dans le réseau métabolique de Saccharomyces cerevisiae. Nature Biotechnol. 22, 86–92 (2004).

von Mering, C. et al. L'évolution du génome révèle des réseaux biochimiques et des modules fonctionnels. Proc. Natl Acad. Sci. Etats-Unis 100, 15428–15433 (2003).

Yamada, T., Kanehisa, M. & Goto, S. Extraction de modules de réseau phylogénétique du réseau métabolique. BMC Bioinformatique 7, 130 (2006).

Campillos, M., von Mering, C., Jensen, L. J. & Bork, P. Identification et analyse de modules fonctionnels évolutifs cohérents dans les réseaux de protéines. Recherche sur le génome 16, 374–382 (2006).

Kelley, B.P. et al. Voies conservées au sein des bactéries et des levures révélées par l'alignement du réseau mondial de protéines. Proc. Natl Acad. Sci. Etats-Unis 100, 11394–11399 (2003).

Fokkens, L. & Snel, B. Évolution cohésive ou flexible des modules fonctionnels chez les eucaryotes. Calcul PLoS. Biol. 5, e1000276 (2009).

Parter, M., Kashtan, N. & Alon, U. Variabilité environnementale et modularité des réseaux métaboliques bactériens. BMC Évol. Biol. 7, 169 (2007).

Kashtan, N. & Alon, U. Evolution spontanée de la modularité et des motifs de réseau. Proc. Natl Acad. Sci. Etats-Unis 102, 13773–13778 (2005).

Bork, P. & Serrano, L. Vers des systèmes cellulaires en 4D. Cellule 121, 507–509 (2005).

Laub, M. T., McAdams, H. H., Feldblyum, T., Fraser, C. M. & Shapiro, L. Analyse globale du réseau génétique contrôlant un cycle cellulaire bactérien. Science 290, 2144–2148 (2000).

de Lichtenberg, U., Jensen, L. J., Brunak, S. & Bork, P. Formation de complexes dynamiques pendant le cycle cellulaire de la levure. Science 307, 724–727 (2005). Fournit un réseau d'interaction protéique dépendant du temps par expression génique, conduisant à l'étude de la dynamique des complexes protéiques.

Jensen, L.J., Jensen, T.S., de Lichtenberg, U., Brunak, S. & Bork, P.Co-évolution de la régulation transcriptionnelle et post-traductionnelle du cycle cellulaire. La nature 443, 594–597 (2006).

Hooper, S.D. et al. Identification de groupes de gènes étroitement régulés au cours Drosophila melanogaster embryogenèse. Mol. Syst. Biol. 3, 72 (2007).

Tomancak, P. et al. Détermination systématique des modèles d'expression des gènes au cours Drosophile embryogenèse. Biologie du génome 3, 0088 (2002).

Schmid, M. et al. Une carte d'expression génique de Arabidopsis thaliana développement. Genêt nature. 37, 501–506 (2005).

Haudry, Y. et al. 4DXpress : une base de données pour les comparaisons de modèles d'expression entre espèces. Acides nucléiques Res. 36, D847–D853 (2008).

Berg, J., Tymoczko J., Stryer L. et Clarke N. Biochimie (W.H. Freeman).

Shyamsundar, R. et al. Une enquête sur puce à ADN de l'expression des gènes dans les tissus humains normaux. Biologie du génome 6, R22 (2005).

Saito-Hisaminato, A. et al. Profilage à l'échelle du génome de l'expression des gènes dans 29 tissus humains normaux avec une puce à ADNc. ADN Res. 9, 35–45 (2002).

Erdo˝s, P. & Renyi, A. Sur la force de connexité d'un graphe aléatoire. Acta Maths. Suspendu. 12, 261–267 (1961).

Barabasi, A. L. & Albert, R. Emergence de la mise à l'échelle dans les réseaux aléatoires. Science 286, 509–512 (1999).

Karp, P.D. et al. Extension de la collection BioCyc de bases de données voies/génomes à 160 génomes. Acides nucléiques Res. 33, 6083–6089 (2005).

Roguev, A., Wiren, M., Weissman, J. S. & Krogan, N. J. Cartographie des interactions génétiques à haut débit chez la levure à fission Schizosaccharomyces pombe. Méthodes naturelles 4, 861–866 (2007).

Siegert, R., Leroux, M. R., Scheufler, C., Hartl, F. U. & Moarefi, I. Structure de la préfoldine chaperon moléculaire: interaction unique de plusieurs tentacules enroulés avec des protéines dépliées. Cellule 103, 621–632 (2000).


G-5. Le réseau d'interaction protéine-enzyme ubiquitine ligase E3 humaine

Kar G XE "Kar G" (1,*), Keskin O XE "Keskin O" (1), Nussinov R XE "Nussinov R" (2,3), Gursoy A XE "Gursoy A" (1)

L'ubiquitination est cruciale pour la dégradation des protéines dans les cellules eucaryotes. Il est obtenu par une cascade séquentielle d'enzymes d'activation de l'ubiquitine (E1), de conjugaison de l'ubiquitine (E2) et de ligature de l'ubiquitine (E3). Les ligases E3 médient le transfert d'ubiquitine des E2 vers les substrats et, en tant que telles, confèrent une spécificité de substrat. Malgré leur rôle essentiel, les connaissances actuelles sur leurs fonctions biologiques distinctes et leurs partenaires d'interaction sont limitées. Ici, en utilisant des données structurelles, des algorithmes de comparaison structurelle efficaces et des filtres appropriés, nous construisons un réseau d'interaction protéine-enzyme ubiquitine ligase E3 humaine.

Matériaux et méthodes

Nous compilons d'abord les structures disponibles pour les protéines E2 et E3 dans la voie d'ubiquitination humaine. Deuxièmement, nous appliquons notre algorithme de prédiction d'interaction protéine-protéine efficace PRISM, qui utilise des modèles d'interface protéine-protéine expérimentaux (rayons X, RMN) pour modéliser les interactions des protéines E3 et E2 dans une grande stratégie d'amarrage à l'échelle du protéome basée sur l'interface. motifs structurels. Ensuite, nous incluons la flexibilité et les considérations énergétiques dans notre modélisation à l'aide de FiberDock, un serveur de raffinement d'amarrage flexible, pour obtenir des interactions plus physiques et biologiquement pertinentes.

Résultats

L'analyse du réseau d'interaction protéine-enzyme ubiquitine ligase E3 humaine révèle des caractéristiques fonctionnelles importantes et découvre des interactions E3-E2 et E3-E3 inconnues a priori. Nos résultats montrent que les protéines E3 telles que Mdm2 et Huwe1 partagent des partenaires E2, ce qui peut expliquer comment Mdm2 et Huwe1 ubiquitinent la protéine suppresseur de tumeur p53 pour la dégradation. De plus, nous découvrons le mode d'interactions E3-E3 telles que Mdm2-Siah1, qui sont connues pour améliorer la dégradation de la protéine Numb.

Discussion

Ici, pour la première fois, nous avons construit un réseau structurel d'interaction protéine-enzyme ubiquitine ligase E3 humaine. Notre stratégie permet d'élucider à la fois quels E3 interagissent avec quels E2 dans la voie d'ubiquitination humaine et comment ils interagissent. En plus d'identifier les interactions E3-E2, notre stratégie révèle également des interactions E3-E3 fonctionnellement pertinentes dans la voie d'ubiquitination humaine qui étaient jusqu'à présent inconnues.

Affiliations d'auteurs

(1) Université Koc, Centre de biologie computationnelle et de bioinformatique et Collège d'ingénierie, Rumelifeneri Yolu, 34450 Sariyer Istanbul, Turquie (2) Programme de recherche fondamentale, SAIC-Frederick, Inc., Programme de nanobiologie du Centre de recherche sur le cancer, NCI-Frederick , Frederick, MD 21702, États-Unis (3) Sackler Inst. de médecine moléculaire, Département de génétique humaine et de médecine moléculaire, École de médecine Sackler, Université de Tel Aviv, Tel Aviv 69978, Israël


Méthodes

Construction du jeu de données

Des données expérimentales protéomiques/génomiques comparant les grossesses normales (N) et prééclamptiques (PE) ont été obtenues en analysant la base de données Gene Expression Omnibus (GEO) [37]. Les ensembles de données considérés sont représentés dans le tableau 4.

Chaque expérience a été analysée indépendamment afin de réduire le nombre de gènes. Dans notre cas, nous avons considéré une valeur p ajustée ≤0,05 et une expression de pli ≥2 comme discuté ailleurs [6, 7, 25–27, 38, 39]. Initialement, la valeur p a été obtenue par une procédure d'amorçage avec 1000 ou 10000 itérations (selon la taille de l'échantillon) obtenant 645 gènes modulés statistiquement significatifs, cependant, en appliquant la correction du taux de fausse découverte (FDR) par la méthode Benajmini-Hochberg [40 ], cet échantillon a été réduit à 330 gènes.

De plus, plusieurs outils d'exploration de text mining ont été utilisés pour compléter les résultats GEO. Il existe plusieurs outils pour effectuer une analyse d'exploration de données textuelles, mais plusieurs d'entre eux nécessitent des informations supplémentaires (c'est-à-dire la région chromosomique) à la place de la notation du phénotype ou des maladies (c'est-à-dire le nom de la maladie ou des mots-clés associés). Dans notre cas, nous choisissons les méthodes qui ne nécessitent pas de connaissances génétiques préalables de la maladie[8]. De plus, les procédures d'exploration de texte peuvent généralement fournir plusieurs associations faussement positives et, par conséquent, les outils qui combinent également l'exploration de texte avec d'autres sources de données dans l'analyse sont préférés [8, 41]. Compte tenu de ces aspects, nous avons utilisé les outils suivants : PolySearch[42], Candid[43] et Phenored[44]. Candid et PhenoPred utilisent plusieurs sources de données hétérogènes pour surmonter les biais alors que l'analyse PolySearch était limitée aux publications PubMed. Il est évident que de nombreux autres algorithmes pourraient être utilisés en alternative. Afin de réduire le risque d'inclure des relations biaisées, les 10 à 20 principaux gènes/protéines avec les scores les plus élevés ont été sélectionnés et analysés individuellement en tenant compte des publications scientifiques liées à la prééclampsie. Certains des principaux gènes étaient également présents dans l'ensemble de données précédent (GEO), par conséquent, l'ensemble de données final contenait 347 gènes.

Réseau d'interaction protéine-protéine (PPI)

Les protéines associées aux 347 gènes précédents ont été identifiées et croisées avec l'IRefIndex (v1.16)[45] et une base de données de signalisation organisée[46] qui ont été utilisées pour créer le réseau d'interaction protéine-protéine (PPI). La base de données IRefIndex fournit un index des interactions protéiques disponibles dans plusieurs bases de données telles que: BIND, BioGRID, DIP, HPRD qui simplifient le processus fastidieux de cartographie inter-base de données et conduisent à une couverture complète de l'espace d'interactions protéiques connues disponibles. En revanche, cette base de données PPI s'intègre facilement dans Cytoscape. De plus, de nombreuses maladies sont liées à des modifications des voies de signalisation et donc l'inclusion de cette base de données d'interaction améliore considérablement l'espace PPI. La recherche d'interaction a été limitée à Homo Sapiens et inclut toutes sortes de procédures expérimentales ainsi que certaines interactions prédictives (principalement issues de la base de données OPHID). La conservation de la base de données finale a été effectuée à la fois manuellement et à l'aide d'un logiciel maison pour supprimer les interactions en double et unifier la notation des isoformes avec des gènes uniques. Nous avons obtenu notre réseau PPI final avec 3279 interactions et 2400 nœuds.

Certaines des protéines présentes dans notre ensemble de données initial n'avaient aucune interaction expérimentale connue (au moins chez l'homme) et donc les 2400 nœuds ne couvrent que 234 (67,45 %) gènes de l'ensemble initial (347). La visualisation du réseau et les indices de topologie du réseau, calculés dans le processus de détection des hubs, ont été réalisés à l'aide de Cytoscape 2.8.2 et CytoHubba [47, 48].

Plusieurs méthodologies sont disponibles pour l'identification des hubs et des gènes essentiels, et toutes avec leurs avantages et leurs limites respectifs [47, 49-54]. Certaines stratégies sont l'utilisation d'algorithmes génétiques ou de procédures d'apprentissage automatique[49, 50], cependant, les approches de centralité sont de loin les procédures les plus appliquées même par simplicité et parce que plusieurs études avaient souligné son applicabilité[47, 51, 52] . Par conséquent, plusieurs indices de centralité ont été évalués : interdépendance, goulot d'étranglement, densité de la composante de voisinage maximale (DMNC), degré de nœud, composante de percolation des bords (EPC), excentricité, centralité de clique maximale (MCC), composante de voisinage maximale (MNC), radialité et contrainte [47]. D'autre part, pour obtenir un indice de notation, nous avons créé la mesure (Note I) comme suit:

Où Icje est les valeurs des indices de centralité et i = 1…Nc, et est le nombre d'indices de centralité calculés (Nc = 10). Comme nous pouvons le constater, je note est la somme de tous les pourcentages d'indices après normalisation individuelle et est donc limitée à une valeur maximale de 100 × Nc, ce qui simplifie encore mieux la sélection des gènes supérieurs. Avec les indices de centralité normalisés, nous avons également effectué une analyse de clustering basée sur un modèle à l'aide de R-package [53] afin d'étudier la distribution des hubs par rapport aux rangs de centralité. Nous avons également effectué une analyse de réseau de communauté (ou de cliques) par la méthode de percolation de clique en utilisant CFinder [54]. L'analyse de communauté fournit une meilleure description de la topologie du réseau, y compris l'emplacement des sous-graphes hautement connectés (cliques) et/ou des modules qui se chevauchent qui correspondent généralement aux informations biologiques pertinentes.

Analyse de l'enrichissement des voies et des maladies

L'analyse des voies et de l'enrichissement des maladies a été réalisée via la ressource bioinformatique DAVID 6.7 [55], en explorant les bases de données bien connues : KEGG, BioCarta et Reactome (liées aux voies) ainsi que OMIN et Genetic Association Database (GAD) (analyses liées aux maladies). Cette ressource en ligne (DAVID) intègre, dans une analyse informatique plus rapide, un large éventail d'analyses d'enrichissement de différentes bases de données fournissant également une description statistique substantielle. L'analyse a été réalisée en considérant l'espace génétique complet du réseau PPI. Nous avons également utilisé DAVID afin d'effectuer une analyse d'enrichissement de l'ontologie génique dans les clusters obtenus.


Démêler les interactions protéiques entre le virus tempéré Bam35 et son Bacille hôte utilisant une approche intégrative de séquençage hybride à haut débit de levure deux

Bacille le virus Bam35 est le modèle Bétatectivirus et membre du Tectiviridae famille, qui est composée de bactériophages sans queue, icosaédriques et contenant des membranes. L'intérêt pour ces virus a considérablement augmenté ces dernières années car ils sont considérés comme un lien évolutif entre divers groupes de virus procaryotes et eucaryotes. De plus, les bêtatectivirus infectent les bactéries du Bacillus cereus groupe, connu pour ses applications dans l'industrie et notoire car il contient de nombreux agents pathogènes. Ici, nous présentons le premier réseau d'interactions protéine-protéine pour un système tectivirus-hôte en étudiant le Bam35-Bacillus thuringiensis modèle utilisant une nouvelle approche qui intègre le système traditionnel à deux hybrides de levure et le séquençage à haut débit Illumina. Nous avons généré et analysé en profondeur une bibliothèque génomique de l'hôte de Bam35 B. thuringiensis HER1410 et les interactions criblées avec toutes les protéines virales en utilisant différentes combinaisons de couples appâts-proies. Au total, ce criblage a permis de détecter plus de 4 000 interactions potentielles, dont 183 interactions de haute confiance ont été définies dans le cadre de l'interactome virus-hôte de base. Dans l'ensemble, les protéines du métabolisme de l'hôte et les peptidases sont particulièrement enrichies dans les interactions détectées, distinguant ce système hôte-phage des autres réseaux d'interactions hôte-phage protéine-protéine (PPI). Notre approche suggère également des rôles biologiques pour plusieurs protéines Bam35 de fonction inconnue, résultant en une meilleure compréhension de la Bam35-B. thuringiensis interaction au niveau moléculaire.

Un résumé d'auteur Membres de la famille Tectiviridae, composé de bactériophages icosaédriques sans queue contenant une membrane, ont été de plus en plus examinés ces dernières années pour leur rôle possible dans l'origine des virus à ADNdb. En particulier, le genre Bétatectivirus reçoit une attention accrue car ces phages peuvent infecter des souches cliniques ainsi que des membres industriellement pertinents de la B. cereus grouper. Cependant, on sait peu de choses sur les interactions entre ces virus tempérés et leurs hôtes. Ici, nous présentons la première étude à haut débit des interactions protéine-protéine tectivirus-hôte en se concentrant sur Bam35, virus modèle des bêtatectivirus, et son hôte B. thuringiensis, une bactérie entomopathogène importante. Nous avons adapté la technique bien connue levure-deux hybrides et séquençage à haut débit intégré et bioinformatique pour l'analyse en aval des résultats qui permet une analyse à grande échelle des interactions protéine-protéine. Au total, 182 interactions détectées montrent un enrichissement en protéines métaboliques de l'hôte et en peptidases, contrairement aux connaissances actuelles sur les IPP hôte-phage. Des interactions spécifiques hôte-protéine virale-protéine ont également été détectées nous permettant de proposer des fonctions pour des protéines non caractérisées.


Résultats

Construction du Réseau des maladies humaines basées sur le métabolisme cellulaire.

Comme point de départ de notre analyse, nous avons utilisé la base de données de Ligands Kyoto Encyclopedia of Genes and Genomes (KEGG) (15) et une base de données de reconstructions de réseaux métaboliques à l'échelle du génome (BiGG) structurés biochimiquement, génétiquement et génomiquement (16), chacune représentant une liste organisée manuellement de réactions métaboliques dans une cellule humaine générique et les enzymes qui les catalysent. Nous avons utilisé la liste des paires d'associations trouble-gène disponible dans la base de données Online Mendelian Inheritance in Man (OMIM) (23) pour identifier les troubles associés à chacune des enzymes présentes dans le réseau métabolique humain (Fig. 1une), constatant que dans la base de données KEGG (BiGG), 737 (1 116) sur un total de 1 493 (3 742) réactions métaboliques sont associées à au moins une maladie. De même, 337 (378) parmi les 1 437 troubles distincts identifiés dans l'OMIM sont liés à au moins une réaction métabolique dans le KEGG (BiGG).

MDN. (une) Construction du MDN. (Supérieur) Une région locale de la glycolyse, où les enzymes catalytiques sont représentées sur fond rouge et leurs gènes correspondants sur fond orange. (Inférieur) Un voisinage local des maladies métaboliques (bleu) associées aux réactions montrées. Le gène ENO3 code pour l'enzyme catalysant la conversion entre le phosphoénolpyruvate et le glycérate-2P, et sa mutation est impliquée dans le développement du déficit en énolase-β. Les produits génétiques de PGAM2 et BPGM, catalysant la réaction impliquant le glycérate-2P et le glycérate-3P, sont liés à la myopathie et à l'anémie hémolytique. Ensuite, les deux maladies ne sont pas seulement liées l'une à l'autre mais également liées à un déficit en énolase-β en raison de la contiguïté de leurs réactions associées. (b) Dans la représentation en réseau, 308 maladies non isolées (nœuds) sont reliées par 878 liens métaboliques combinant les liens potentiels prédits par les reconstructions KEGG et OMIM. La couleur des nœuds indique la classe de la maladie (voir Texte SI et Dataset S1), et la taille du nœud est proportionnelle à la prévalence de chaque maladie dans l'ensemble de données Medicare. La largeur du lien entre les maladies est proportionnelle à la comorbidité C des deux maladies liées. Nous montrons en rouge les liens significatifs (P < 0,01) comorbidité. Des groupes de maladies associées au métabolisme des purines (ombrage bleu), au métabolisme des acides gras (ombrage rouge) et au métabolisme de la porphyrine (ombrage vert) sont présentés.

Si le même substrat est partagé entre deux réactions métaboliques, la rareté ou l'abondance de ce substrat peut affecter les flux des deux réactions, couplant potentiellement leur activité. Par exemple, dans la figure 1une, si la phosphoglycérate mutase n'est pas active, la production (ou la consommation) de glycérate-2P, et à son tour de phosphoénolpyruvate, devrait également être altérée. Dans ce qui suit, nous considérons deux réactions métaboliques liées si elles traitent un métabolite commun, c'est-à-dire si elles sont adjacentes l'une à l'autre dans une carte de réaction métabolique (voir Texte SI, Ensemble de données S1, Ensemble de données S2 et Ensemble de données S3).

L'activité altérée de certaines enzymes métaboliques est connue pour être associée à des troubles spécifiques. Par exemple, des mutations dans le ENO3 (qui code pour l'enzyme énolase) sont connus pour provoquer un déficit en énolase-β, une maladie autosomique récessive caractérisée par une faiblesse musculaire et une fatigabilité. De même, des mutations dans le BPGM (codant une isoforme de l'enzyme phosphoglycérate mutase) peut entraîner une anémie hémolytique. Notre hypothèse est que, étant donné que les deux maladies peuvent résulter de défauts métaboliques affectant les réactions couplées, liés par le glycérate-2P (Fig. 1une), leur pathogenèse peut également être liée. C'est-à-dire que nous émettons l'hypothèse que l'apparition de l'une des deux maladies chez un patient peut également augmenter la probabilité de développer l'autre phénotype de la maladie. La somme de tous ces liens basés sur le métabolisme cellulaire parmi les phénotypes de maladies peut être représentée comme un réseau de maladies humaines basé sur le métabolisme, ci-après dénommé réseau de maladies métaboliques (MDN). Dans le MDN, chaque nœud correspond à une maladie et deux maladies sont connectées si les réactions métaboliques auxquelles elles sont associées sont adjacentes, suggérant que leurs flux peuvent être couplés.

Caractériser le MDN.

Le MDN complet est illustré à la Fig. 1b. Le réseau a un grand groupe de maladies, souvent appelé le composant géant, dans la théorie des réseaux (11, 24-26) et plusieurs plus petits. Le composant géant comprend 197 troubles de diverses classes de maladies, telles que le diabète sucré, l'obésité, la maladie de Parkinson, l'asthme, la dépression unipolaire, l'hypertension et les maladies coronariennes. Le regroupement observé du MDN reflète l'existence de voies métaboliques distinctes. Pour illustrer cela, dans la Fig. 1b, nous avons mis en évidence avec des couleurs de fond les maladies associées à certaines des voies les plus connues. Par exemple, selon KEGG, le métabolisme des purines humaines consiste en 62 réactions associées à 33 maladies, dont l'anémie dysérythropoïétique congénitale et le déficit en nucléoside phosphorylase. Ces maladies forment un groupe visuellement distinct, mis en évidence en bleu sur la figure 1b. Le métabolisme des acides gras, contenant 34 réactions et 34 maladies associées, telles qu'une déficience en protéines trifonctionnelles et un syndrome d'hémolyse, des enzymes hépatiques élevées et une faible numération plaquettaire (HELLP) apparaît à nouveau comme un groupe hautement lié (ombrage rose sur la figure 1b).

Les caractéristiques statistiques du MDN sont présentées sur la figure S2. Nous constatons qu'en moyenne, une maladie est connectée à environ cinq autres maladies et que la distribution des degrés est beaucoup plus large que celle d'un réseau aléatoire avec le même nombre de nœuds et de liens, indiquant qu'il existe des différences considérables entre les relations basées sur le métabolisme. de diverses maladies. Par exemple, certaines maladies, comme l'hypertension, la résistance/sensibilité à la warfarine et l'anémie hémolytique, agissent comme des « centres » (11, 24, 27), avec des liens avec 27, 19 et 17 autres maladies, respectivement. En revanche, la majorité des maladies n'ont de liens qu'avec quelques autres maladies (voir Fig 1b, et les Fig. S3 et S4). Dans une certaine mesure, cela est attendu parce que les phénotypes de la maladie étudiés couvrent un large éventail de conditions, des troubles mendéliens simples, tels que le déficit en énolase-β (causé par le déficit d'une seule enzyme), aux maladies complexes très hétérogènes, telles que l'hypertension et diabète (pour lequel une fraction de l'apport génétique est sous forme d'allèles de susceptibilité qui ne sont ni nécessaires ni suffisants pour provoquer la maladie).

Expression Génique Et Relations Fonctionnelles Basées Sur Le Couplage De Flux Entre Les Gènes De La Maladie.

Pour examiner la pertinence fonctionnelle du MDN, nous avons ensuite exploré dans quelle mesure les liens prédits entre les maladies métaboliques et les enzymes associées représentent des relations fonctionnelles détectables. En utilisant les données publiées sur les puces à ADN pour l'expression des gènes dans 36 tissus humains normaux (28), nous avons calculé le coefficient de corrélation de Pearson (PCC) entre les profils d'expression de chaque paire de gènes dans le réseau métabolique. Nous constatons que la coexpression moyenne des paires de gènes connectées par des liens métaboliques est supérieure à la coexpression entre les gènes pour lesquels aucun lien métabolique n'est connu (29) (Fig. 2b et Fig. S5) avec P < 10 -8 . Par exemple, les gènes ENO3 et PGAM2 (Fig. 1une) ont un PCC = 0,66 avec P < 10 -5 , une augmentation de 7 fois par rapport à l'attente moyenne.

Couplage de flux et coexpression de gènes métaboliques. (une) Pour illustrer l'utilisation de l'analyse de couplage de flux, nous montrons les réactions qui affichent un couplage directionnel (DC) avec la réaction convertissant le propanoyl-CoA en (S)-méthylmalonyl-CoA. En bleu, nous indiquons les gènes codant pour les enzymes correspondantes, et en rouge, nous indiquons les maladies associées. La production (consommation) de pentadécanoyl-CoA est réalisée par une seule réaction, catalysée par CPT2 (ACADM, ACADS), et donc le rapport de leurs flux doit être constant (couplage complet FC). Au contraire, le propanoyl-CoA peut être produit par quatre réactions et n'est consommé que par une seule réaction. Par conséquent, un flux non nul de l'une de ces quatre réactions implique un flux non nul de la réaction consommant du propanoyl-CoA, mais l'inverse n'est pas le cas, qui est DC. En raison du FC entre les réactions produisant et consommant du pentadécanoyl-CoA, la réaction (CPT2) a également un courant continu avec la réaction (PCCA, PCCB). (b) Distribution du PCC pour toutes les paires de gènes liés au métabolisme et pour les paires de gènes connectés par des liens métaboliques sur la base de la base de données KEGG. (c) Moyenne PCC pour toutes les paires de gènes, toutes les paires de gènes liés au métabolisme, les gènes connectés par des liens métaboliques et les gènes associés à des réactions couplées par flux affichant DC ou FC. La coexpression est plus forte pour les gènes connectés et significativement plus élevée pour les gènes couplés au flux.

La relation causale entre les maladies peut ne pas se limiter à celles associées à des réactions adjacentes, mais pourrait s'étendre à des paires de maladies associées via des réactions dont les flux sont couplés (22, 30, 31). En utilisant la méthodologie de recherche de couplage de flux (22, 30-32), nous avons identifié deux types de couplage entre des paires de réactions je et j: (je) couplage directionnel (jej), si un flux non nul pour je implique un flux non nul pour j mais pas nécessairement l'inverse ou (ii) accouplement complet (jej), si un flux non nul pour je implique non seulement un non nul mais aussi un flux fixe pour j et vice versa (31) (Fig. 2une). Pour la reconstruction BiGG, nous avons identifié 2 605 paires de gènes catalysant des réactions à couplage de flux. La coexpression moyenne (PCC) des gènes couplés au flux est de 0,31, supérieure à 0,24 trouvée pour les gènes catalysant les réactions adjacentes et significativement supérieure à PCC = 0,10 caractérisant toutes les paires de gènes (Fig. 2c). Nous constatons également que les réactions connectées par couplage directionnel montrent un PCC significativement plus élevé (0,36) que celles entièrement couplées (PCC = 0,17) (Fig. 2c). Pris ensemble, ces résultats confirment l'existence de liens fonctionnels entre les réactions adjacentes et couplées au flux, suggérant l'importance de ces liens pour la coexistence des maladies associées chez l'homme.

Analyse de comorbidité.

Les pathobiologies de la maladie proviennent d'une rupture totale ou partielle des processus cellulaires physiologiques ainsi que d'interactions ultérieures (souvent compensatoires) entre les composants du génome, du protéome, du métabolome et de l'environnement. Par conséquent, l'activité du réseau métabolique affectée est susceptible de contribuer à la progression de la maladie et à la comorbidité au niveau de la cellule, de l'organe et de l'organisme.

Pour examiner si les liens du MDN prédisent les cooccurrences de maladies, nous avons analysé les dossiers Medicare de 13 039 018 patients âgés aux États-Unis qui, au cours de la période 1990-1993, ont eu un total de 32 341 348 visites à l'hôpital. Ces dossiers sont très complets et précis et sont fréquemment utilisés pour la recherche épidémiologique et démographique (33, 34). Le présent échantillon a été extrait d'un ensemble complet de toutes les visites à l'hôpital de tous les patients âgés (âgés de 65 à 113) dans le programme Medicare, qui représente 96% de tous les Américains âgés. L'échantillon de 13 millions de patients hospitalisés a un âge moyen de 76,5 ± 7,5. 41,7% étaient des hommes et 90,1% étaient de race blanche (Fig. S6). La plupart des patients ont été diagnostiqués avec plusieurs maladies au cours de la période d'observation, une cooccurrence qui dans certains cas est accidentelle mais est aussi souvent causale, c'est-à-dire qu'une maladie augmente la probabilité de développement d'autres maladies (CA Hidalgo, N. Blumm, A.-LB , et NAC, données non publiées 36), peut-être en partie à cause des effets causaux enracinés dans les liens métaboliques basés sur le réseau entre les composants cellulaires impliqués dans la maladie particulière.

Tester si les liens du MDN peuvent être détectés dans la population comme des cooccurrences significatives entre des maladies métaboliquement liées, pour chaque paire de maladies X et Oui, nous avons calculé l'indice de comorbidité (CXY, Texte SI), qui capture dans quelle mesure les deux maladies coexistent dans le même groupe de patients. Une comorbidité positive indique que les patients atteints de la maladie X sont susceptibles de développer une maladie Oui ainsi, alors qu'une comorbidité négative indique un effet protecteur potentiel contre une maladie Oui chez un patient atteint de maladie X. Nous avons préparé une cartographie manuelle des codes ICD-9-CM basée sur les troubles génétiques dans l'OMIM en utilisant un codeur expert et des procédures de codage standard mises en œuvre dans les hôpitaux pour attribuer les codes ICD-9-CM aux descriptions en prose des maladies (par exemple, convertir « diabète » à la CIM-9-CM code 250), nous permettant ainsi de calculer la comorbidité de chaque paire de maladies CXY dans le MDN, où X et Oui sont des indices pour les 337 maladies associées au KEGG et les 378 maladies associées au BiGG.

La tendance globale des maladies à coexister est étayée par la distribution de comorbidité asymétrique à droite (Fig. 3une et Fig. S5), ce qui implique qu'en général, les maladies liées au métabolisme présentent une comorbidité supérieure à la moyenne. La comorbidité moyenne pour toutes les maladies est de 0,0009 (0,0008) pour la reconstruction KEGG (BiGG), contrairement aux paires de maladies métaboliquement connectées pour lesquelles la comorbidité moyenne est de 0,0027 (0,0023), trois fois plus grande que la moyenne pour toutes les maladies (P < 10 -8 ). De plus, la comorbidité moyenne des maladies associées aux réactions dont les flux sont pleinement (directionnellement) couplés est de 0,0062 (0,0041), ≈7 (5) fois plus grande que la moyenne pour toutes les maladies. En général, nous constatons que 17 % (16 %) de toutes les paires de maladies métaboliques pour la reconstruction KEGG (BiGG) montrent des signes significatifs (P < 0,01) comorbidité. Cette fraction est élevée à 31 % (28 %) pour les couples de maladies reliées par un lien métabolique et à 28 % pour les maladies couplées au flux selon la reconstruction KEGG (BiGG), une amélioration très significative avec P < 10 -8 .

Comorbidité et MDN humaine. (une) Distributions de comorbidité pour toutes les paires de maladies liées au métabolisme et pour les maladies connexes. (Encart) Les comorbidités moyennes. (b) Distribution de la prévalence des maladies liées au métabolisme, bien approchée par une loi de puissance avec exposant −2,03 ± 0,05 (voir ligne rouge). (c) Prévalence en fonction du degré de la maladie dans le MDN. La prévalence augmente avec le degré avec le PCC 0,333 pour la base de données KEGG et 0,092 pour la base de données BiGG avec P valeurs <10 -7 et 0,07, respectivement. () Comorbidité en fonction de la distance entre les maladies dans le MDN, diminuant à mesure que la distance augmente. Les PCC sont de −0,06233 et −0,12511 pour les bases de données KEGG et BiGG, respectivement, et le P les valeurs sont <10 -8 pour KEGG et ≈0,0002 pour la base de données BiGG. (e) Mortalité en fonction du degré de la maladie dans le MDN. La mortalité augmente avec le degré avec le PCC 0,162 pour la base de données KEGG et 0,0693 pour la base de données BiGG avec P valeurs 0,044 et 0,22, respectivement. (F) Corrélation des facteurs potentiels de comorbidité de la maladie avec la comorbidité de la maladie. Les PCC entre la présence de gènes associés communs, de liens métaboliques et de liens couplés au flux, avec comorbidité de la maladie sont présentés pour les maladies liées au métabolisme et les maladies métaboliques classiques.

Nous avons également identifié la prévalence jeX de chaque maladie, définie comme la fraction des patients atteints de la maladie X (Fig. 1b). La distribution de la prévalence est bien approchée par une loi de puissance avec un exposant -2,0 (Fig. 3b), indiquant que bien que la grande majorité des maladies soient rares, quelques-unes affectent une fraction significative de la population de patients examinée. L'hypertension est l'une des maladies les plus répandues avec une prévalence de 0,337, suivie de la maladie coronarienne (0,246), du diabète sucré (0,167) et de la maladie pulmonaire (0,147). Compte tenu de cette large distribution de prévalence (Fig. 3b), il est plausible que plus une maladie a de liens avec d'autres maladies dans le MDN, plus sa prévalence est élevée, étant donné la probabilité accrue qu'elle soit induite par d'autres maladies dans le réseau. Par conséquent, nous avons mesuré la corrélation entre la prévalence et le degré de connectivité de chaque maladie dans le MDN (Fig. 1b), constatant que la valeur moyenne de la prévalence de la maladie (Dataset S4) augmente avec le degré (PCC est de 0,333 pour KEGG, P < 10 -7 , Fig. 3c). Ainsi, plus une maladie est connectée dans le MDN, plus la probabilité qu'elle contribue à l'émergence d'autres maladies est élevée.

Nous avons ensuite examiné si les effets de comorbidité sont limités aux réactions adjacentes ou si des relations de comorbidité peuvent également être discernées s'étendant sur de plus longues distances dans le MDN (c'est-à-dire si la maladie X est lié à la maladie Oui, qui à son tour est liée à la maladie Z, peut-on s'attendre à une comorbidité entre X et Z?). Pour répondre à cette question, nous définissons la distance du réseau entre deux maladies comme la longueur (nombre de liens) de la voie de réaction la plus courte les reliant au sein du MDN, une métrique souvent utilisée en théorie des réseaux (10, 11, 24, 25). Nous trouvons que le PCC entre la distance du réseau et la comorbidité est de −0,062 (−0,13) avec P < 10 -8 (P < 0,0002) pour KEGG (BiGG), indiquant que la comorbidité de deux maladies diminue à mesure que leur distance de réseau dans le MDN (Fig. 3). Ce résultat suggère que bien que les liens directs ou locaux soient les plus pertinents pour la comorbidité moyenne, des effets mesurables persistent jusqu'à trois liens, conduisant à un regroupement potentiel de maladies discernées dans les relations de comorbidité. Nous avons également constaté que les réactions associées aux maladies sont actives dans plus d'un tissu (Figs. S13 et S14). En particulier, ≈27% (12%) des paires de réactions associées à des maladies présentant une comorbidité significative sont actives dans tous les tissus, d'après la base de données KEGG (BiGG), suggérant que les réactions associées aux maladies se situent au cœur du réseau métabolique (37).

Les connectivités très différentes de diverses maladies (Fig. 1b) nous a amenés à nous demander si les maladies les plus connectées sont associées à des taux de mortalité (décès) plus élevés que les moins connectées. Par conséquent, nous avons quantifié le taux de mortalité associé à chaque maladie, défini comme le pourcentage de toutes les personnes âgées décédées au cours d'une période de 8 ans après le diagnostic de la maladie particulière. Nous constatons que la connectivité d'une maladie à d'autres maladies dans le MDN et son taux de mortalité associé affichent un PCC de 0,16 (0,07) dans la base de données KEGG (BiGG) (Fig. 3e). Une explication potentielle à cela est qu'un patient diagnostiqué avec une maladie du hub est très susceptible de développer également les maladies qui y sont liées, qu'elles soient diagnostiquées ou non, et qu'elles augmentent ensemble la mortalité de la maladie du hub.

Des travaux antérieurs ont indiqué que bien que la plupart des maladies puissent être regroupées dans un réseau de maladies humaines basé sur les gènes que les maladies partagent, les maladies métaboliques sont la classe la plus déconnectée de ce réseau (18). L'hypothèse principale derrière le présent travail est que la parenté potentielle des maladies métaboliques est mieux prédite par les métabolites partagés et les réactions métaboliques corrélées que par les gènes partagés. Par conséquent, nous avons ensuite testé si les liens métaboliques offrent effectivement une meilleure mesure de la parenté fonctionnelle que les gènes partagés en utilisant une analyse multivariée pour quantifier la contribution à la comorbidité des divers liens potentiels entre les maladies, en distinguant les gènes partagés, les liens métaboliques ou les liens couplés au flux. Nous constatons que lorsque l'on considère toutes les maladies liées aux enzymes métaboliques (c'est-à-dire tous les nœuds de la figure 1b), les effets de comorbidité les plus forts sont prédits par les liens métaboliques dans la base de données KEGG suivis de près par les gènes partagés (Fig. 3F). Cependant, de nombreuses maladies de la figure 1b ne sont pas des maladies métaboliques classiques mais sont liées aux maladies métaboliques par des enzymes multifonctionnelles (6). Pour corriger ces effets, nous avons répété l'analyse pour uniquement les maladies classées comme maladies métaboliques dans la littérature médicale (indiquées par des symboles rouges sur la figure 1b). Pour ceux-ci, nous constatons que les prédicteurs les plus forts de comorbidité sont les liens métaboliques, représentant un effet tout aussi fort dans les bases de données KEGG et BiGG (Fig. 3F). En revanche, les gènes partagés et, étonnamment, les enzymes couplées au flux offrent un pouvoir prédictif négligeable. Ce résultat appuie notre hypothèse initiale selon laquelle pour les maladies métaboliques, les réactions métaboliques couplées offrent les meilleurs prédicteurs de la relation avec la maladie.

Effets de comorbidité significatifs prédits par MDN entre les maladies.

La méthodologie basée sur MDN nous a permis de découvrir 193 paires de maladies qui sont métaboliquement liées selon l'ensemble de données KEGG ou BiGG et montrent également une comorbidité significative. La liste complète est fournie dans l'ensemble de données S5), et le sous-ensemble de maladies liées dans les deux ensembles de données et présentant le niveau de comorbidité le plus élevé est présenté dans le tableau S1. Parmi les paires de maladies ayant une coexpression génique élevée et une comorbidité élevée figurent le diabète et l'obésité, une relation de comorbidité bien connue (38), mais des paires moins évidentes, telles que le déficit en glutathion synthétase et l'infarctus du myocarde, sont également apparentes.

Nous constatons également qu'une analyse détaillée des paires de maladies individuelles peut aider à comprendre la manière dont la perturbation du réseau métabolique sous-jacent peut contribuer à la physiopathologie partagée et suggérer d'autres facteurs potentiels de modification de la maladie. Par exemple, le diabète sucré et l'anémie hémolytique présentent une comorbidité plus élevée que prévu (tableau S1) dans notre base de données, nous trouvons 1 656 patients qui sont diagnostiqués avec les deux maladies, contrairement aux 1 215 attendus si les deux maladies doivent survenir indépendamment (P < 10 -8 ). En examinant la relation entre les gènes associés aux deux maladies, nous constatons que certains des gènes mutés qui leur sont associés codent pour des enzymes catalysant des réactions métaboliques adjacentes (Fig. S7). En effet, un déficit en NADPH dû à un déficit en glucose-6-phosphate déshydrogénase entraîne une réduction des niveaux de glutathion qui est un facteur principal de protection contre les dommages oxydatifs. À son tour, une altération de l'absorption du glucose due à une mutation de la glucokinase peut non seulement modifier le seuil de libération d'insuline dans les cellules β pancréatiques, mais peut également augmenter leur sensibilité aux dommages oxydatifs en réduisant le flux de substrat vers la voie des pentoses phosphates (qui produit le NADPH). Ainsi, les polymorphismes nucléotidiques simples (SNP) dans la région codante des enzymes affectant directement ou indirectement la capacité redox des cellules (39, 40) devraient faire partie des différents facteurs qui affectent le phénotype et la pénétrance de l'une ou des deux maladies (Fig. S7).

Enfin, des associations similaires de cooccurrence de maladies, liant la dépendance métabolique et la MDN à la comorbidité, peuvent être trouvées pour de nombreuses autres paires de maladies, telles que l'hypertension et le spasme coronaire (Fig. S8), le déficit en glutathion synthétase et l'infarctus du myocarde (Fig. S9), l'alcoolisme et l'épilepsie (Fig. S10), et l'asthme et l'athérosclérose (Fig. S11), indiquant ensemble l'utilité de l'approche basée sur le MDN pour découvrir les effets de comorbidité et mettre en évidence leurs mécanismes potentiels.


Conclusion

Étonnamment, les gènes occupant les positions hiérarchiques supérieures du réseau de transduction du signal humain ne sont pas soumis à des niveaux plus élevés de sélection purificatrice, ce qui suggère qu'ils ne sont pas plus importants pour la fonction du réseau et la forme physique de l'organisme que les gènes occupant les positions hiérarchiques inférieures. . Cette observation contraste fortement avec les modèles observés dans les voies et les réseaux de régulation métaboliques et transcriptionnels, dans lesquels les gènes en amont sont généralement les plus sélectivement contraints.Ces modèles d'évolution contrastés pourraient refléter des différences fondamentales dans la fonction et l'organisation des réseaux de signalisation et de régulation biosynthétique et transcriptionnelle. Dans tous les cas, les résultats présentés ici élargissent nos connaissances sur la façon dont la sélection naturelle se répartit dans les réseaux moléculaires.


Méthodes

Construction de réseaux métaboliques spécifiques aux espèces.

Nous avons construit les réseaux métaboliques de 325 organismes bactériens en suivant l'approche décrite dans (32). Les données métaboliques ont été recueillies auprès du KEGG (version 39, septembre 2006, ftp://ftp.genome.jp/pub/kegg). En analysant les réactions, les composés et les données des enzymes KEGG, nous avons créé une liste des réactions existantes dans chaque espèce de notre collection, leurs produits et substrats, et leur directionnalité. L'eau, les protons et les composants électroniques ont été retirés des réseaux comme dans la réf. 33. Les métabolites hautement connectés qui participent aux réactions >10 ont également été supprimés, et les réactions qui ont l'un de ces composés comme seul produit ou substrat ont ensuite été supprimées (analogue à la procédure utilisée dans la référence 34). Une cartographie associant les enzymes métaboliques aux réactions qu'elles catalysent a été générée, sur la base des informations de la base de données KEGG.

Le réseau métabolique de chaque organisme a été généré à partir de sa liste de réactions comme suit : Chaque enzyme est représentée comme un nœud dans le réseau. Laisser E1 = <e1 1 , e2 1 , …, em 1 > désigne l'ensemble des enzymes qui catalysent la réaction R1, et E2 = <e1 2 , e2 2 , …, em 2 > désigne l'ensemble des enzymes qui catalysent la réaction R2. Si un produit de R1 est un substrat de R2, alors les arêtes sont affectées entre tous les nœuds de E1 et tous les nœuds de E2. Les arêtes sont également attribuées dans E1 nœuds et à l'intérieur E2 nœuds. Les périphéries du réseau sont considérées comme non dirigées. Pour chaque réseau, nous avons calculé le rapport entre le nombre d'enzymes métaboliques et le nombre total de gènes dans le génome de l'espèce concernée. Les réseaux pour lesquels ce rapport était <0,05 ont été considérés comme manquant de données suffisantes et ont été omis de notre analyse (au total 12 réseaux ont été filtrés, résultant en un total de 325 réseaux métaboliques).

Identification des caractéristiques topologiques du réseau.

Pour chaque réseau métabolique, nous avons calculé la mesure de centralité du réseau et le degré moyen de ses nœuds. La centralité d'un réseau est calculée comme suit : tous les chemins les plus courts par paires ont été déterminés, en utilisant l'algorithme Floyd-Warshall (35), et pour chaque nœud, sa distance moyenne du chemin le plus court à tous les autres nœuds du réseau a été calculée, indiquant la centralité du nœud . Dans les cas où le réseau a plus d'un composant connecté, les nœuds de deux composants différents sont supposés avoir une distance de deux fois la distance maximale obtenue à l'intérieur des composants. Le nœud avec la plus petite distance moyenne la plus courte est considéré comme le nœud le plus central, et sa distance moyenne est définie comme la centralité du réseau.

Modularité du réseau informatique.

Le score de modularité de chaque réseau métabolique est calculé en utilisant l'algorithme présenté dans la réf. 23. L'algorithme de Newman partitionne le réseau en modules de telle sorte que le nombre d'arêtes entre les modules soit nettement inférieur à celui attendu par hasard. L'algorithme fournit une mesure mathématique de la modularité avec des valeurs normalisées pour la taille du réseau, allant de 0 (faible modularité) à 1 (modularité maximale). L'utilisation de l'algorithme de Newman fournit une mesure de modularité invariante en taille et nous permet ainsi d'étudier le rôle de la taille du réseau sur la modularité en tant que variable topologique indépendante et intéressante [cela est différent de Parter et al. (20), qui a utilisé une mesure modifiée et examiné des réseaux de taille égale].

Caractérisation des environnements bactériens.

Nous avons d'abord utilisé le nombre de gènes transporteurs dans le génome d'une espèce comme corrélat approximatif de la diversité de l'environnement dans lequel elle réside. Le nombre de gènes transporteurs a été calculé en comptant le nombre d'apparitions des mots « transporteur » et « perméase » dans le fichier pertinent.ent de chaque organisme de la base de données KEGG, décrivant les données génomiques de l'organisme : numéros de gènes, noms, description fonctionnelle , orthologie, position, etc. Une seconde caractérisation plus fine de l'environnement de chaque espèce a été obtenue à partir du tableau des attributs procaryotes du National Center for Biotechnology Information Genome Project (www.ncbi.nlm.nih.gov/genomes/lproks. cgi). Pour chaque organisme, nous avons obtenu quatre caractéristiques : la salinité, les besoins en oxygène, l'habitat et la plage de température. Chacune de ces caractéristiques est définie par des catégories distinctes comme suit : salinité : non halophile, mésophile, halophile modérée ou halophile extrême besoins en oxygène : aérobie, microaérophile, facultatif ou anaérobie plage de température : cryophile, psychrophile, mésophile, thermophile ou hyperthermophile habitat : associé à l'hôte, aquatique, terrestre, spécialisé ou multiple. Cette description à quatre caractéristiques de l'environnement de chaque organisme a ensuite été utilisée pour rechercher des caractéristiques environnementales spécifiques susceptibles d'influencer la modularité métabolique.

Analyse phylogénétique et reconstruction des réseaux métaboliques ancestraux.

L'arbre de vie généré dans la réf. 21 a été utilisé pour identifier les relations phylogénétiques entre les espèces étudiées dans notre analyse et pour déduire les réseaux métaboliques ancestraux le long de l'arbre. Cet arbre comprend un nombre relativement important d'espèces, couvrant la plupart des groupes taxonomiques pour lesquels des données métaboliques sont disponibles. Plus précisément, cet arbre a été utilisé pour mesurer la distance de chaque espèce existante et ancestrale aux derniers ancêtres communs universels des bactéries et pour calculer les distances phylogénétiques par paires d'espèces (mesurées comme la somme des distances des deux espèces à leur dernier ancêtre commun). La partie reconstruction phylogénétique de notre analyse s'est limitée aux espèces bactériennes pouvant être appariées à celles incluses dans l'arbre de référence, ce qui donne un total de 138 espèces. En utilisant le modèle de présence/absence de chaque enzyme à travers les espèces existantes et en utilisant l'algorithme de petite parcimonie de Fitch pour déterminer la présence/absence de chaque enzyme dans chaque nœud interne (36), les réseaux métaboliques ancestraux (correspondant aux nœuds internes de l'arbre) ont été reconstruit.


Voir la vidéo: Mitkä ovat hyviä rasvoja? (Janvier 2022).