Informations

21 : Réseaux de réglementation - Inférence, analyse, application - Biologie

21 : Réseaux de réglementation - Inférence, analyse, application - Biologie



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

21 : Réseaux de réglementation - Inférence, analyse, application

Déduire la progression temporelle latente et les réseaux de régulation à partir de données transcriptomiques transversales d'échantillons de cancer

Démêler les réseaux de régulation moléculaire sous-jacents à la progression de la maladie est d'une importance cruciale pour comprendre les mécanismes de la maladie et identifier les cibles médicamenteuses. Les méthodes existantes pour déduire les réseaux de régulation génique (GRN) reposent principalement sur les données d'expression génique au cours du temps. Cependant, la plupart des données omiques disponibles provenant d'études transversales de patients atteints de cancer manquent souvent d'informations temporelles suffisantes, ce qui pose un défi majeur pour l'inférence GRN. En quantifiant la progression latente à l'aide de distances multiples basées sur des marches aléatoires, nous proposons une méthode bayésienne basée sur la progression temporelle latente, PROB, pour déduire les GRN à partir des données transcriptomiques transversales d'échantillons de tumeurs. La robustesse de PROB aux variabilités de mesure dans les données est prouvée mathématiquement et vérifiée numériquement. L'évaluation des performances sur des données réelles indique que PROB surpasse les autres méthodes à la fois pour l'inférence pseudo-temporelle et l'inférence GRN. Les applications au cancer de la vessie et au cancer du sein démontrent que notre méthode est efficace pour identifier les principaux régulateurs de la progression du cancer ou les cibles médicamenteuses. L'ACSS1 identifié est validé expérimentalement pour favoriser la transition épithéliale-mésenchymateuse des cellules cancéreuses de la vessie, et les interactions prédites FOXM1-cibles sont vérifiées et sont prédictives d'une rechute dans le cancer du sein. Notre étude suggère de nouveaux moyens efficaces de modélisation des données transcriptomiques cliniques pour caractériser la progression du cancer et facilite la traduction des approches réglementaires basées sur les réseaux en médecine de précision.

Déclaration de conflit d'intérêts

Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.

Les figures

Fig 1. Illustration du cadre PROB…

Fig 1. Illustration du cadre PROB pour déduire le réseau de régulation du gène causal à partir de…

Fig 2. Démonstration de la robustesse de PROB en utilisant…

Fig 2. Démonstration de la robustesse de PROB en utilisant des ensembles de données synthétiques à différents niveaux de variabilité.

Fig 3. Comparaison de PROB avec d'autres…

Fig 3. Comparaison de PROB avec d'autres méthodes d'inférence de pseudo-temps et des méthodes d'inférence GRN existantes…

Fig 4. Reconstitution des réseaux de régulation EMT pendant…

Fig 4. Reconstruction des réseaux de régulation EMT au cours de la progression du cancer de la vessie.

( une ) Modèles d'expression…

Fig 5. Validation expérimentale de la prédiction…

Fig 5. Validation expérimentale du rôle prédit d'ACSS1 dans l'EMT du cancer de la vessie.

Fig 6. FOXM1 a été révélé comme un…

Fig 6. FOXM1 a été révélé comme un gène clé sous-jacent à la progression du cancer du sein par PROB.


SCENIC : inférence et clustering de réseaux de régulation à cellule unique

Nous présentons SCENIC, une méthode de calcul pour la reconstruction simultanée du réseau de régulation génique et l'identification de l'état cellulaire à partir de données RNA-seq unicellulaires (http://scenic.aertslab.org). Sur un recueil de données unicellulaires provenant de tumeurs et du cerveau, nous démontrons que l'analyse cis-régulatrice peut être exploitée pour guider l'identification des facteurs de transcription et des états cellulaires. SCENIC fournit des informations biologiques critiques sur les mécanismes à l'origine de l'hétérogénéité cellulaire.

Déclaration de conflit d'intérêts

Intérêts financiers concurrents

Les auteurs déclarent une absence d'intérêts financiers en compétition.

Les figures

Figure 1. Le workflow SCENIC et ses…

Figure 1. Le workflow SCENIC et son application au cerveau de la souris.

Figure 2. Comparaison interspécifique des réseaux neuronaux…

Figure 2. Comparaison interspécifique des réseaux neuronaux et des types cellulaires.

Figure 3. SCENIC surmonte les effets tumoraux et…

Figure 3. SCENIC surmonte les effets tumoraux et dévoile les états cellulaires et les GRN pertinents dans le cancer.


Résultats

Formulation de la méthode proposée

LASSO est une régression linéaire qui pénalise la somme des valeurs absolues des coefficients de régression 49 . Il repose sur la combinaison des L2-norme, c'est à dire., la somme des carrés résiduelle, avec le L1-norme des coefficients de régression, ce qui revient à la rareté due au rétrécissement des coefficients vers zéro. De plus, la proposition de considérer la fusion dans la formulation LASSO classique visait à résoudre des problèmes avec un ordre significatif dans les caractéristiques considérées (c'est à dire., régresseurs). En LASSO fusionné, minimisation de la L1-norm est imposée non seulement sur les coefficients de régression (ordonnés), comme dans LASSO, mais aussi sur les différences consécutives de coefficients de régression basées sur l'ordre supposé des régresseurs correspondants 50 .

Dans cette section, nous formulons l'approche qui étend le concept de LASSO fusionné en incorporant des informations sur la similitude de comportement différentiel pour les gènes de réponse et de régresseur. Ici, chaque gène est pris comme réponse et les gènes qui codent pour les facteurs de transcription (appelés gènes TF) sont utilisés comme régresseurs. La fusion impose la contrainte de similarité sur les réseaux obtenus à partir de chaque ensemble de données. De cette façon, l'approche garantit la rareté, couramment observée dans les réseaux de régulation génétique, avec des preuves fondées sur des données biologiquement significatives pour les relations inférées. De plus, nous introduisons le scénario expérimental et le type de données sur lesquelles l'approche est facilement applicable.

Scénario expérimental et matrices de poids

Par souci de cohérence dans l'ensemble du texte, tous les exposants se réfèrent aux expériences/conditions et les indices désignent les gènes. Nous définirons l'approche de P gènes utilisés comme régresseurs et un seul gène utilisé comme réponse. L'approche suppose que k ensembles de données d'expression génique, désignés par X je , sont regroupés sous k conditions différentes à côté de la référence correspondante (contrôler) ensembles de données X c,je , 1 ≤ jek, tous contenant les niveaux d'expression de P plus de gènes N je , 1 ≤ jek, points temporels ou perturbations (Fig. 1, étapes 1 et 2). Notez que les ensembles de données du k des conditions différentes ne doivent pas nécessairement se situer dans le même domaine temporel ou avec la même fréquence d'échantillonnage, la seule exigence est que chaque ensemble de données permette d'obtenir de manière fiable la matrice de covariance correspondante pour le P gènes. De plus, les profils Oui je pour le gène de réponse unique sur le k conditions ainsi que les profils de contrôle correspondants Oui c,je , 1 ≤ jek sont donnés.

Représentation du flux d'analyse, des jeux de données et de leur transformation pour une utilisation dans le modèle.

Représentation des ensembles de données de condition et de contrôle X je et X contrôler , respectivement, contenant les niveaux d'expression de P gènes, en tant que régresseurs, sur N je points de temps, 1 jek. Matrice de blocs X contient les valeurs d'expression génique X je , 1 ≤ jek, pour les gènes régresseurs (facteurs de transcription) dans la diagonale. Oui comprend les profils Oui je , 1 ≤ jek, pour les gènes de réponse. Matrices de poids W je contiennent la similitude de comportement différentiel entre le gène de réponse et chacun des régresseurs sur la base des ensembles de données de k expériences de perturbation et les contrôles correspondants. Valeurs des coefficients de régression β je , 1 ≤ jek, consiste en une relation réglementaire entre une TF et ses cibles à partir de k expériences de perturbation.

Étant donné que les ensembles de données de référence X c,je , 1 ≤ jek, sont disponibles, nous déterminons d'abord le comportement différentiel pour chacun des régresseurs ainsi que pour la réponse dans chaque condition. À cette fin, nous nous appuyons sur la statistique B spécifique au gène 11 correspondant au log-odds que le gène soit exprimé de manière différentielle à un moment donné d'une condition particulière par rapport au témoin. Soit , 1 jP, 1 ≤ jek, 1 ≤ tN je être la probabilité que le gène j à un moment donné t sous condition je est exprimé de manière différentielle. Alors la matrice Pr je de dimension rassemble les probabilités du comportement différentiel dépendant du temps des gènes considérés, estimées par les B-statistiques correspondantes. La statistique B a été estimée pour chaque gène et à chaque instant en comparant l'ensemble de données X je du traitement et du contrôle respectif X c,je , 1 ≤ jek.

Les probabilités dérivées peuvent être utilisées pour définir des matrices de poids pour chaque condition je (1 ≤ jek), désigné par , qui capture les informations sur les similitudes entre le gène de réponse et chacun des gènes régresseurs en fonction de leur comportement différentiel (Fig. 1, étape 3), en utilisant les éléments suivants :

où et sont les probabilités de comportement différentiel pour le gène de réponse Oui et le gène régresseur j (1 ≤ jP), respectivement, au moment/perturbation t.

Si la valeur de est proche de zéro, le j e Le gène régresseur a, en moyenne, un comportement différentiel similaire à la réponse sur tous les points/perturbations dans le temps dans un ensemble de données d'une condition. Plus précisément, est proche de zéro si les deux gènes sont exprimés de manière différentielle ou s'ils ne sont pas tous deux affectés par la perturbation. En raison de la nature symétrique de la valeur absolue dans l'Eq. (1), la matrice de poids W je est symétrique avec des zéros le long de la diagonale.

Modèle basé sur la régression

Ayant k ensembles de données d'expression génique résolues dans le temps, y compris P + 1 gènes et N je , 1 ≤ jek, les points temporels ainsi que les ensembles de données de contrôle correspondants, nous visons à formuler un modèle qui capture les trois critères suivants : (1) les niveaux d'expression de chaque gène doivent être expliqués par les niveaux d'expression d'un petit nombre de facteurs de transcription (TF) gènes codant, c'est à dire., la régression correspondante doit être clairsemée pour réduire le nombre de faux positifs et augmenter probablement la détection de relations directes (2) les réseaux de régulation doivent être déduits simultanément sur la période donnée k des ensembles de données pour expliquer simultanément toutes les conditions analysées et (3) un lien direct doit être préféré pour les gènes qui présentent un comportement différentiel similaire aux conditions considérées, car un gène au comportement différentiel (TF) est susceptible de modifier le comportement d'une cible directe. Ici, dans le but de construire les modèles de régression, nous nous concentrons sur l'utilisation des ensembles de données de la k conditions uniquement, car elles sont potentiellement plus informatives sur les gènes sensibles par rapport à l'état de référence. De plus, l'ensemble de données de contrôle entre dans la modélisation via les probabilités de comportement différentiel et est donc également utilisé dans la reconstruction du réseau de régulation génique.

Le premier critère peut être capturé par le LASSO classique, de sorte que les régresseurs avec des coefficients de régression non nuls sont considérés comme impliqués dans une relation directe avec le gène de réponse, donnant le réseau de régulation du gène. Pour répondre au deuxième critère consistant à déduire simultanément k réseaux de la k différents ensembles de données, il faut s'assurer que : (je) l'intégration et la transformation des données doivent être effectuées de manière à ce que la pénalité LASSO soit appliquée simultanément à tous les ensembles de données et (ii) les k les réseaux reconstruits doivent être aussi proches que possible en termes de bords (c'est à dire., relations) leur force donnée par les coefficients et le signe de la relation (activant ou réprimant).

L'intégration et la transformation des ensembles de données sont réalisées comme suit : k les ensembles de données de transcriptomique sont combinés en une seule matrice de bloc X de dimensions kN × kP, où , Oui est une collection des profils du gène de réponse des différentes conditions, résultant en un vecteur de dimension kN × 1. En conséquence, les coefficients estimés forment un kP × 1-vecteur correspondant aux bords entre le gène de réponse Oui et les gènes régresseurs dans le k réseau. Le vecteur des coefficients de régression estimés est représenté par β.

Pour s'assurer que le k les réseaux reconstruits sont aussi proches que possible, on ajoute le terme de fusion LASSO , où β′ = [β 1 , β 2 , …, β k − 1 ] T , β′ = [β 2 , β 3 , …, k ] T et l'ordre du k les ensembles de données sont choisis arbitrairement. Dans un cadre de régression, ce terme de fusion impose la contrainte que la somme des différences absolues entre les coefficients estimés du même régresseur sur les ensembles de données consécutifs, avec l'ordre arbitraire supposé, est minimisée (Fig. supplémentaire S3 et Tableau supplémentaire S8). Cette idée diffère de l'approche la plus récente selon laquelle les réseaux reconstruits à partir de différents ensembles de données sont obtenus individuellement et plus tard combinés dans un réseau de consensus par les techniques existantes 14,51.

Le troisième critère sur la similitude de comportement différentiel entre la réponse et les régresseurs implique l'inclusion de la matrice de poids W je , 1 ≤ jek, de sorte que les régresseurs de pouvoir explicatif plus élevé, qui sont associés à des coefficients de régression non nuls, sur les ensembles de données multiples sont moins pénalisés dans la régression LASSO fusionnée. Ceci peut être réalisé en multipliant les coefficients de régression avec la matrice de poids W (de taille kP × kP), recueillant la similitude de comportement différentiel entre chacun des P régresseurs et le gène de réponse unique sous le k conditions. Par conséquent, l'expression est incluse en tant que pénalité modifiée dans la régression.

Par conséquent, le modèle final pour reconstruire les interactions de régulation des gènes est donné par la formulation de fusion LASSO suivante sur la k ensembles de données donnés (Fig. 1, étape 4) :

Oui est le gène de réponse qui est régulé par les régresseurs avec des coefficients de régression non nuls.

Ensembles de données d'expression génique

Escherichia coli

Les réponses de Escherichia coli aux conditions de stress ont déjà été bien étudiées, ce qui a permis de caractériser les composants généraux et spécifiques à la condition qui régulent les changements transcriptionnels sous-jacents à l'ajustement aux environnements changeants 52,53. Les ensembles de données rassemblés fournissent un excellent cas de test auquel les performances de la méthode proposée et les alternatives concurrentes peuvent être facilement comparées.

Les ensembles de données de transcriptomique résolus en temps rassemblés avec la technologie des puces à ADN ont été obtenus à partir de 54 , où les changements dans l'expression des gènes de E. coli souche MG1655 ont été surveillés dans quatre conditions de stress, notamment : des changements de température non létaux, c'est à dire., traitement thermique et froid, stress oxydatif (par ajout de peroxyde d'hydrogène), décalage lactose-dauxique (c'est à dire., changement de source primaire de carbone) par rapport à des cultures cultivées dans des conditions optimales, appelées témoins. Toutes les cultures ont été cultivées simultanément dans les mêmes conditions et différentes perturbations ont été appliquées au début de la phase intermédiaire (DO 0,6). L'échantillonnage a été effectué à partir de points temporels de 10 à 50 minutes après la perturbation (à des intervalles de 10 minutes) et de deux points de temps de contrôle avant chaque perturbation pour toutes les conditions considérées (les données sont disponibles sur http://www.ncbi.nlm.nih. gov/geo/query/acc.cgi?acc=GSE20305).

Les raisons de la sélection et de l'utilisation de ces ensembles de données sont que les prédictions peuvent être facilement validées par rapport à l'étalon-or de référence pour E. coli fournies par le défi DREAM5 14 ainsi que les interactions de réseau de régulation vérifiées expérimentalement de RegulonDB 53 . Dans RegulonDB, les informations sur l'effet des régulateurs (en termes d'activation et de répression des interactions) sur les gènes cibles sont également fournies. De plus, ces ensembles de données satisfont aux exigences de l'approche proposée, puisque le contrôle unique peut être utilisé pour établir le comportement différentiel des gènes à travers les ensembles de données lors de l'application des contraintes. De plus, les données sont recueillies auprès du même laboratoire selon le même protocole, réduisant ainsi le niveau de bruit. Enfin et surtout, nous avons cherché à utiliser des ensembles de données du monde réel pour estimer les performances réelles de la méthode proposée dans un cadre réaliste plutôt qu'à partir d'instances simulées.

Mycobacterium tuberculosis

Mycobacterium tuberculosis (VTT) est une bactérie pathogène dont le réseau de régulation génique est mal compris. Cependant, récemment Galagan et al. 55 a fait le premier pas dans la reconstruction du réseau réglementaire complet des VTT sur la base des données d'expression génique ChIP-seq et microarray recueillies dans des conditions d'hypoxie et de ré-aération. Ils ont réalisé des expériences de transcriptomique à résolution temporelle dans lesquelles le niveau d'expression des gènes a été mesuré à 1, 2, 3, 5 et 7 jours après la culture. VTT souche H37Rv dans des conditions d'hypoxie bactériostatique. Les échantillons ont ensuite été replacés dans la culture de roulement aérobie et les niveaux d'expression des gènes ont été mesurés après 1, 2, 4, 5 et 7 jours de ré-aération. Les niveaux d'expression ont également été mesurés au point de temps 0 qui est considéré comme l'ensemble de données de contrôle pour l'analyse différentielle (les données sont disponibles sur http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc =GSE43466).

Les raisons de la sélection et de l'utilisation de ces ensembles de données sont les suivantes : (i) les prédictions peuvent être validées par rapport à des ensembles de données récents du monde réel provenant d'espèces non modèles, (ii) elles répondent aux exigences de notre approche pour déduire le gène régulateur réseau à partir de plusieurs ensembles de données, car la série chronologique rassemblée peut être considérée comme deux ensembles de données distincts résolus dans le temps (conditions) : l'hypoxie et la réaération tout en incluant le point temporel 0 comme contrôle et (iii) les prédictions peuvent être facilement comparées à le petit sous-réseau de VTT ce qui a été partiellement vérifié par des expériences en 55 (Fig. 2 en 55).

Mus musculus

Mus musculus représente un organisme modèle pour comprendre la biologie humaine et les maladies, par conséquent, l'étude de son réseau de régulation génique à grande échelle est une tâche difficile et importante. De nombreuses expériences ont été réalisées sur des cellules souches embryonnaires (ES) de souris pour explorer les détails de leur pluripotence et de leur capacité à s'auto-propager et à se renouveler. À cette fin, Sene et al. 56 , ont mesuré le niveau d'expression des gènes de trois lignées cellulaires ES de souris génétiquement distinctes (R1, J1 et V6.5) au cours de la différenciation à 11 moments : 0 h, 6 h, 12 h, 18 h, 24 h, 36 h, 48h, 4j, 7j, 9j et 14j. Les niveaux d'expression au moment 0 sont considérés comme l'ensemble de données de contrôle pour l'analyse différentielle (les données traitées ont été téléchargées à partir de http://www.maayanlab.net/ESCAPE/browse.php).

Cet ensemble de données fournit un bon cas de test pour comparer les performances des approches comparées pour l'extraction du réseau de régulation génique dans un organisme supérieur. De plus, le réseau de cellules souches embryonnaires basé sur la littérature est utilisé comme un réseau standard mondial pour valider les prédictions obtenues à partir des approches comparées (téléchargé depuis iScMiD (Integrated Stem Cell Molecular Interactions Database) http://amp.pharm.mssm.edu/ iscmid/literature/index.htm).

Analyse comparative

Pour l'analyse comparative, nous avons considéré les approches les plus récentes ainsi que les plus récentes qui incluent deux critères, la rareté du réseau et la suppression des relations indirectes. Pour cela, nous avons utilisé les approches suivantes : le silencing global 33 , la déconvolution du réseau 34 , les modèles graphiques gaussiens (GGM) 19 , l'information mutuelle (ARACNE 25 et CLR 26 ), le réseau bayésien (catnet) 57 , l'approche GENIE3 21 et différentes modèles basés sur la régularisation 45 (plus de détails dans la section Méthodes).

Escherichia coli

Les réseaux résultant de ces approches ont été comparés au réseau, y compris les relations réglementaires vérifiées expérimentalement de RegulonDB et les normes de référence du défi DREAM5. Les résultats ont été résumés en termes de taux de vrais positifs et de faux positifs résultants, ce qui a donné les courbes ROC (caractéristiques de fonctionnement du récepteur) correspondantes illustrées à la figure 2 (basées sur la valeur seuil utilisée pour conserver un bord pondéré dans le réseau). Nous avons utilisé le package R minet 58 pour tracer les courbes ROC et les statistiques obtenues en utilisant ce package sont résumées dans le tableau 1. Comme illustré sur la figure 2, l'approche proposée a permis de prédire les relations réglementaires à un pourcentage plus élevé de vrais positifs dans comparaison avec le GENIE3, la déconvolution du réseau et les méthodes de silençage global, tandis que les modèles GGM, ARACNE, CLR et basés sur la régularisation ont de mauvais résultats pour une inférence précise du réseau de régulation. De plus, il est évident que, sur les ensembles de données utilisés, la méthode proposée basée sur l'extension du LASSO fusionné fonctionnait de manière similaire aux approches concurrentes considérées lorsque seule la connectivité (c'est à dire., présence d'une arête/relation) est prise en compte. Pour quantifier davantage les performances des méthodes comparées, nous avons calculé l'aire sous les courbes ROC (AUROC), l'aire sous les courbes PR (précision-rappel) (AUPR) et les taux de vrais positifs (TPR) à faible taux de faux positifs (la plupart des méthodes comparées ont montré une différence maximale entre TPR et FPR à FPR = 0,03), présentée dans le tableau 1. Nous avons utilisé le package R pROC 59 pour estimer les courbes AUROC et leurs intervalles de confiance (IC) respectifs (tableau supplémentaire S1). Les autres statistiques résultant de la comparaison des approches envisagées sont résumées dans le tableau supplémentaire S1. Dans l'ensemble, nos résultats démontrent que les performances de l'approche proposée sont statistiquement similaires aux performances de GENIE3 et de la déconvolution du réseau, tout en surpassant les autres méthodes concurrentes.

Courbes ROC pour les méthodes considérées dans l'analyse comparative (E. coli ensembles de données).

Les courbes ROC sont présentées pour les réseaux de régulation génétique prédits sur la base des ensembles de données de (UNE) froid, (B) chaleur et (C) le stress oxydatif ainsi que () décalage lactose-dialique en plus du (E) combinaison des quatre ensembles de données en utilisant les méthodes suivantes : GGM, ARACNE, CLR, L1/2, GENIE3, Silençage global, déconvolution du réseau et l'approche proposée basée sur le LASSO fusionné qui considère simultanément les quatre ensembles de données. En raison de la grande similitude des performances des modèles basés sur la régularisation, les courbes ROC de L1/2 modèle est illustré en tant que représentant pour éviter le chevauchement des courbes. La couleur des lignes pointillées représente les méthodes. TPR et FPR représentent respectivement le taux de vrais positifs et le taux de faux positifs.

Dans notre approche, le réseau sur tous les ensembles de données a été obtenu en prenant le maximum ou la moyenne des coefficients de régression correspondants (voir Fig. supplémentaire S1 (a) pour illustration). Étant donné que la distribution des différences entre les coefficients de régression obtenus sur la base de chacun des quatre ensembles de données pour la même réponse et les mêmes régresseurs est presque identique (voir la figure supplémentaire S1 (b)), les deux réseaux ne devraient pas différer. En effet, la comparaison entre les deux réseaux obtenue en prenant la moyenne et le maximum des coefficients de régression ne montre pas de différence significative par rapport aux valeurs AUROC (p-valeur = 0,6257, voir le tableau supplémentaire S1).

Les performances de chaque méthode sur les quatre ensembles de données et leur combinaison ont été résumées par la moyenne géométrique des cinq AUROC et AUPR correspondants, tandis que le OverallScore est la moyenne des AUROCscores et AUPRscores calculés 14 :

Le score global dans l'équation. (3) peut être utilisé pour classer les méthodes comparées, de sorte qu'une valeur plus élevée corresponde à une méthode plus performante. Comme le montre le tableau 1, les performances de notre méthode étaient supérieures à celles d'autres méthodes concurrentes basées sur l'OverallScore. De plus, l'écart type des courbes AUROC pour la méthode proposée est plus petit par rapport aux concurrents (voir le tableau supplémentaire S1). La stabilité des réseaux obtenus soutient en outre l'utilisation du terme de fusion dans l'approche proposée, qui a été envisagée dans le seul but de produire des réseaux similaires à travers différents ensembles de données.

Nous avons ensuite déterminé le plus petit poids normalisé auquel le premier vrai front positif peut être détecté, appelé valeur du sélecteur les valeurs de sélecteur plus proches de 1 indiquent que les vrais fronts positifs reçoivent probablement des poids plus élevés. Comme le montre le tableau 2, la méthode proposée a donné les meilleurs résultats pour les réseaux obtenus sur tous les ensembles de données. De plus, notre approche se situe dans les deux méthodes les plus performantes lorsque l'on considère des ensembles de données individuels. L'écart peut s'expliquer par l'inclusion du terme de fusion qui insiste sur les relations de régulation indépendantes du contexte. Étant donné que les poids de bord des réseaux obtenus par ARACNE avec chacun des quatre ensembles de données étaient identiques, les valeurs de sélecteur correspondantes ne sont pas informatives et ne peuvent pas être utilisées dans la comparaison. Fait intéressant, la déconvolution du réseau et le silence global n'ont pas bien fonctionné en ce qui concerne la valeur du sélecteur, malgré les récentes revendications sur les données synthétiques. Le raisonnablement élevé valeurs de sélecteur obtenus à partir de modèles basés sur la régularisation confirment davantage la puissance des approches basées sur la régularisation pour attribuer des scores plus élevés aux vrais bords positifs.

De plus, l'exactitude des réseaux de régulation génétique déduits dépend de la capacité à prédire le type de relations régulatrices - activation ou répression. Par conséquent, nous avons comparé les performances des méthodes concernant le type de relations régulatrices prédites. Pour cela, nous avons utilisé le réseau de RegulonDB qui comprend au total 4566 relations. Le tableau 3 résume les pourcentages des véritables interactions régulatrices d'activation et de répression prévues pour les quatre ensembles de données et les méthodes considérées. De plus, il comprend les pourcentages des relations vraies positives et vraies négatives prédites par différentes méthodes, quel que soit le type de régulation.

ARACNE et CLR ainsi que GENIE3 ne sont pas en mesure de déduire le type de relations réglementaires. Comme mentionné dans la section 3.2, les algorithmes originaux pour le silençage global et la déconvolution du réseau ne fournissent pas le signe d'interactions, puisqu'ils visent à hiérarchiser les interactions régulatrices. Comme le montre le tableau 3, nos résultats indiquent que les performances de la méthode proposée en ce qui concerne la prédiction du type de relations régulatrices sont prometteuses. De plus, le GGM ainsi que les modèles basés sur la régularisation ont abouti à la plus grande fraction de vrais fronts négatifs ainsi qu'à la plus petite fraction de vrais fronts positifs. La méthode de déconvolution, cependant, a surpassé le reste des approches en ce qui concerne la fraction de vrais fronts positifs pour le stress froid et oxydatif ainsi que le décalage lactose-dauxique (bien qu'avec des valeurs de sélecteur beaucoup plus petites, voir le tableau 2).

De plus, pour inspecter spécifiquement l'efficacité des réseaux inférés, nous avons sélectionné un sous-réseau de RegulonDB comprenant quatre facteurs sigma, RopD, RopE, RopH et RopS, inclus dans les ensembles de données analysés. Les facteurs Sigma sont des protéines nécessaires à l'initiation de la synthèse d'ARN 60 et leurs activités dépendent des conditions environnementales. Alors que RopD est le principal facteur sigma qui transcrit la plupart des gènes, les activités des trois autres sont spécifiques à l'environnement, par exemple, RopE est le facteur sigma de stress thermique extrême, RopH est le facteur sigma de stress thermique activé lors de l'exposition à la chaleur et RopS est le facteur sigma de phase stationnaire. Fait intéressant, pour les quatre facteurs sigma, aucun bord n'a été prédit par GGM. En ce qui concerne les six autres approches ainsi que catnet (appliqué uniquement sur les gènes inclus dans les réseaux illustrés), en inspectant la figure 3 (pour des raisons de lisibilité, les réseaux résultants pour les modèles CLR, GENIE3 , et -régularisation sont montrés dans la figure supplémentaire S2), il devient évident que l'approche proposée a prédit un nombre considérablement plus petit de faux positifs, en raison des contraintes de rareté et un nombre comparable de vrais positifs, en raison de la formulation basée sur la régression. De plus, en raison des contraintes imposées dans la formulation LASSO fusionnée, les réseaux extraits pour les quatre ensembles de données différents basés sur notre méthode sont exactement les mêmes (à l'exception de légères différences dans les poids - voir Fig. supplémentaire S1), qui est biologiquement attendu. Cependant, ce n'était pas le cas pour les réseaux reconstruits par ARACNE, CLR, GENIE3, catnet, la déconvolution du réseau et les méthodes de silençage global de plus, les réseaux de GENIE3, catnet et la méthode de déconvolution étaient les plus denses sur tous les jeux de données. Dans l'ensemble, les modèles basés sur la régularisation ont largement sous-estimé les vrais bords positifs, bien qu'ils aient été cohérents dans la prédiction des bords pour chaque ensemble de données. L'approche proposée a fonctionné particulièrement bien en ce qui concerne la prédiction du type et pas seulement la présence d'une relation de régulation, évidente dans les cas des facteurs sigma RpoH et RpoD.

Sous-réseaux incluant les facteurs sigma.

Le réseau de régulation des gènes pour quatre facteurs sigma, RopD, RopE, RopH et RopS, ainsi que leurs interactions vérifiées expérimentalement obtenues à partir de RegulonDB 53 . Les bords colorés appartiennent au sous-réseau récupéré de RegulonDB, où les bords rouges indiquent l'activation, tandis que les bords bleus indiquent les relations régulatrices répressives. Les arêtes marquées en vert sont de type réglementaire quelconque. Si une arête a été prédite par une méthode mais n'est pas incluse dans le réseau de RegulonDB, elle est colorée en noir. Les arêtes prédites pour ARANCE, catnet, les méthodes de déconvolution du réseau et de silençage global sont marquées par « A », « C », « D » et « S », respectivement, à côté des arêtes correspondantes. Les lettres sont codées par couleur - les polices rouges, bleues ou vertes représentent respectivement des relations d'activation, de répression ou non spécifiées. Les bords en pointillés indiquent les relations prédites par l'approche proposée. Les relations réglementaires prévues et leurs types sont illustrées sur la base des données de (UNE) froid, (B) Chauffer, (C) le stress oxydatif et () expériences de séries chronologiques de décalage lactose-diauxique.

Enfin, nous avons obtenu le temps d'exécution de chaque méthode d'inférence qui est présenté dans le tableau supplémentaire S2. Étant donné que la méthode proposée comprend de nombreux modèles de régression indépendants, nous avons parallélisé l'approche (comme décrit dans Méthodes). Par conséquent, le temps d'exécution de la méthode proposée n'est fourni que pour effectuer une seule régression. De toute évidence, les algorithmes qui reposent sur des inversions matricielles en présence de paramètres cachés (par exemple, la déconvolution du réseau) sont plus rapides par rapport à la méthode proposée qui nécessite la résolution de régressions multiples. Alors que la validation croisée devrait augmenter la demande de calcul, si une seule valeur est utilisée pour tous les gènes (c'est à dire., modèles) l'interaction régulatrice au voisinage d'un gène peut être déduite en un temps considérablement réduit de l'ordre de quelques secondes.

Mycobacterium tuberculosis

Motivé par les prédictions de l'application de l'approche proposée sur la combinaison de tous E. coli ensembles de données, nous avons ensuite étudié l'analyse comparative uniquement sur la combinaison des deux ensembles de données de VTT (c'est à dire., hypoxie et réaération). Pour obtenir des réseaux de régulation génique, nous avons appliqué toutes les méthodes comparées aux valeurs d'expression génique prétraitées ainsi qu'aux changements de pli d'expression génique transformés en log 2 entre le contrôle (temps 0) et les échantillons de séries chronologiques d'hypoxie et de réaération. L'analyse ROC pour les méthodes comparées a ensuite été obtenue en utilisant le package R minet 58 pour les deux : les 31 premiers (car le réseau de référence comprend 31 arêtes) et 100 arêtes hautement classées et les statistiques correspondantes sont résumées dans le tableau supplémentaire S3. Il est évident que l'approche proposée a permis de prédire les relations régulatrices à un pourcentage plus élevé de vrais positifs dans les deux cas d'utilisation des valeurs d'expression génique et des changements de pli d'expression génique transformés par log 2 par rapport aux performances de GENIE3, de déconvolution de réseau et d'extinction globale. méthodes. De même avec E. coli, GGM, ARACNE, CLR et les modèles basés sur la régularisation ont donné de mauvais résultats pour une inférence précise du réseau de régulation. De plus, les valeurs du sélecteur pour toutes les méthodes comparées étaient les mêmes et égales à un.

De plus, pour inspecter spécifiquement l'efficacité des réseaux inférés, nous avons étudié trois interactions réglementaires TF vérifiées expérimentalement qui sont mises en évidence dans la section Résultats de Galagan. et al. (page 180, 55 ): TF Rv0081 negatively regulates TFs Rv3597c and Rv3416 (whiB3) (Rv0081 → Rv3597c (Lsr2), Rv0081 → Rv3416 (whiB3)) and TF Rv3133c and Rv2034 (DosR) negatively regulate each other (Rv3133c ↔ Rv2034 (DosR)). All interactions and their regulatory types were successfully predicted by the proposed approach with sufficiently high ranks (Supplementary Table S4). Global silencing as well as network deconvolution methods were not successful with respect to the type of regulatory interactions and obtained rather low ranks, while GENIE3 predicted all interactions with high ranks but is not able to infer the type of regulatory relationships. Likewise, GGM, ARACNE and CLR were not successful in predicting the interactions, while regularization-based models performed very inconsistent with respect to the sign and predicting true edges.

Moreover, we counted the number of predicted true interactions in the top 100 highly ranked edges (Supplementary Tables S4, S5 and S6) considering the gold standard sub-network which includes 31 interactions (Fig. 2 in 55 ). It is evident that the proposed approach obtained the highest overlap with the gold standard while the minimum rank of the intersected interactions is remarkably high (above 0.6). Finally, the networks predicted by the compared approaches were filtered by the corresponding median edge ranks and the ROC analysis has been performed to the resulting sub-networks. Here, too, our proposed approach resulted in the highest AUROC and AUPR values while the edges in the filtered sub-network have considerably higher ranks (above 0.6075 and 0.379 when applied to gene expression levels and log 2-transformed gene expression fold changes, respectively) in comparison to the median ranks of the other contending methods.

Mus musculus

Finally, to verify the performance of the proposed approach in a higher organism, we performed a comparative analysis on the combination of tissue-specific time-series data sets from three genetically distinct mouse ES cell lines during differentiation. We applied all compared methods to the log 2-transformed gene expression fold changes between control (time point 0) and the rest of time-series from the corresponding ES cell lines, motivated by the resulting improvement in the performance of the inference approaches applied to the MTB data sets. The ROC analysis for the compared methods was then carried out on the top 248 (as the gold standard network includes 248 edges) and 500 highly ranked edges and the corresponding statistics are summarized in Supplementary Table S7.

It is evident that the proposed approach allowed the prediction of regulatory relationships at a higher percentage of true positives when compared to the performance of GENIE3, network deconvolution and global silencing methods. Likewise with other data sets CLR as well as regularization models performed poorly for accurate inference of the regulatory network however, the performance of the GGM is increased in comparison to its performance on the other data sets, while ARACNE failed to predict any true positive edge. In addition, the selector values for most of the compared methods were high and close (or equal) to one.

Moreover, we counted the number of predicted true interactions in the top 248 highly ranked edges (Supplementary Tables S7 and S9) considering the gold standard sub-network (which includes 248 interactions). It is evident that the proposed approach obtained the highest overlap with the gold standard, while the minimum rank of the intersected interactions is remarkably high (above 0.5). Finally, the networks predicted by the compared approaches were filtered by the corresponding median edge ranks and the ROC analysis has been performed to the resulting sub-networks. Once again the proposed approach resulted in the highest AUROC and AUPR values, while the edges in the filtered sub-network have similar ranks as the other predicted sub-networks by the other contending methods.


Discussion

TRNs provide an important and popular framework for better understanding a cell’s regulatory mechanisms, leading to phenotypic conditions. However, to the best of our knowledge TRN reconstruction methods today do not incorporate phenotypic information adequately or at all. As such, the reconstructed networks may be limited in pinpointing regulatory mechanisms most related to a phenotype under investigation, and often necessitate a follow-up step that filters for phenotype relevance. For example, a recent study of gene expression changes underlying Huntington’s disease (HD) 73 reconstructed a TRN specific to the mouse striatum and then short-listed TFs whose predicted targets were enriched in genes differentially expressed in HD mouse models. In another study, gene expression profiles of TFs and putative target genes were used to reconstruct a context-restricted TRN for breast cancer (using only breast cancer samples), and then a list of breast cancer-relevant TFs (called “risk-TFs”) whose regulons were enriched in risk loci were short-listed 57 . In the aforementioned study 57 , GWAS and eQTL analyses were used to define risk loci and relate them to the regulon of each TF. Such previous attempts to augment TRN reconstruction with phenotypic data motivated us to develop a systematic approach to incorporate information about the phenotype directly into TRN reconstruction.

In this study, we developed InPheRNo to reconstruct phenotype-relevant TRNs and utilized it to identify regulatory interactions that differentiate one cancer type from others while correcting for the confounding effect of tissues of origin. InPheRNo is based on a carefully designed PGM, which is key to combining TF–gene expression correlations with gene–phenotype associations. The conditional distributions of the PGM model the summary statistics of gene–phenotype and TF–gene associations, providing a succinct and efficient approach for data integration to identify phenotype-relevant regulatory relationships. The method is broadly applicable since it learns regulatory relationships from expression data alone and does not impose any restriction on the type of phenotype under investigation—the phenotype may be binary, categorical or even continuous-valued, and any appropriate statistical method for testing its association with a gene’s expression may be used in InPheRNo. Unlike several other methods that rely on the regulatory relationship of one TF–gene pair at a time, InPheRNo considers the effect of multiple TFs on each gene in the reconstruction procedure, at the time of selecting candidate TFs as well as in training the PGM. Finally, using posterior probabilities obtained from the PGM, InPheRNo provides a score representing the confidence for the identified phenotype-relevant regulatory edges.

In designing InPheRNo’s pipeline, we made the choice to first perform a feature selection step (using Elastic Net) and only use the selected TFs in the PGM. First and foremost, this was done to reduce the computational complexity, both by reducing the number of candidate TFs and also by summarizing the expression profiles of genes and TFs using summary statistics. Several previous studies have successfully used summary statistics (and particularly p values) for similar reasons 23,28,29,30,31,32 . Second, modeling summary statistics instead of the full gene expression data enables integration of other regulatory evidence (captured through data types other than transcriptomic, if available) in the PGM with a relative ease.

One important consideration when using InPheRNo, is the number of samples. As InPheRNo is based on modeling of summary statistics obtained from gene–phenotype and gene–TF associations, similar requirements on the minimum number of samples for those analyses should be also considered here 74,75,76 . However, two features of InPheRNo enable it to handle a small number of samples better than traditional co-expression analysis. First, it utilizes Elastic Net (as part of the pipeline), whose regularization terms can overcome some limitations of the small sample size by imposing sparsity criterion. Second, as its PGM models the distribution of the p values instead of relying on whether such p value are significant or not (i.e., instead of thresholding them) it is more robust towards small samples sizes.

As there are no rigorously validated metazoan TRNs to benchmark against, we evaluated the predicted TRNs indirectly through key TFs and gene expression signatures derived from them, and showed clear improvement over several related strategies. Our results showed that the TFs with many cancer type-relevant targets are potential cancer driver TFs and may suggest novel drug targets or provide new insights, regarding the development and progress of cancer. Our results also suggest a powerful approach for subtyping of cancer patients using gene expression signatures: while most approaches developed for this task do not take into account the regulatory interactions among genes, our survival analysis suggests that cancer type-relevant TRNs can improve the predicting power of gene expression signatures.

In spite of the success of the InPheRNo-based gene signatures in differentiating between patients with poor and good prognosis for the majority of cancer types, in some cases, e.g., BRCA, this method did not result in groups with significantly different survival probability, despite the existence of BRCA-driver TFs in the signature. This lack of success may partially be owing to the fact that we clustered samples of each cancer type into two clusters, whereas these cancer types may include more than two subtypes, as is the case in BRCA 26 . However, since in most cancer types a definite number for the cancer subtypes is not yet established, we preferred to keep the number of clusters equal to two. A more in-depth analysis of subtype discovery and survival analysis using InPheRNo-derived TRNs is left for future work.

We would like to emphasize that in this study, we focused only on transcriptomic data, owing to the availability of this data type in many domains, including domains outside of cancer research, and lack of other important data types such as ChIP-seq data in these domains. Even in the area of cancer research, in which large databases of ChIP-seq tracks (such as ENCODE) corresponding to various cancer cell lines are available, the datasets are extremely biased toward a small fraction of well-studied TFs (for example only

10% of all TFs are studied in ENCODE). As a result, including these data sets may significantly bias the analysis towards this small fraction of TFs. In addition, matched gene expression and ChIP-seq data for tumor samples are rarely available and combining these data types from different sources and different samples, in itself a significant challenge, will require substantial effort in the future.

We believe that including additional types of regulatory evidence (especially those representing “cis” mechanisms such as TF motifs and chromatin state changes) in the phenotype-relevant TRN reconstruction procedure is an important and essential future direction for improving InPheRNo. This is especially true considering that many efforts are under way to generate large datasets containing matching transcriptomic, genomic, epigenomic and phenotypic profiles of patients 77,78,79 . One way to achieve this goal might be to include different regulatory evidence as new observed variables in the PGM used in InPheRNo. Another alternative is to use cis-regulatory evidences to construct an initial network that is used as a “prior” for Bayesian analysis of expression data, as has been demonstrated before 80 . Future investigations should focus on these avenues of integrating multi-omics data into the InPheRNo model.


Bienvenue!

C'est l'un des plus de 2400 cours sur OCW. Explorez les matériaux de ce cours dans les pages liées le long de la gauche.

MIT OpenCourseWare est une publication gratuite et ouverte de matériel provenant de milliers de cours du MIT, couvrant l'ensemble du programme du MIT.

Aucune inscription ni inscription. Parcourez et utilisez librement les documents OCW à votre rythme. Il n'y a pas d'inscription, ni de date de début ou de fin.

La connaissance est votre récompense. Utilisez OCW pour guider votre propre apprentissage tout au long de la vie ou pour enseigner aux autres. Nous n'offrons pas de crédit ou de certification pour l'utilisation d'OCW.

Fait pour le partage. Téléchargez des fichiers pour plus tard. Envoyez à vos amis et collègues. Modifier, remixer et réutiliser (n'oubliez pas de citer OCW comme source.)


Mapping gene regulatory networks from single-cell omics data

Single-cell techniques are advancing rapidly and are yielding unprecedented insight into cellular heterogeneity. Mapping the gene regulatory networks (GRNs) underlying cell states provides attractive opportunities to mechanistically understand this heterogeneity. In this review, we discuss recently emerging methods to map GRNs from single-cell transcriptomics data, tackling the challenge of increased noise levels and data sparsity compared with bulk data, alongside increasing data volumes. Next, we discuss how new techniques for single-cell epigenomics, such as single-cell ATAC-seq and single-cell DNA methylation profiling, can be used to decipher gene regulatory programmes. We finally look forward to the application of single-cell multi-omics and perturbation techniques that will likely play important roles for GRN inference in the future.

Les figures

Single-cell GRNs. The goal of…

Single-cell GRNs. The goal of many single-cell studies is to understand which cell…


6. How Many Gene Regulatory Networks Exist?

It is generally acknowledged that a phenotype is an emergent property of genotype-environment interactions. Specifically, a phenotype results from molecular and cellular activity patterns from genotype-environment interactions. This implies that each observable phenotype is associated with phenotype-specific gene networks, because without changing molecular interactions a phenotype cannot change this concept is illustrated in Figure 1. In this figure, gene networks can be seen as a bottleneck between the genotype and the phenotype with respect to their coupling. That means every change on the genotype level that will result in a change of the phenotype will also inevitably lead to a change in the gene network structure as mediator between both levels.

Figure 1. Schematic overview of the general role gene networks play in understanding phenotypes.

However, since gene networks refer to all possible types of molecular networks, including the transcriptional regulatory network, protein interaction network, metabolic network, gene regulatory network and interactions between these networks, it is less clear which of these networks, or all of them, are actually changed. Moreover, because a gene regulatory network can potentially represent many types of physical biochemical interactions among genes and gene products (de Matos Simoes et al., 2013a) it can be expected that gene regulatory networks are highly phenotype specific (Schadt, 2009 Emmert-Streib and Glazko, 2011). Establishing such relationships will therefore be a complex task, but also provides an opportunity to catalog phenotypes quantitatively. An example for the analysis of tissue-specific networks can be found in Guan et al. (2012) where 107 tissue specific network have been studied. Currently, the number of GRNs is difficult to estimate but based on these preliminary results one can hypothesize that there are more than 200 different GRNs for Human alone, because this corresponds about to the number of different cell types. However, also pathological cells manifesting tumors have their own characteristic networks (Emmert-Streib et al., 2014) implying that there are probably thousands of different gene networks in Human.


RMaNI: Regulatory Module Network Inference framework

Fond: Cell survival and development are orchestrated by complex interlocking programs of gene activation and repression. Understanding how this gene regulatory network (GRN) functions in normal states, and is altered in cancers subtypes, offers fundamental insight into oncogenesis and disease progression, and holds great promise for guiding clinical decisions. Inferring a GRN from empirical microarray gene expression data is a challenging task in cancer systems biology. In recent years, module-based approaches for GRN inference have been proposed to address this challenge. Despite the demonstrated success of module-based approaches in uncovering biologically meaningful regulatory interactions, their application remains limited a single condition, without supporting the comparison of multiple disease subtypes/conditions. Also, their use remains unnecessarily restricted to computational biologists, as accurate inference of modules and their regulators requires integration of diverse tools and heterogeneous data sources, which in turn requires scripting skills, data infrastructure and powerful computational facilities. New analytical frameworks are required to make module-based GRN inference approach more generally useful to the research community.

Résultats: We present the RMaNI (Regulatory Module Network Inference) framework, which supports cancer subtype-specific or condition specific GRN inference and differential network analysis. It combines both transcriptomic as well as genomic data sources, and integrates heterogeneous knowledge resources and a set of complementary bioinformatic methods for automated inference of modules, their condition specific regulators and facilitates downstream network analyses and data visualization. To demonstrate its utility, we applied RMaNI to a hepatocellular microarray data containing normal and three disease conditions. We demonstrate that how RMaNI can be employed to understand the genetic architecture underlying three disease conditions. RMaNI is freely available at http://inspect.braembl.org.au/bi/inspect/rmani

Conclusion: RMaNI makes available a workflow with comprehensive set of tools that would otherwise be challenging for non-expert users to install and apply. The framework presented in this paper is flexible and can be easily extended to analyse any dataset with multiple disease conditions.


4. Results and discussion

4.1. Simulated BNps with 7 genes

We first evaluate different inference algorithms on synthetically generated random networks. We generate 1000 random BNps with m = 7 genes, maximum input degree K = 3, and perturbation probability p = 0.01. For each node, we uniformly assign 1 to K regulators. Hence the average connectivity in this set of random networks is 2. After determining the regulatory relationships among nodes, the regulatory functions for each node are determined by randomly filling in the corresponding truth tables with Bernoulli random numbers with the bias following a Beta distribution with mean 0.5 and standard deviation 0.01. For each random BNp, we simulate time series of different numbers of state transitions based on its underlying Markov chain. The number of “observed” state transitions m ranges from 10 to 60 to reflect the difficulty level of network inference. For control, we choose the first node as the marker gene and define the undesirable states as these network states with the first node down-regulated. In the binary representation of network states,

= <X|X1 = 0>. As the networks are randomly generated, without loss of generality, we allow intervention on the last node as the control gene, which we can either knock up or down to derive control policies. In our simulated random BNps, we have the original average undesirable steady state mass π org = 0.5071 with standard deviation 0.3575, with π org ≈ 0.5 because we set the bias to 0.5. When we apply the MSSA algorithm to derive the optimal stationary control policies for these random BNps, the average controlled undesirable steady state mass is π = 0.3703 with the standard deviation 0.3749.

Based on these simulated time series, we have implemented REVEAL, BIC, MDL, uMDL, and Best-Fit inference algorithms and modified accordingly to reconstruct BNps, including regulatory relationships and regulatory functions represented as general truth tables. For BIC and MDL, we set the regularization coefficients to values previously reported to have good performance in Zhao et al. (2006), λ = 0.5 for BIC and λ = 0.3 for MDL.

Table ​ Table1 1 provides the network inferential validity measurements: normalized Hamming distance μham (Hamming distance over the total number of edges in true networks), the steady-state distance μss, and the controllability distance μctrl for different network inference algorithms given different numbers of state transitions. As discussed in (Zhao et al., 2006), BIC and MDL perform similarly. Regarding the accurate recovery of regulatory relationships, it is interesting to see that Best-Fit appears to achieve the best performance with respect to μham while REVEAL does not perform very well. One explanation could be that REVEAL introduces many false positives, hopefully to best fit the data by using the functions with more regulators. This is in fact what we observe from our experiments. All the other inference algorithms choose the functions with the smallest number of regulators either by complexity regularization in BIC, MDL, and uMDL or choosing the “parsimonious” functions with the minimum prediction errors in Best-Fit. For uMDL, we note that μham improves quickly with the increasing sample size compared to other complexity regularization algorithms BIC and MDL. Based on our experiments, uMDL consistently generates very low false positive edges (close to zero), even with a very limited number of samples, which is the main advantage of the uMDL algorithms. This has also been shown in the original paper (Dougherty et al., 2008). For μss, both REVEAL and Best-Fit perform consistently better than BIC, MDL, and uMDL, since both REVEAL and Best-Fit aim to find the network models that best fit the observed state transitions. With regularization on model complexity by BIC, MDL, and uMDL, the steady-state distances are greater. As mentioned earlier, REVEAL and Best-Fit, especially REVEAL, reconstruct networks with more edges to explain the observed data, which leads to smaller μss.

Tableau 1

The comparison of network inference algorithms (REVEAL, BIC, MDL, uMDL, and Best-Fit) with M different number of observed state transitions.

Validityμhamμssμctrl
M103050103050103050
REVEAL0.77740.61110.65110.67430.46570.42160.10670.02750.0049
BIC0.69660.41960.33040.86790.70890.54920.07390.03000.0126
MDL0.72040.42600.32940.94140.72250.54350.07750.03110.0121
uMDL0.80000.37280.24711.19570.69730.49350.10580.03520.0093
Best-Fit0.73110.39190.29130.63780.42440.40980.10270.02500.0045

When we investigate the inferential validity with respect to controllability, μctrl, we see interesting changes of tendency between the five algorithms. Especially with very few state transitions, M = 10, BIC, MDL, and uMDL algorithms perform better than REVEAL and Best-Fit, which indicates that the regularization on model complexity with a limited number of observations helps reconstruct network models that yield better controllers. With more observations, REVEAL and Best-Fit gradually perform better than BIC, MDL, and uMDL due to introduced bias by model complexity regularization.

Figure ​ Figure2 2 plots μham, μss, and the average undesirable steady-state mass using the control policy designed on the inferred network via the MSSA algorithm. For comparison purposes, the latter average is compared to the average original undesirable mass and the average undesirable mass following application of the MMSA control policy designed on the original network. Comme m increases from 10 to 60, all algorithms improve. In fact, with more than 50 observed state transitions for these generated random BNps, the derived stationary control policies achieve almost the same performance compared to the optimal control policies with complete knowledge of the network models. The average performances from inferred networks are in fact within 5% for all five inference algorithms when M = 60.

Performance comparison of five network inference algorithms by different validity indices based on simulated BNps with 7 genes and K = 3. (A) Average normalized Hamming distance μham (B) μss (C) average undesirable steady-state mass π after applying derived stationary control policies based on inferred networks to the original ground truth BNps, compared to the average undesirable mass obtained by the optimal control policy (OPT) based on the complete knowledge of original BNps and the average undesirable mass before intervention (Original).

We further evaluate inference algorithms on a similar set of 1000 random BNps with m = 7 genes with the same settings but change the maximum input degree K = 5, which increases the average connectivity to 3. For this set of random BNps, we have the average undesirable original steady state mass π org /> = 0.4841 with standard deviation 0.3171. When we apply the MSSA algorithm to derive the optimal stationary control policies for these random BNps, the average controlled undesirable steady state mass is π /> = 0.2529 with the standard deviation 0.3144. The average shift of undesirable masses is higher compared to the previous set of random networks, which is expected as the network sensitivity monotonically increases with the average network connectivity (Kauffman, 1993 Shmulevich and Dougherty, 2007 Qian and Dougherty, 2009a). With higher sensitivity, networks can be more effectively controlled. We again compare the inferential validity as in the previous experiment. Figure ​ Figure3 3 shows plots analogous to Figure ​ Figure2. 2 . Especially, we note that in this set of experiments, we can achieve close-to-optimal intervention with fairly small sample size as illustrated in Figure ​ Figure3C. 3C . It is clear that the performance of different inference algorithms depends on the characteristics of the networks, especially the network sensitivity. More specifically, all three indices become worse for all the inference algorithms, illustrating that with increasing network sensitivity, the inference problem becomes more difficult. It is also clear that the performance improves at slower rates with the increasing sample size when we have higher network sensitivity. Another important difference is that for this set of random networks, both REVEAL and Best-Fit have higher μham when the number of samples increase above 40. The reason may be due to the tendency of random perturbations forcing both algorithms to bias toward more complex Boolean functions with more input variables as regulators.

Performance comparison of five network inference algorithms by different average validity indices based on BNps with 7 genes and K = 5. (A) Average normalized Hamming distance μham (B) μss (C) average undesirable steady-state mass π after applying derived stationary control policies based on inferred networks to the original ground truth BNps, compared to the average undesirable mass obtained by the optimal control policy (OPT) based on the complete knowledge of original BNps and the average undesirable mass before intervention (Original).

4.2. Simulated BNps with 9 genes

For simulations with 9 genes, owing to run time, we generate 200 BNps with m = 9 genes and perturbation probability p = 0.01. We again make uniformly random assignments of 1 to K regulators, with K = 3 so that the average connectivity is 2. The bias for the corresponding truth tables follows the same Beta distribution with mean 0.5 and stand deviation 0.01. The number of “observed” state transitions m range from 10 to 60. The derivation of control policies is still based on the definition of the undesirable states

= <X|X1 = 0> and the last node is the control gene. In the simulated random BNps, the average undesirable steady state mass is π org /> = 0.4886 with the standard deviation 0.3764. When we apply the MMSA algorithm to derive the optimal stationary control policies for these random BNps, the average controlled undesirable steady state mass is π /> = 0.3668 with the standard deviation 0.3863. Figure ​ Figure4 4 shows plots analogous to Figure ​ Figure2 2 with the trends similar as those observed in the previous experiments with corresponding random BNps with 7 genes and K = 3.

Performance comparison of five network inference algorithms by different average validity indices based on BNps with 9 genes and K = 3. (UNE) Average normalized Hamming distance μham (B) μss (C) average undesirable steady-state mass π after applying derived stationary control policies based on inferred networks to the original ground truth BNps, compared to the average undesirable mass obtained by the optimal control policy (OPT) based on the complete knowledge of original BNps and the average undesirable mass before intervention (Original).

In the second set of simulated random BNps with 9 genes, the settings are the same except that K = 5. In these random networks, the average undesirable steady state mass is π org /> = 0.4895 with standard deviation 0.3269. When we apply the MSSA algorithm to derive the optimal stationary control policies for these random BNps, the average controlled undesirable steady state mass is π /> = 0.2781 with standard deviation 0.3268. Figure ​ Figure5 5 is analogous to Figure ​ Figure3 3 .

Performance comparison of five network inference algorithms by different average validity indices based on BNps with 9 genes and K = 5. (UNE) Average normalized Hamming distance μham (B) μss (C) average undesirable steady-state mass π after applying derived stationary control policies based on inferred networks to the original ground truth BNps, compared to the average undesirable mass obtained by the optimal control policy (OPT) based on the complete knowledge of original BNps and the average undesirable mass before intervention (Original).

In summary, when we evaluate different inference procedures with respect to different inferential validity criteria, different inference procedures show different trends with their increasing sample size. Their performance overall depends on network characteristics as well as available samples. Finally, when effective intervention is our final operational objectivel, it is promising that we can achieve effective intervention based on inferred networks, even with fairly small sample size as illustrated in Figures ​ Figures2C, 2C , ​ ,3C, 3C , ​ ,4C, 4C , ​ ,5C 5C .

4.3. A metastatic melanoma network

Finally, we evaluate different inference algorithms based on a metastatic melanoma network used in previous studies on network intervention (Qian and Dougherty, 2008 Qian et al., 2009 Yousefi and Dougherty, 2013). The network has 10 genes listed in the order from the most to the least significant bit: WNT5A, PIR, S100P, RET1, MMP3, PLCG1, MART1, HADHB, SNCA, and STC2. The order does not affect our analysis. We note here that this network was derived from gene expression data (Kim et al., 2002) collected in studies of metastatic melanoma (Bittner et al., 2000 Weeraratna et al., 2002). Table ​ Table2 2 and Figure ​ Figure6 6 together illustrate the regulatory relationships among these selected 10 genes from 587 genes profiled in Bittner et al. (2000), Weeraratna et al. (2002), which were derived based on gene expression data rather than curated regulatory relationships among genes in literature. We believe that the model is appropriate for the purpose of illustrating the effectiveness of objective inferential validity on quantifying the performance of inference procedures in this work. Based on these information, we construct a BNp with the perturbation probability p = 0.01. As in the previous studies, the control objective is based on the fact that up-regulation of WNT5A is associated with increased metastasis. Ainsi,

= <X|X1 = 1>. For this network, the undesirable steady-state mass is π = 0.2073 in the original network, which can be reduced as illustrated in Table ​ Table3 3 with different genes as potential targets using the MSSA algorithm on the original network. Based on this model, we simulate 20, 60, and 80 state transitions and infer the network based on these time series data using all five algorithms. As the primary objective here is to reduce the undesirable steady-state mass with WNT5A up-regulated, we focus on its shift derived by the MSSA algorithm based on the inferred networks using different inference algorithms.

Tableau 2

Regulatory functions in the metastatic melanoma network [Modified from Table ​ Table1 1 in Yousefi and Dougherty (2013)].