Informations

Existe-t-il une ressource pour interroger la similarité de l'expression génique ? Stratifié par sexe ?

Existe-t-il une ressource pour interroger la similarité de l'expression génique ? Stratifié par sexe ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Nous avons développé une telle ressource. Les éditeurs de "Bioinformatics" (à OUP) ont rejeté l'article au motif que nous n'avions pas effectué de comparaison avec des ressources "de pointe" [similaires]. Quelqu'un peut-il m'aider à trouver des ressources similaires? Lien vers notre propre ressource, ExFiles.


Il existe des ressources similaires, qui en même temps ne mélangent pas les ingrédients de la même manière que votre outil. J'espère que le fait de souligner les différences respectives aidera votre réfutation ou votre nouvelle soumission ! par exemple.:

  • Un service Web similaire fait partie de flyrnai, où l'expression spécifique aux tissus peut également être comparée en fonction du sexe, et les gènes peuvent être interrogés par la similitude de leur profil d'expression génique avec d'autres gènes.
  • Une ressource qui a une certaine parenté conceptuelle concernant la similarité spécifique au sexe dans l'expression des gènes, et qui est également basée sur l'ensemble de données GTEx, a récemment été publiée sous forme de tableaux par Gershoni et Pietrokovski, BMC Biol, 2017.
  • EBI GXA est une très belle et vaste ressource de profils d'expression génique de haute qualité sur des tissus individuels, mais aussi sur la réponse aux stimuli. Bien que l'interface Web ne permette d'interroger que des profils d'expression spécifiques au sexe, les personnes soucieuses du calcul pourraient facilement calculer la (dis) similitude entre les échantillons après avoir téléchargé le vidage de données (bien structuré) d'EBI GXA.
  • Un outil similaire en termes de visualisation des modèles d'expression spécifiques au sexe fait partie de gtexportal, bien qu'il semble limité à l'affichage d'un seul gène.

Construction et application d'un profil d'expression spatio-temporelle électronique et d'une plate-forme d'analyse d'ontologie génétique basée sur la base de données EST du ver à soie, Bombyx mori

Une étiquette de séquence exprimée (EST) est une courte sous-séquence d'une séquence d'ADNc transcrite. Les EST représentent l'expression des gènes et donnent de bons indices pour l'analyse de l'expression des gènes. Sur la base des données EST obtenues du NCBI, un progiciel d'analyse EST a été développé (apEST). Cet outil a été programmé pour l'expression électronique, l'annotation de protéines et l'analyse de catégorie d'ontologie génétique (GO) dans Bombyx mori (L.) (Lépidoptères : Bombycidae). Un total de 245 761 EST (au 1er juillet 2009) ont été recherchés et téléchargés au format FASTA, à partir desquels les informations sur le type de tissu, le stade de développement, le sexe et la souche ont été extraites, classées et additionnées en exécutant apEST. Ensuite, les profils de distribution correspondants ont été formés après que les parties redondantes aient été supprimées. Des profils d'expression génique pour un tissu de différents stades de développement et à partir d'un stade de développement des différents tissus ont été obtenus. Un gène domestique et des gènes spécifiques au tissu et au stade ont été sélectionnés en exécutant apEST, contrairement à deux autres approches d'analyse en ligne, le profil d'expression génique basé sur des puces à ADN sur SilkDB (BmMDB) et le profil EST sur NCBI. Un profil d'expression spatio-temporel de catalase géré par apEST a ensuite été présenté sous la forme d'un graphique en trois dimensions pour la visualisation intuitive des modèles. Un total de 37 gènes de requête confirmés à partir de données de microarray et d'expériences de RT&# x02014PCR ont été sélectionnés comme requêtes pour tester apEST. Les résultats présentaient une grande conformité entre les trois approches. Néanmoins, il y avait des différences mineures entre apEST et BmMDB en raison des éléments uniques étudiés. Une analyse complémentaire a donc été proposée. L'application d'apEST a également conduit à l'acquisition d'annotations protéiques correspondantes pour les ensembles de données EST et éventuellement pour leurs fonctions. Les résultats ont été présentés en fonction des informations statistiques sur l'annotation des protéines et la catégorie Gene Ontology (GO). Tous ont vérifié la fiabilité de l'apEST et l'opérabilité de cette plateforme. L'apEST peut également être appliqué à d'autres espèces en modifiant certains paramètres et sert de modèle pour l'étude de l'expression génique des lépidoptères.


Introduction

Le récepteur d'agrégation endothéliale plaquettaire 1 (PEAR1 également connu sous le nom de JEDI et MEGF12) est un récepteur transmembranaire récemment identifié exprimé dans un certain nombre de tissus différents, avec une expression la plus élevée dans les cellules endothéliales et les mégacaryocytes [1]. Bien que l'on sache actuellement peu de choses sur le(s) mécanisme(s) moléculaire(s) de ce récepteur, des études antérieures suggèrent que PEAR1 est important dans un large éventail de fonctions biologiques, y compris l'agrégation plaquettaire soutenue par la glycoprotéine αIIb㬣 [2], la mégacaryopoïèse altérée et la thrombopoïèse via les voies PI3K/PTEN [3], et la clairance neuronale apoptotique par des activités dépendantes de l'endocytose dans les ganglions de la racine dorsale [4]. En plus de ces investigations basées sur les mécanismes, plusieurs études ont examiné le rôle de la variation génétique dans POIRE1, notamment le polymorphisme intronique d'un seul nucléotide (SNP) rs12041331. Ces études ont impliqué le génotype rs12041331 dans le POIRE1 expression ainsi que l'agrégation plaquettaire, à la fois au départ et en présence d'agents thérapeutiques tels que l'aspirine et le prasugrel [5&# x0201311]. Cependant, un effet apparemment paradoxal du rs12041331 sur les phénotypes cardiovasculaires a été observé. rôle alternatif de PEAR1 dans la progression des maladies cardiovasculaires [10].

Étant donné que POIRE1 est le plus fortement exprimé dans les cellules endothéliales [1], nous avons d'abord exploré les effets de la variation génétique dans POIRE1 sur la fonction endothéliale. Plus précisément, nous avons testé l'impact du rs12041331 sur la dilatation médiée par le flux (FMD) de l'artère brachiale chez 641 participants de l'étude cardiaque sur l'hérédité et le phénotype (HAPI). Dans une tentative de mieux définir le rôle de PEAR1 en biologie cardiovasculaire, nous avons utilisé une approche bioinformatique appelée GAMMA (Global Microarray Meta-Analysis) [12] pour identifier les gènes systématiquement corrélés avec POIRE1 expression à travers 75 000 expériences de puces à ADN 1 couleur humaines à partir des ensembles de données accessibles au public dans le National Center for Biotechnology Information&# x02019s Gene Expression Omnibus. Sur la base des résultats de notre méta-analyse, nous avons étendu nos conclusions en évaluant et en confirmant l'effet de la POIRE1 variante rs12041331 sur la migration des cellules endothéliales à l'aide ex vivo dosages de cellules endothéliales de veine ombilicale humaine (HUVEC) dérivées de cordons ombilicaux anonymisés.


1. INTRODUCTION

Les améliorations massives de la technologie de séquençage de l'ADN ont conduit au cours de la dernière décennie au séquençage de plus en plus de génomes. La plupart des génomes nouvellement séquencés contiennent un grand nombre de gènes dont la fonction ne peut pas être déduite par des méthodes d'homologie conventionnelles telles que BLAST et l'annotation de la fonction de ces gènes a été facilitée ces dernières années par la production de grands ensembles de données à haut débit. Ces ensembles de données peuvent être basés sur des données de séquences génomiques à l'aide de méthodes telles que la fusion de gènes (Marcotte et al., 1999) et des profils phylogénétiques (Pellegrini et al., 1999) ou ils peuvent être dérivés de méthodes expérimentales telles que les criblages à deux hybrides de levure et l'expression de microarray (Troyanskaya et al., 2003). Cependant, ces ensembles de données sont souvent bruyants et incomplets, ce qui peut souvent entraîner des problèmes de faible fiabilité et de couverture limitée lorsque les données sont utilisées pour prédire la fonction des gènes. Pour résoudre ces problèmes, plusieurs programmes de prédiction de fonction génique ont été produits qui combinent plusieurs ensembles de données en utilisant des techniques d'apprentissage automatique pour créer des prédictions synergiques, voir la revue de MouseFunc pour des exemples (Pena-Castillo et al., 2008).

La plupart de ces programmes reposent sur une approche de « culpabilité par association » où la fonction d'une protéine de requête est déduite à partir de protéines annotées avec des attributs biologiques « similaires ». De nombreuses approches différentes ont été adoptées, mais elles peuvent effectivement être divisées en méthodes d'apprentissage supervisées ou non supervisées. Avec une approche supervisée, un ensemble de données d'apprentissage est créé à partir duquel un algorithme apprend un ensemble de règles qui peuvent ensuite être utilisées pour prédire l'annotation la plus probable d'un gène absent de l'ensemble d'apprentissage. Alternativement, une approche non supervisée peut être adoptée où les données sont séparées en plusieurs clusters. Ensuite, pour chaque cluster, un test statistique est appliqué pour voir si un cluster est surreprésenté avec une annotation particulière.

Les fonctions peuvent être définies à l'aide de plusieurs bases de données différentes, mais la plus populaire est la Gene Ontology (GO Ashburner et al., 2000). La base de données GO est structurée comme un graphe acyclique orienté, dans lequel les termes forment une hiérarchie où les termes GO plus spécifiques héritent également des termes plus généraux au-dessus d'eux. Les premières tentatives de prédiction de la fonction des gènes ont souvent négligé ces niveaux élevés de similitude entre les termes, mais plus récemment, des programmes ont tenté de résoudre ce problème en particulier en incluant des mesures de similitude sémantique. Malheureusement, ces programmes ont tous des inconvénients. Tao et al. ( 2007) n'a pu produire des prédictions que pour les gènes qui ont déjà une annotation, tandis que Yu et al. (2005) et Pandey et al. (2009) utilisent tous deux une mesure de similarité sémantique mais uniquement avec une Kapproche du classificateur du plus proche voisin (KNN) et utilisant uniquement des données d'interaction protéine-protéine. Aussi, ces deux articles se limitent aux humains et Saccharomyces cerevisaie, deux organismes qui ont des génomes relativement bien annotés.

Programmes de prédiction de la fonction génique pour les organismes qui sont moins bien annotés mais qui ont des effets significatifs sur les humains, tels que l'agent causal de la forme la plus mortelle de paludisme Plasmodium falciparum, sont peu nombreux. L'annotation clairsemée de ces génomes et, par conséquent, le manque de données d'apprentissage rendent la prédiction de la fonction des gènes plus difficile. Par conséquent, dans cet article, nous rassemblons une vaste collection disparate d'ensembles de données pour P.falciparum et présentent une nouvelle méthode de prédiction de la fonction génique qui tente de résoudre ce problème. Notre programme contient trois étapes : (i) regrouper les gènes en utilisant une mesure de similarité sémantique en groupes fonctionnels (ii) calculer la probabilité qu'une paire de gènes appartiennent au même groupe fonctionnel en utilisant un classificateur de Bayes (iii) en utilisant ces probabilités, nous employons un algorithme d'analyse d'enrichissement pour prédire la fonction du gène. Nous appelons ce programme PAGODA (Protein Assignment by Gene Ontology Data Associations).


MISES À JOUR DU CONTENU DES DONNÉES

Ensembles de données disponibles

BloodSpot est une base de données d'expression d'ARNm dans l'hématopoïèse saine et maligne et comprend des données provenant à la fois d'humains et de souris. La base de données est subdivisée en plusieurs ensembles de données qui sont chacun accessibles pour la navigation via la nouvelle interface. Les ensembles de données sont organisés par organisme d'origine et statut de la maladie. Les ensembles de données sont organisés comme suit : tout d'abord, les cellules hématopoïétiques saines humaines, puis la leucémie humaine et enfin les cellules hématopoïétiques saines de souris. BloodSpot contient les ensembles de données de notre précédent HemaExplorer (3) ainsi que de nouveaux ensembles de données publiés, tous traités manuellement comme décrit dans Rapin et al. ( dix). Tous les ensembles de données disponibles dans BloodSpot ont été générés à l'aide de puces à puces oligonucléotidiques, à l'exception d'un ensemble de données de souris qui a été généré à l'aide de la technologie de séquençage d'ARN. Par souci d'exhaustivité, la base de données comprend également le contenu d'autres bases de données en ligne que nous jugeons pertinentes pour l'étude de l'hématopoïèse dans le cadre de BloodSpot. Ces bases de données externes incluent la carte de différenciation (DMAP) (2) et le projet Immunological Genome (ImmGen) (1).

Au total, la plate-forme comprend plus de 5 000 échantillons (voir les tableaux 1 à 3). Tous les ensembles de données ont été contrôlés pour la qualité, correctement normalisés et ajustés pour les effets de lot si nécessaire (11, 12).

Ensembles de données pour l'hématopoïèse normale

Base de données . Organisme. La source . Exemples de numéros. Types de cellules. Référence .
Hématopoïèse normale avec LAM Humain GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM tôt, PM tardif, MY, MM, BC, PMN Rapin et al. ( 20)
Hématopoïèse normale (HemaExplorer) Humain GSE17054 2 HSC Majeti et al. ( 21)
Hématopoïèse normale (HemaExplorer) Humain GSE19599 4 BPF, MEP Andersson et al. ( 22)
Hématopoïèse normale (HemaExplorer) Humain GSE11864 2 Monocytes Hu et al. ( 23)
Hématopoïèse normale (HemaExplorer) Humain E-MEXP-1242 2 Monocytes Wildenberg et al. ( 24)
Hématopoïèse normale (DMAP) Humain GSE24759 211 Hématopoïèse normale Noverstern et al. ( 2)
Système hématopoïétique normal de la souris Souris GSE14833, GSE6506 67 Hématopoïèse normale Di Tullio et al. (25), Chambres et al. ( 26)
Ensembles de données ImmGen Souris GSE15907 >700 Hématopoïèse normale Réf (1, 27-29)
Base de données . Organisme. La source . Exemples de numéros. Types de cellules. Référence .
Hématopoïèse normale avec LAM Humain GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM tôt, PM tardif, MY, MM, BC, PMN Rapin et al. ( 20)
Hématopoïèse normale (HemaExplorer) Humain GSE17054 2 HSC Majeti et al. ( 21)
Hématopoïèse normale (HemaExplorer) Humain GSE19599 4 BPF, MEP Andersson et al. ( 22)
Hématopoïèse normale (HemaExplorer) Humain GSE11864 2 Monocytes Hu et al. ( 23)
Hématopoïèse normale (HemaExplorer) Humain E-MEXP-1242 2 Monocytes Wildenberg et al. ( 24)
Hématopoïèse normale (DMAP) Humain GSE24759 211 Hématopoïèse normale Noverstern et al. ( 2)
Système hématopoïétique normal de la souris Souris GSE14833, GSE6506 67 Hématopoïèse normale Di Tullio et al. (25), Chambres et al. ( 26)
Ensembles de données ImmGen Souris GSE15907 >700 Hématopoïèse normale Réf (1, 27-29)
Base de données . Organisme. La source . Exemples de numéros. Types de cellules. Référence .
Hématopoïèse normale avec LAM Humain GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM tôt, PM tardif, MY, MM, BC, PMN Rapin et al. ( 20)
Hématopoïèse normale (HemaExplorer) Humain GSE17054 2 HSC Majeti et al. ( 21)
Hématopoïèse normale (HemaExplorer) Humain GSE19599 4 BPF, MEP Andersson et al. ( 22)
Hématopoïèse normale (HemaExplorer) Humain GSE11864 2 Monocytes Hu et al. ( 23)
Hématopoïèse normale (HemaExplorer) Humain E-MEXP-1242 2 Monocytes Wildenberg et al. ( 24)
Hématopoïèse normale (DMAP) Humain GSE24759 211 Hématopoïèse normale Noverstern et al. ( 2)
Système hématopoïétique normal de la souris Souris GSE14833, GSE6506 67 Hématopoïèse normale Di Tullio et al. (25), Chambres et al. ( 26)
Ensembles de données ImmGen Souris GSE15907 >700 Hématopoïèse normale Réf (1, 27-29)
Base de données . Organisme. La source . Exemples de numéros. Types de cellules. Référence .
Hématopoïèse normale avec LAM Humain GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM tôt, PM tardif, MY, MM, BC, PMN Rapin et al. ( 20)
Hématopoïèse normale (HemaExplorer) Humain GSE17054 2 HSC Majeti et al. ( 21)
Hématopoïèse normale (HemaExplorer) Humain GSE19599 4 BPF, MEP Andersson et al. ( 22)
Hématopoïèse normale (HemaExplorer) Humain GSE11864 2 Monocytes Hu et al. ( 23)
Hématopoïèse normale (HemaExplorer) Humain E-MEXP-1242 2 Monocytes Wildenberg et al. ( 24)
Hématopoïèse normale (DMAP) Humain GSE24759 211 Hématopoïèse normale Noverstern et al. ( 2)
Système hématopoïétique normal de la souris Souris GSE14833, GSE6506 67 Hématopoïèse normale Di Tullio et al. (25), Chambres et al. ( 26)
Ensembles de données ImmGen Souris GSE15907 >700 Hématopoïèse normale Réf (1, 27-29)

Ensembles de données pour les patients leucémiques

Base de données . Organisme. La source . Numéros de patients. Types de cellules. Référence .
Ensembles de données de caryotype normal AML LMA humaine GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Ensembles de données AML TCGA LMA humaine TCGA 183 Diverses aberrations génétiques, y compris t(821), inv(16), t(1517), t(11q23), caryotype complexe, WBM TCGA (9)
Étude MILE sur la leucémie AML humaine, ALL, CML, CLL et MDS GSE13159 2096 AML, ALL et stades préleucémiques. Haferlach et al. ( 29, 30)
LAM par rapport à la normale LMA humaine GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bassin de sang LMA humaine GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalement AML, ALL et stades préleucémiques. toutes les références ci-dessus
Base de données . Organisme. La source . Numéros de patients. Types de cellules. Référence .
Ensembles de données de caryotype normal AML LMA humaine GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Ensembles de données AML TCGA LMA humaine TCGA 183 Diverses aberrations génétiques, y compris t(821), inv(16), t(1517), t(11q23), caryotype complexe, WBM TCGA (9)
Étude MILE sur la leucémie AML humaine, ALL, CML, CLL et MDS GSE13159 2096 AML, ALL et stades préleucémiques. Haferlach et al. ( 29, 30)
LAM par rapport à la normale LMA humaine GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bassin de sang LMA humaine GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalement AML, ALL et stades préleucémiques. toutes les références ci-dessus
Base de données . Organisme. La source . Numéros de patients. Types de cellules. Référence .
Ensembles de données de caryotype normal AML LMA humaine GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Ensembles de données AML TCGA LMA humaine TCGA 183 Diverses aberrations génétiques, y compris t(821), inv(16), t(1517), t(11q23), caryotype complexe, WBM TCGA (9)
Étude MILE sur la leucémie AML humaine, ALL, CML, CLL et MDS GSE13159 2096 AML, ALL et stades préleucémiques. Haferlach et al. ( 29, 30)
LAM par rapport à la normale LMA humaine GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bassin de sang LMA humaine GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalement AML, ALL et stades préleucémiques. toutes les références ci-dessus
Base de données . Organisme. La source . Numéros de patients. Types de cellules. Référence .
Ensembles de données de caryotype normal AML LMA humaine GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Ensembles de données AML TCGA LMA humaine TCGA 183 Diverses aberrations génétiques, y compris t(821), inv(16), t(1517), t(11q23), caryotype complexe, WBM TCGA (9)
Étude MILE sur la leucémie AML humaine, ALL, CML, CLL et MDS GSE13159 2096 AML, ALL et stades préleucémiques. Haferlach et al. ( 29, 30)
LAM par rapport à la normale LMA humaine GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bassin de sang LMA humaine GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalement AML, ALL et stades préleucémiques. toutes les références ci-dessus

Présentation de l'ensemble de données

Base de données . Caractéristiques . Échantillons. Méthode de normalisation.
Étude MILE sur la leucémie 67191 2095 1
Hématopoïèse humaine normale avec LAM 67191 296 1,7
Immgen Populations clés 47273 256 2
LAM par rapport à la normale 67191 252 3
Ensemble de données AML TCGA 67191 244 1
Ensemble de données AML TCGA par rapport à la normale 67191 244 3
Caryotype normal de la LMA 54675 234 1
LAM Caryotype normal versus normal 67191 234 3
Hématopoïèse humaine normale (DMAP) 35459 211 4
Cellules immgen abT 47273 190 2
Cellules dentritiques Immgen 47273 151 2
Immgen MFs Monocytes Neutrophiles 47273 114 2
Cellules B immgen 47273 103 2
Hématopoïèse humaine normale (HemaExplorer) 57270 77 5
Cellules gdT Immgen 47273 76 2
Cellules souches et progénitrices Immgen 47273 76 2
Système hématopoïétique normal de la souris 57613 67 4
Cellules T activées Immgen 47273 55 2
Cellules NK Immgen 47273 47 2
Cellules stromales immen 47273 39 2
Souris normale (ARN seq) 45426 52 6
Piscine de sang 67191 2120 1,7
BloodPool par rapport à la normale 67191 2076 3,7
Base de données . Caractéristiques . Échantillons. Méthode de normalisation.
Étude MILE sur la leucémie 67191 2095 1
Hématopoïèse humaine normale avec LAM 67191 296 1,7
Immgen Populations clés 47273 256 2
LAM par rapport à la normale 67191 252 3
Ensemble de données AML TCGA 67191 244 1
Ensemble de données AML TCGA par rapport à la normale 67191 244 3
Caryotype normal de la LMA 54675 234 1
LMA Caryotype normal versus normal 67191 234 3
Hématopoïèse humaine normale (DMAP) 35459 211 4
Cellules immgen abT 47273 190 2
Immgen Cellules dentritiques 47273 151 2
Immgen MFs Monocytes Neutrophiles 47273 114 2
Cellules B immgen 47273 103 2
Hématopoïèse humaine normale (HemaExplorer) 57270 77 5
Cellules gdT Immgen 47273 76 2
Cellules souches et progénitrices Immgen 47273 76 2
Système hématopoïétique normal de la souris 57613 67 4
Cellules T activées Immgen 47273 55 2
Cellules NK Immgen 47273 47 2
Cellules stromales immen 47273 39 2
Souris normale (ARN seq) 45426 52 6
Piscine de sang 67191 2120 1,7
BloodPool par rapport à la normale 67191 2076 3,7

Légende de la méthode de normalisation :

1 Chaque échantillon de cancer est normalisé avec un ensemble d'échantillons provenant de populations myéloïdes normales triées. Tous les échantillons ont été normalisés à l'aide de RMA. La comparaison des valeurs d'expression génique n'est pas possible avec d'autres ensembles de données dans Bloodspot.

2 Tous les échantillons des ensembles de données ImmGen ont été normalisés avec RMA. Les échantillons ont ensuite été attribués aux différents ensembles de données de BloodSpot. Cela signifie que la comparaison des valeurs d'expression génique est possible dans tous les ensembles de données ImmGen.

3 Les données sont normalisées selon Rapin et al. En bref, chaque échantillon de cancer est normalisé avec un ensemble d'échantillons provenant de populations myéloïdes normales triées. Ensuite, en utilisant une méthode basée sur l'ACP, les 5 échantillons normaux les plus proches de l'échantillon de cancer sont moyennés et cet échantillon normal calculé est ensuite comparé à l'échantillon de cancer permettant le calcul des changements de pli d'expression génique. Voir Méthodes supplémentaires et Rapin et al. ( 10).

normalisé à l'aide de RMA. La comparaison des valeurs d'expression génique n'est pas possible avec d'autres ensembles de données dans Bloodspot.

Voir nos précédents travaux (Bagger et al. ( 3)).

6 Les données ont été traitées à l'aide du pipeline bcbio nextgen RNA-seq. Les données de comptage ont ensuite été traitées avec la méthode de transformation de stabilisation de la variance de DESeq2.

7 Les données ont été corrigées par lot à l'aide de ComBat, en prenant le numéro d'étude comme lot.

Base de données . Caractéristiques . Échantillons. Méthode de normalisation.
Étude MILE sur la leucémie 67191 2095 1
Hématopoïèse humaine normale avec LAM 67191 296 1,7
Immgen Populations clés 47273 256 2
LAM par rapport à la normale 67191 252 3
Ensemble de données AML TCGA 67191 244 1
Ensemble de données AML TCGA par rapport à la normale 67191 244 3
Caryotype normal de la LMA 54675 234 1
LMA Caryotype normal versus normal 67191 234 3
Hématopoïèse humaine normale (DMAP) 35459 211 4
Cellules immgen abT 47273 190 2
Immgen Cellules dentritiques 47273 151 2
Immgen MFs Monocytes Neutrophiles 47273 114 2
Cellules B immgen 47273 103 2
Hématopoïèse humaine normale (HemaExplorer) 57270 77 5
Cellules gdT Immgen 47273 76 2
Cellules souches et progénitrices Immgen 47273 76 2
Système hématopoïétique normal de la souris 57613 67 4
Cellules T activées Immgen 47273 55 2
Cellules NK Immgen 47273 47 2
Cellules stromales immen 47273 39 2
Souris normale (ARN seq) 45426 52 6
Piscine de sang 67191 2120 1,7
BloodPool par rapport à la normale 67191 2076 3,7
Base de données . Caractéristiques . Échantillons. Méthode de normalisation.
Étude MILE sur la leucémie 67191 2095 1
Hématopoïèse humaine normale avec LAM 67191 296 1,7
Immgen Populations clés 47273 256 2
LAM par rapport à la normale 67191 252 3
Ensemble de données AML TCGA 67191 244 1
Ensemble de données AML TCGA par rapport à la normale 67191 244 3
Caryotype normal de la LMA 54675 234 1
LMA Caryotype normal versus normal 67191 234 3
Hématopoïèse humaine normale (DMAP) 35459 211 4
Cellules immgen abT 47273 190 2
Immgen Cellules dentritiques 47273 151 2
Immgen MFs Monocytes Neutrophiles 47273 114 2
Cellules B immgen 47273 103 2
Hématopoïèse humaine normale (HemaExplorer) 57270 77 5
Cellules gdT Immgen 47273 76 2
Cellules souches et progénitrices Immgen 47273 76 2
Système hématopoïétique normal de la souris 57613 67 4
Cellules T activées Immgen 47273 55 2
Cellules NK Immgen 47273 47 2
Cellules stromales immen 47273 39 2
Souris normale (ARN seq) 45426 52 6
Piscine de sang 67191 2120 1,7
BloodPool par rapport à la normale 67191 2076 3,7

Légende de la méthode de normalisation :

1 Chaque échantillon de cancer est normalisé avec un ensemble d'échantillons provenant de populations myéloïdes normales triées. Tous les échantillons ont été normalisés à l'aide de RMA. La comparaison des valeurs d'expression génique n'est pas possible avec d'autres ensembles de données dans Bloodspot.

2 Tous les échantillons des ensembles de données ImmGen ont été normalisés avec RMA. Les échantillons ont ensuite été attribués aux différents ensembles de données de BloodSpot. Cela signifie que la comparaison des valeurs d'expression génique est possible dans tous les ensembles de données ImmGen.

3 Les données sont normalisées selon Rapin et al. En bref, chaque échantillon de cancer est normalisé avec un ensemble d'échantillons provenant de populations myéloïdes normales triées. Ensuite, en utilisant une méthode basée sur l'ACP, les 5 échantillons normaux les plus proches de l'échantillon de cancer sont moyennés et cet échantillon normal calculé est ensuite comparé à l'échantillon de cancer permettant le calcul des changements de pli d'expression génique. Voir Méthodes supplémentaires et Rapin et al. ( 10).

normalisé à l'aide de RMA. La comparaison des valeurs d'expression génique n'est pas possible avec d'autres ensembles de données dans Bloodspot.

Voir nos précédents travaux (Bagger et al. ( 3)).

6 Les données ont été traitées à l'aide du pipeline bcbio nextgen RNA-seq. Les données de comptage ont ensuite été traitées avec la méthode de transformation de stabilisation de la variance de DESeq2.

7 Les données ont été corrigées par lot à l'aide de ComBat, en prenant le numéro d'étude comme lot.

Piscine de sang

Une nouvelle fonctionnalité de BloodSpot est BloodPool, un ensemble de données agrégées et intégrées regroupant les résultats de plusieurs études axées sur la LMA. Au moyen de nos méthodes de correction par lots, cet ensemble de données peut être utilisé pour étudier l'expression des gènes (programmes) dans la LAM par rapport aux cellules correspondantes saines (voir Figure 1). Utilisation de la méthode de calcul développée dans Rapin et al. (10), nous avons également calculé les changements de pli d'expression génique par rapport à leurs homologues normaux les plus proches pour tous les profils AML dans BloodPool. BloodPool est disponible pour la navigation dans BloodSpot et peut être sélectionné comme l'un des autres ensembles de données disponibles.

Graphique d'analyse en composantes principales (ACP) des échantillons de BloodPool. (UNE) avant correction du lot, (B) après correction du lot. Les lots sont colorés par étude d'origine.

Graphique d'analyse en composantes principales (ACP) des échantillons de BloodPool. (UNE) avant correction du lot, (B) après correction du lot. Les lots sont colorés par étude d'origine.

Intégration des signatures génétiques MSigDB et CMAP

Nous avons collecté toutes les signatures génétiques disponibles dans la base de données des signatures moléculaires (MSigDB) (13) (version 4.0) (http://www.broadinstitute.org/gsea/msigdb/) et calculé, pour chaque signature, les valeurs d'expression moyennes pour tous échantillons dans tous les ensembles de données. Ces valeurs moyennes résument l'expression d'une signature pour chaque échantillon. Les signatures de la carte de connectivité (CMAP) (13) ont été générées avec la matrice de classement fournie par la base de données. Pour chaque combinaison de composé et de concentration, nous avons signalé les 500 gènes supérieurs et inférieurs et produit des signatures géniques. Les données affichées dans BloodSpot représentent la valeur moyenne de tous les gènes dans une signature donnée.

Normalisation des données

Toutes les données ont été normalisées et corrigées par lot pour éliminer les effets potentiels sur les lots de laboratoire. Pour cela, nous avons effectué une normalisation robuste multi-array (RMA) (14) de tous les fichiers de données de microarray .CEL partitionnés par origine, et ensuite appliqué ComBat (http://jlab.byu.edu/ComBat/) (12) une méthode empirique Méthode de Bayes implémentée dans le langage R. Les lots ont été définis comme étant le nom/numéro de l'étude, tandis que les covariables ont été attribuées au type de cellule pertinent. Les bases de données d'expression génique intégrées résultantes peuvent être visualisées directement ou comparées à des échantillons externes fournis par l'utilisateur. Voir les tableaux 1 à 3 pour un aperçu des données présentées dans BloodSpot et la procédure de normalisation utilisée. Tous les ensembles de données AML disponibles dans BloodSpot sont normalisés selon Rapin et al. (10) et un autre lot corrigé à l'aide de ComBat si nécessaire. Ce schéma de traitement garantit que les échantillons sont normalisés dans le cadre d'une hématopoïèse normale et selon des méthodes de correction par lots de l'état de l'art, quelle que soit l'origine des données.

Pour les données RNA-seq, nous avons utilisé le pipeline Blue Collar Bioinformatics RNA-seq (cartographie sur le génome de la souris mm10 avec TopHat version 2 (15), (https://bcbio-nextgen.readthedocs.org/)) pour obtenir des données de comptage normalisées à partir de fichiers fastq bruts de Lara-Astiaso et al. (16). Nous rapportons les données de comptage traitées à l'aide de la méthode de transformation stabilisatrice de variance du package DESeq2 (17).

Abréviations et exemples d'annotations

Les abréviations pour tous les types de cellules peuvent être trouvées sous le graphique en cliquant sur le lien « Abréviations ». En règle générale, l'utilisateur peut trouver des informations plus détaillées sur chaque type de cellule, telles qu'un nom plus long et plus informatif, et pour les ensembles de données de cellules saines, l'immunophénotype, lorsqu'il est disponible. Des liens vers les données brutes non traitées peuvent également être trouvés ici.

Gènes disponibles

Le serveur est limité aux gènes trouvés dans notre base de données de puces Affymetrix Human 133U plus 2, Affymetrix Human 133UA et Affymetrix Human 133UB pour l'homme, et les matrices GeneChip Mouse Genome 430 2.0 et Affymetrix Mouse Gene 1.0 ST pour la souris. Pour l'ensemble de données RNA-seq, l'annotation UCSC pour le génome mm10 a été utilisée.

Afin de gérer les alias de gènes, un dictionnaire d'alias de gènes a été construit à partir du NCBI ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/ et du HUGO Gene Nomenclature Committee (HGNC) www.genenames.org. Les alias de gènes ambigus n'ont pas été inclus lors de la construction du dictionnaire. La conversion d'alias n'est utilisée que lorsque la requête n'est pas un symbole de gène officiel ou un nom de sonde. Le résultat final permet une plus grande flexibilité concernant la saisie des noms de gènes et une navigation plus rapide.


RÉSULTATS

Analyse d'enrichissement des voies de signalisation

Sur la base d'idées précédentes (2), nous avons développé une base de données et un service Web pour effectuer une analyse d'enrichissement des voies de signalisation. La base de cette analyse d'enrichissement est une base de données de signatures spécifiques aux voies. Cette base de données se concentre sur les voies de signalisation déclenchées par des signaux extracellulaires, tels que des hormones, des récepteurs ou des stress externes. Pour compiler cette base de données, nous avons compilé manuellement des ensembles de données d'expression génique où les voies étaient perturbées et les changements dans l'expression génique étaient mesurés peu de temps après. Nous avons sélectionné manuellement les voies pour lesquelles nous avons trouvé un plus grand nombre d'expériences de perturbation appropriées (≥10). Cette base de données se compose de listes de gènes classées pour chacune des 16 voies de signalisation distinctes, chacune dérivée de plusieurs ensembles de données de perturbation (entre 10 et 113) avec lecture du transcriptome (cf. Figure 1, en bas à gauche). En bref, nous avons marqué de manière cohérente les gènes régulés à la hausse et à la baisse après une perturbation de la voie. Les listes classées contiennent alors les gènes les plus régulés à la hausse, tels que déterminés par P-value, à une extrémité de la liste, et les gènes les plus fortement régulés à la baisse mappés à l'autre extrémité (voir Matériels et méthodes). Ensuite, les rangs ont été convertis en scores d'une distribution uniforme entre –1 et 1, où le signe indique respectivement une régulation à la baisse et à la hausse.

Vue d'ensemble de l'application SPEED2 Nous avons sélectionné manuellement des expériences de perturbation spécifiques à une voie et estimé leur pertinence pour la voie. Pour chaque expérience z-les scores sont cartographiés sur une échelle comprise entre –1 et 1 (Zrank) et la signification a été affirmée par gène et voie en testant les Zranks par rapport à un modèle nul uniforme (p) et corrigé pour les tests multiples (q). Ces mesures de signification spécifiques à la voie (ainsi que leur direction de régulation) sont maintenant utilisées pour évaluer une liste de gènes fournie par l'utilisateur pour deux aspects : (i) tester l'enrichissement de la voie par déviation de la moyenne uniforme (test de Bates) ou de la variance uniforme (χ test 2 var) sur P-classer les signatures de voies continues ordonnées et (ii) filtrer la liste des gènes pour les représentants des voies classés par q-value (voir texte principal). Le premier résultat donne des indications sur la signalisation en amont qui pourrait avoir causé le changement d'expression génique et le deuxième résultat fournit des gènes candidats pour, par ex. mener des enquêtes de suivi. Nous illustrons ces sorties SPEED2 sur une liste cible MAPK bien définie d'Uhlitz et al. ( 4).

Vue d'ensemble de l'application SPEED2 Nous avons sélectionné manuellement des expériences de perturbation spécifiques à une voie et estimé leur pertinence pour la voie. Pour chaque expérience z-les scores sont cartographiés sur une échelle comprise entre -1 et 1 (Zrank) et la signification a été affirmée par gène et voie en testant les Zranks par rapport à un modèle nul uniforme (p) et corrigé pour plusieurs tests (q). Ces mesures de signification spécifiques à la voie (ainsi que leur direction de régulation) sont maintenant utilisées pour évaluer une liste de gènes fournie par l'utilisateur pour deux aspects : (i) tester l'enrichissement de la voie par déviation de la moyenne uniforme (test de Bates) ou de la variance uniforme (χ test 2 var) sur P-classer les signatures de voies continues ordonnées et (ii) filtrer la liste des gènes pour les représentants des voies classés par q-value (voir texte principal). Le premier résultat donne des indications sur la signalisation en amont qui pourrait avoir causé le changement d'expression génique et le deuxième résultat fournit des gènes candidats pour, par ex. mener des enquêtes de suivi. Nous illustrons ces sorties SPEED2 sur une liste cible MAPK bien définie d'Uhlitz et al. ( 4).

Sur le site Web de SPEED2, les utilisateurs peuvent saisir des listes de gènes d'intérêt, par ex. gènes humains exprimés de manière différentielle sous forme de symboles de gènes ou d'identifiants de gènes Entrez, et SPEED2 quantifie si ces gènes sont enrichis en gènes de signature fortement dérégulés (voir Figure 1, en haut à droite). Pour déterminer l'enrichissement de la signature de la voie, SPEED2 propose deux options qui doivent être choisies en fonction de la question. Si la liste de gènes contient des gènes régulés à la hausse ou à la baisse, on peut choisir le test de Bates qui quantifie le changement de rang moyen. En revanche, si la liste de gènes fournie par l'utilisateur contient à la fois des gènes régulés à la hausse et à la baisse, le test 2 approximatif est plus approprié car il obtient un score élevé si les gènes fournis s'accumulent aux deux extrémités de la distribution. Dans la plupart des cas, le test Bates est plus puissant, cependant, si l'utilisateur fournit une liste de gènes d'environ un nombre égal de gènes régulés à la hausse et à la baisse, un scénario qui peut être identifié grâce à la visualisation « code-barres » dans SPEED2, il est recommande d'utiliser le test χ 2 . Dans les figures supplémentaires S1 à S3, nous comparons le test de Bates, le test du 2 et le GSEA (7), sans aucun avantage évident de cette dernière approche (8).

Lorsque l'analyse est terminée, les résultats sont rapportés pour chaque voie sous la forme d'un graphique à barres indiquant le rang moyen de la liste de requêtes, ainsi que d'un tracé de « code-barres », montrant la distribution des gènes de requête dans les signatures classées (voir Figure 1). . Les couleurs affichent un ajustement FDR P-valeurs. En plus de la visualisation de l'enrichissement, le site propose de télécharger les résultats sous forme de fichier de valeurs séparées par des virgules (.csv), permettant des analyses plus poussées. De plus, le site Web rapporte un tableau contenant tous les gènes de signature significatifs pour chaque voie qui chevauchent les gènes de requête. This table can be interactively explored, or also downloaded as .csv file.

Signature characterization

To benchmark SPEED2, we derived 45 independent gene lists for 8 different pathways based on data, not used to generate SPEED2 signatures ( Supplementary File 1 ). For each of these test sets, we determined if the list contained only up- or down-regulated genes, or generally contained target genes irrespective of the direction of regulation by the pathway. We then performed SPEED2 analysis on these lists, using the appropriate statistics (Bates for lists of up- or down-regulated genes, χ 2 for lists containing both up- and down-regulated genes). We marked the number of times the correct pathway was the first, second or third most enriched pathway in SPEED2 and found in 56% of cases the upstream stimuli was ranked first, and in 87% of cases within the top 3 predictions (Figure 2A, left).

Signature characterization. (UNE) Number of times that regulated pathways of externally curated data sets (total number of benchmarks per pathway in brackets) occurred in the top 3 most enriched pathways in SPEED2 analysis contrasted to the top ranking of the best assigned signalling pathway signatures from the Hallmarks collection using Fisher’s exact test (Hippo and IL-1 were not scored as no signalling Hallmark could be assigned). (B) Spearman correlation of mutually significant genes (P < 0.05) indicates three general signalling groups. (C) Scoring of Broad Hallmark signatures by SPEED2 with at least one pathway being more significant than adjusted P < 0.001 colors indicate row-scaled adjusted P-value (before scaling sign was set to 1 and –1 for up and down-regulation, respectively), see also Supplementary Figure S1 .

Signature characterization. (UNE) Number of times that regulated pathways of externally curated data sets (total number of benchmarks per pathway in brackets) occurred in the top 3 most enriched pathways in SPEED2 analysis contrasted to the top ranking of the best assigned signalling pathway signatures from the Hallmarks collection using Fisher’s exact test (Hippo and IL-1 were not scored as no signalling Hallmark could be assigned). (B) Spearman correlation of mutually significant genes (P < 0.05) indicates three general signalling groups. (C) Scoring of Broad Hallmark signatures by SPEED2 with at least one pathway being more significant than adjusted P < 0.001 colors indicate row-scaled adjusted P-value (before scaling sign was set to 1 and –1 for up and down-regulation, respectively), see also Supplementary Figure S1 .

Next to independent gene sets we also conducted an analysis for each single experiment of the SPEED2 database for both methods ( Supplementary Figures S4 and S5 ). On average we find similar scoring metrics for the first three ranks as in the independent testset benchmark. We further investigated the dependency on input size and found both scoring methods to be largely robust to input size, with slightly worse performances for small (<50) and large gene sets (>450). Therefore for optimal performance we recommend as input a list of 100–400 genes and have limited the input size to 500. We further noted that on average the Bates test performed slighty better on those benchmarks than the χ 2 test prompting us to suggest the Bates test as the default test on the website.

Due to extensive cross-talk between signalling pathways, stimuli often cross-activate multiple pathways, and thus appearance of multiple top pathways are expected. When visualizing Spearman correlation for mutually significant genes (P < 0.05) across pathway-pairs (Figure 2B), we confirmed that several signatures are highly correlated, with particularly strong correlation between the IL-1, TNFa and TLR pathways.

To further characterize our gene signatures we analysed the MSigDB Hallmark sets with SPEED2 (using the Bates test) finding a substantial agreement for the IL-1, JAK-STAT, TNFa, TLR pathway family, as well as Estrogen, Hypoxia, TGFb and p53 (Figure 2C). For certain other pathways, like Wnt, Notch or MAPK/KRAS, there was little or no agreement between the assigned signatures. This finding is further corroborated, when we performed enrichment analysis on our independent test sets using the MSigDB Hallmark sets ( 2A, right). We found that enrichment using the signalling-related Hallmark sets generally performed less well compared to SPEED2, particularly for those signatures where SPEED2 and Hallmark signatures diverge, suggesting that SPEED2 signatures are more potent to score signalling pathway deregulation.

To further compare our tool with existing tools and databases we applied our benchmarks on the comprehensive geneset database collection of the Enrichr webtool ( 9). When scoring the top 4 performing databases representing pathway enrichment: Bioplanet 2019 ( 10), WikiPathways 2019 Human ( 11), KEGG 2019 Human ( 12) and Panther 2016 ( 13), we note that each tool individually is outperformed by SPEED2 ( Supplementary Figure S6 ). In contrast to SPEED2 those top 4 scoring pathway databases predominantly contain genes encoding for proteins that are important in the signalling relay of the pathway and have little information on downstream transcriptional targets. This indicates that in order to next to pathway membership also encompass causal upstream signalling SPEED2 might be a useful addition to consider for the Enrichr suite.


The authors have no conflict of interest to declare.

Figure S1. The shape of the vectors used to identify coexpressed genes in particular tissues or under particular treatments.

Figure S2. Information flow of the Cistome pipeline.

Figure S3. The distribution of maximum Z-statistic scores for 1000 random promoter sets for each program used in the Cistome pipeline.

Figure S4. The results of benchmarking of the Cistome prediction pipeline against synthetic data sets from yeast and Arabidopsis.

Figure S5. The vector maps of the plasmids used to generate transgenic lines for in planta validation.

Figure S6. GUS expression patterns of synthetic and native ‘epidermal’ motif lines.

Figure S7. GUS expression of synthetic ‘root’ motif lines.

Tableau S1. Samples used for custom bait generation.

Tableau S2. The number of transcripts found using the ‘custom baits’ from Table S1.

Tables S3 and S4. The actual promoter set lists generated for tissues and abiotic/hormone responses.

Tableau S5. The putative promoter cis-element sequences we discovered with the Cistome pipeline that used for follow-up in planta validation.

Tables S6 and S7. The oligonucleotides used to amplify ‘native’ promoters and to generate synthetic promoters containing multiple copies of a predicted cis-élément.

Methods S1. Describes how we benchmarked the pipeline.

Methods S2. Describes additional experiments not shown in the main text.

Methods S3. File regarding our approach for exhaustive pattern enumeration and significance assessment.

Remarque : L'éditeur n'est pas responsable du contenu ou de la fonctionnalité des informations fournies par les auteurs. Toute question (autre que le contenu manquant) doit être adressée à l'auteur correspondant à l'article.


Introduction

The emergence of system-wide approaches (‘-omics’ e.g., genomics, proteomics, metabolomics, etc.) and related technologies to quantify molecular changes that accompany biological processes or disease states has resulted in an explosion in the amount of data collected by researchers. Investigators across all areas of biology have designed large scale experiments to capture a broader systems-based understanding of gene or protein expression changes that accompany their process of interest. However, many have found that such datasets are too large to be immediately informative, and extracting useful information from these datasets is dependent upon additional analysis.

One strategy to analyze such data is to generate gene network models using one of several analytical frameworks [1]–[5]. In theory, these network approaches have two advantages: they should accelerate the rate of novel discoveries by automating data analysis and they should be more immune to experimenter bias. This use of computational strategies will potentially lead to discoveries from omics data without a priori knowledge of the system. However, these computational approaches require a tremendous amount of biological data. For example, if an investigator wants to understand which genes function together during a particular developmental process, she might profile changes in gene expression over developmental time. Ideally the number of conditions (e.g., ages, experimental perturbations) under which gene expression is measured should be much larger than the number of genes being profiled in order to obtain an accurate estimate of the covariance matrix upon which the network of all genes is based [6]. Thus, for a microarray experiment that measures the expression of 5000 genes, one should measure the expression of each gene under more than 5000 different conditions. Even collection of 20% of the ideal amount of data for robust analyses is both time and cost prohibitive for most investigators. As a consequence, the majority of biologists collect datasets that are too small for effective computational analysis and too large for systematic and efficient consideration of candidate molecules. This data limbo is a limiting factor to the growth of the field of systems biology.

While it is essential that the development of computational tools and approaches continue, it is also essential that efforts are made to establish 𠆋iological heuristics’ that will allow benchtop investigators to perform meaningful analyses on the sometimes limited amounts of data they are capable of collecting. A key first step in this process is to consider the development of strategies to efficiently query omics data, as opposed to exhaustively analyzing it. The use of biological heuristics is a flexible strategy, which utilizes prior biological knowledge of the system to design queries. These queries ask specific questions about relatively small groups of interacting genes and return manageable numbers of candidate genes for further analysis at the bench.

Our approach to querying high-throughput data utilizes prior biological knowledge by starting with a ‘seed-network’ of genes, and is based on the paradigm that the expression of genes that function together will change in similar ways over time (i.e., their expression will be correlated). The basic assumption is that if a gene is correlated with one member of the seed network, it may be involved in the process of interest however, if the same gene is correlated with multiple members of the seed-network it much more likely to be involved in that process (e.g., retinal cell fate determination). One of us has demonstrated previous success identifying gene candidates in development of rod photoreceptors by using a seed-network-based heuristic to query high throughput data [7], and this success motivated our efforts to further develop strategies to identify effective seed networks to query large datasets.

Here we employ our seed-network approach to a genetic comparison of two important models in the study of retinal development: the fly, Drosophila melanogaster, and the mouse, Mus musculus. Despite the morphological and developmental disparity of the fly compound eye [8], [9] and the mouse camera-type eye [10], [11], gene conservation during both fly and mouse retinal development is well-documented [12]–[16] and there is an implicit assumption of gene regulatory network conservation as well [17], [18]. However the networks are not completely congruent [19]. We test the hypothesis that gene relationships established in the developing fly retina can be identified in correlation networks generated using gene expression data from the developing mouse retina. Further, we hypothesize that the resulting mouse network will be an effective tool to discover candidate genes and gene networks that function during mammalian retinal development. In this report, we take advantage of two biological systems by constructing a 𠆌omparative seed-network’ based on studies of retinal determination in fly and use it to query gene expression data from the developing mouse retina. Our study was guided by three objectives: 1) to construct a literature-based seed network representing the relationships between genes involved in retinal determination in the fly 2) to determine whether the network relationships of fly genes are identifiable among homologous mouse genes in expression correlation networks generated from the developing mouse retina and 3) to assess whether this strategy, based on evolutionary comparison between model organisms, is a useful method to identify biologically relevant candidate genes important in retinal determination. Based on these objectives, our results demonstrate successful application of this strategy within our experimental system and provide a clear framework to evaluate this approach in other biological areas.


Introduction

H igh throughput genomics technologies , such as next generation DNA/RNA sequencing or microarray analyses, are frequently used during biomedical research, as well as in diagnostic and therapeutic product development. These generate large quantities of Big Data that require advanced bioinformatics analysis and interpretation. The key step towards translating these results into meaningful scientific discoveries is deduction of biological and clinical contexts from the generated data. In this realm, several methods and tools have been developed to interpret large sets of genes or proteins, using information available in biological databases. Prominent among these are gene set enrichment tools.

In conventional examples, the Gene Ontology database is used for the functional study of large scale genomics or transcriptomics data. Multiple applications such as GeneCodis, GOEAST, Gorilla, and Blast2GO (Conesa et al., 2005 Eden et al., 2009 Nogales-Cadenas et al., 2009 Zheng and Wang, 2008) can analyze and visualize statistical enrichment of GO terms in a given gene set. Other tools rely on popular data sources such as Kyoto Encyclopedia of Genes and Genomes (KEGG), TransPath, Online Mendelian Inheritance in Man (OMIM), and GeneCards to identify enriched pathways, diseases, and phenotypes (Backes et al., 2007 Huang da et al., 2009b Safran et al., 2010 Sherman et al., 2007 Stelzer et al., 2009 Zhang et al., 2005). These analysis tools differ in several respects, including statistical methodology, supported organisms and gene identifiers, coverage of functional categories, source databases, and user interface. The common result is the identification of known functional biological descriptors that are significantly enriched within the experimentally-derived gene list.

Enrichment of biological descriptors for a given set of genes introduces three immediate challenges: The first is determining the statistical significance of enrichment of each descriptor. There are several approaches to calculating the statistics for a descriptor shared among genes, such as Gene Set Enrichment Analysis [GSEA (Maezawa and Yoshimura, 1991)] and Fisher's exact test [Database for Annotation, Visualization and Integrated Discovery—DAVID (Dennis et al., 2003)]. Some tools, such as the DAVID functional annotation tool, initially cluster the descriptors belonging to similar categories, and then present a score for an enriched group of terms.

The second challenge is judicious use of multiple data sources. It is a nontrivial task to integrate and model information derived from various origins. In an example, disease information could be derived from data sources such as OMIM (Hamosh et al., 2005), SwissProt/UniProt (Wu et al., 2006), and Orphanet (Maiella et al., 2013), and pathway information—from Reactome (Jupe et al., 2014 Matthews et al., 2009) and/or KEGG (Kanehisa et al., 2010). Therefore many analysis tools present separate enrichment results for each data source, while others perform consolidated analysis on source types.

A third challenge is optimal data presentation. Tools such as DAVID group enriched terms by biological categories in an attempt to provide a general sense of the biological processes involved in the experimental results. Other tools, such as MSigDB (GSEA) (Liberzon et al., 2011) and GeneDecks Set Distiller (Stelzer et al., 2009), interlace biological descriptors of various kinds, based on their statistical enrichment strength, thus emphasizing the individual significance of each in the context of the general enriched descriptor list. It would be optimal to give both a birds-eye view of grouped descriptors for a given set of genes, as well as display the descriptors in detail.

Multiple data sources are generally employed for both broad and in-depth depictions of enrichment. A related challenge is to develop a straightforward and easy-to-use application, with intuitive output results, rendering the tool accessible to inexperienced users, with little or no bioinformatics background.

We present GeneAnalytics™ (geneanalytics.genecards.org), designed to distill enriched descriptors for a given gene set, while optimally addressing the aforementioned challenges. It is empowered by the GeneCards Suite, embodied as LifeMap's integrated knowledgebase, which automatically mines data from more than 120 data sources. GeneAnalytics' broad descriptor categories enable users to focus on areas of interest, each rich with annotation and supporting evidence. The GeneAnalytics analyses provide gene associations with tissues and cells types from LifeMap Discovery (LMD, discovery.lifemapsc.com), diseases from MalaCards, (www.malacards.org), as well as GO terms, pathways, phenotypes, and drug/compounds from GeneCards (www.genecards.org), (Fig. 1). Navigation within such comprehensive information, as well as further scrutiny, is facilitated by GeneAnalytics categorization and filtration tools.

FIGUE. 1. GeneAnalytics structure. GeneAnalytics is powered by GeneCards, LifeMap Discovery, MalaCards, and PathCards, which integrate >100 data sources. These databases contain annotated gene lists for tissues and cells, diseases, pathways, compounds, and GO terms. GeneAnalytics compares the user's gene set to these compendia in search of the best matches. The output contains the best matched gene lists, scored and subdivided into their biological categories such as diseases or pathways. In the figure, each output category and its respective data source are marked with the same color.


E-58. Identification of genes with preferential expression in the egg cell

Köszegi D XE "Köszegi D" (1, *), Czhial A XE "Czhial A" (1), Kumlehn J XE "Kumlehn J" (1), Altschmied L XE "Altschmied L" (1), Baumlein H XE "Baumlein H" (1)

In contrast to animals, the life cycle of higher plants alternates between a gamete-producing (gametophyte) and a spore-producing generation (sporophyte). The angiosperm female gametophyte consists of four distinct cell types, including two gametes, the egg and the central cell, which give rise to embryo proper and the nutritive endosperm, respectively. To gain insights into the molecular basis of gamete differentiation and function, genes with preferential expression in egg and central cell need to be isolated.

Matériaux et méthodes

A combined subtractive hybridization and virtual subtraction approach was used to isolate egg cell specific genes from a wheat egg cell cDNA library. Using microarray hybridization and in silico subtraction, egg cell expressed genes of Arabidopsis were isolated from a transcription factor induced proliferating tissue, which exhibits an egg cell-like transcriptome.

Résultats

In total we have isolated seven and nine candidate genes with preferential expression in the wheat and Arabidopsis egg cell, respectively. Via single cell RT-PCR we confirm the preferential expression of three wheat genes. Transgenic Arabidopsis plants transformed with promoter:reporter constructs confirm egg cell specific promoter activity for four out of nine genes.

Discussion

We demonstrate the suitability of the combined subtractive approach for the isolation of gamete specific genes. The approach is broadly applicable also for other species. Isolation and characterization of genes with preferential expression in either gamete allow to unravel the regulatory network which controls specification and differentiation of these important cell types in plants.

David Köszegi ( This e-mail address is being protected from spambots. You need JavaScript enabled to view it )


Voir la vidéo: Geenin kloonaus bakteerissa 1 (Août 2022).