Informations

Bases de données Génotype-Phénotype ?


Au-delà de la base de données sur le VIH de Stanford, quelles autres bases de données fournissent un ensemble de données reliant le génotype du virus/bactérien au phénotype quantitatif ? Je recherche des ensembles de données de haute qualité pour tester des pipelines de machine learning. Mes propres recherches ne produisent généralement que des bases de données qui traitent les mutations liées à la classe de résistance aux médicaments ("résistant, éventuellement résistant, sensible), mais pas d'informations quantitatives sous une forme standardisée comme la base de données de Stanford.


Classifications des variantes, bases de données et corrélations génotype-phénotype

Parce que CFTR les études génétiques représentent aujourd'hui l'une des analyses génétiques les plus fréquentes réalisées en routine dans le monde, le nombre de CFTR variants identifiés dans diverses situations cliniques, augmente régulièrement. Pour fournir un diagnostic et un pronostic appropriés aux patients atteints de mucoviscidose ainsi qu'un conseil génétique approprié aux familles, l'impact clinique et le spectre phénotypique des variantes identifiées par les techniques de diagnostic doivent être caractérisés. Trois bases de données complémentaires spécifiques aux locus, appelées CFTR1, CFTR2 et CFTR-France ont été développés pour répondre à ces questions. En outre, la connaissance croissante de la physiopathologie de la mucoviscidose et l'évolution technique de la biologie moléculaire ont permis d'identifier des gènes modificateurs candidats, des loci régulateurs, des profils épigénétiques et trans-des régulateurs qui pourraient aider à affiner les corrélations génotype-phénotype au niveau individuel. Ces différents facteurs peuvent contribuer à la grande variabilité phénotypique entre les patients atteints de mucoviscidose, même lorsqu'ils portent des CFTR variantes, concernant la fonction pulmonaire, la susceptibilité de l'iléus méconial ou le risque de développer un diabète et une maladie du foie liés au CFTR. Enfin, la disponibilité de nouvelles thérapies ciblant la protéine CFTR pour un grand nombre de patients atteints de mucoviscidose a conduit à l'identification de « bons » et de « mauvais » répondeurs, soulevant ainsi des questions sur les facteurs pharmacogénétiques qui peuvent influencer l'efficacité du traitement en tant que nouvelle caractéristique de la complexité des Prise en charge des patients atteints de mucoviscidose.

© 2020 Société Française de Pédiatrie. Edité par Elsevier Masson SAS. Tous les droits sont réservés.


Introduction

Le problème de la compréhension des relations entre génotype et phénotype est devenu beaucoup plus compliqué avec l'explosion de l'information génétique produite par le séquençage de nouvelle génération (NGS). Cette information a grandement compliqué non seulement notre capacité à comprendre des traits complexes, mais aussi notre compréhension des traits monogéniques n'est plus aussi simple. En effet, des articles récents ont suggéré la nécessité de développer de nouvelles approches pour faire face à la complexité toujours croissante des relations génotype/phénotype, telles que la « génétique des systèmes » [1] et la « génétique des particules » [2].

Cependant, peut-être le plus déroutant d'un point de vue génétique «traditionnel» a été la révélation de quantités inattendues de variation génétique chez des individus normaux, par exemple, à travers le 1000 Genomes Project Consortium [3, 4] (http://www.1000genomes.org ) et The Cancer Genome Atlas (http://www.cancergenome.nih.gov). De plus, des comparaisons de séquences multiples à la fois entre et dans les tissus d'un individu ont révélé de vastes inter- et intra-hétérogénéité génétique tissulaire [5–7]. Ces découvertes ont soulevé des questions fondamentales sur nos hypothèses génétiques les plus fondamentales, parmi lesquelles les suivantes : (i) Les études génétiques peuvent-elles encore s'appuyer sur un unique Séquence d'ADN ou d'ARN dérivée de sang ou de tissu malade pour déterminer le phénotype ? (ii) Existe-t-il réellement une séquence de référence définitive et pratique du génome humain, ou du moins la séquence de référence adoptée par le NCBI (RefSeqGen) peut-elle être utile dans la pratique pour déterminer les relations génotype/phénotype ? et (iii) L'hétérogénéité génétique dans les tissus normaux et malades implique-t-elle que, dans certains tissus, le génome d'un individu subira naturellement des changements somatiques de la conception à la mort, comme le suggère la figure 1. En particulier, les données d'hétérogénéité génétique récemment révélées pourraient aider à expliquer la longue observation, mais des concepts mal compris d'expressivité variable et de pénétrance réduite. Traditionnellement, leurs effets sur les différences phénotypiques ont été considérés comme relativement insignifiants, en particulier pour l'expressivité variable. Pour compliquer davantage les choses, des variations phénotypiques ont été trouvées, où des altérations génétiques identiques ont été associées à (i) des phénotypes de maladie considérablement différents, par exemple, dans le déficit en phénylalanine hydroxylase (PAH) [8], ou (ii) d'une manière plus extrême dans le gène du récepteur aux androgènes (AR), avec à la fois le syndrome d'insensibilité aux androgènes (AIS) et le cancer de la prostate [9].

Facteurs pouvant affecter le génome d'un individu de la conception à la mort. (1) Nous avons postulé que des mutations somatiques peuvent survenir au cours de l'embryogenèse et sont ensuite sélectionnées plus tard dans la vie, pour souligner à la fois l'importance d'identifier les mutations au début du développement et le rôle de la sélection dans la détermination du phénotype.

En outre, il y a également eu une augmentation de la découverte d'événements significatifs modifiant le phénotype, y compris des modifications épigénétiques, l'édition d'ARN et des interactions protéiques qui peuvent clairement influencer les événements transcriptionnels et non transcriptionnels impliqués dans la détermination du phénotype. Ainsi, ces influences complexes sont également susceptibles de rendre problématique notre compréhension traditionnelle de la relation entre génotype et phénotype. En outre, une revue récente de la dissociation génotype/phénotype qui a discuté de la base moléculaire possible de la pénétrance réduite dans les maladies héréditaires humaines, a mis en évidence 12 événements moléculaires qui peuvent influencer la pénétrance réduite [10], dont certains sont également probablement impliqués dans des situations d'expressivité variable. Dans la figure 2, nous avons suggéré un modèle qui incorpore certains de ces processus, et comment ils pourraient influencer le phénotype, avec un accent particulier sur l'influence de l'hétérogénéité génétique intra-organisme et intra-tissu. Traditionnellement, les bases de données génétiques ont été les outils de choix pour déterminer les relations génotype/phénotype mais, dans leur forme actuelle, elles sont totalement inadéquates pour traiter ces questions. Par conséquent, nous suggérons qu'il est temps de créer des bases de données génétiques de nouvelle génération (NGDB) qui seront en mesure d'incorporer et d'analyser tous les facteurs pouvant contribuer à la dissociation du génotype du phénotype, y compris ceux qui peuvent contribuer à une pénétrance réduite. et une expressivité variable.

Facteurs modificateurs phénotypiques. (1) Les mutations somatiques peuvent inclure à la fois des variantes nucléotidiques simples et des altérations structurelles telles que des variations du nombre de copies qui peuvent ensuite entraîner un mosaïcisme somatique et clonal. (2) La pression de sélection du microenvironnement cellulaire peut fonctionner au (i) niveau de l'ADN, c'est-à-dire en raison de mutations somatiques ou (A) de l'édition de l'ADN (ii) au niveau de l'ARN, c'est-à-dire en raison de (B) de l'édition de l'ARN, (C) des ARN en interaction , ou (D) facteurs épigénétiques, etc. ou (iii) niveau de protéine, c'est-à-dire dû à (E) interactions protéine-protéine. (3) La pression de sélection du microenvironnement tissulaire peut sélectionner un produit protéique différent. Flèches croisées reflètent le fait que la sélection peut aller dans les deux sens.

Facteurs dont il a été démontré qu'ils influencent le phénotype

Mutations somatiques qui entraînent une hétérogénéité génétique intra-organisme et intra-tissulaire

Jusqu'à récemment, on supposait que les mutations somatiques étaient presque exclusivement associées aux cancers et étaient uniformes au sein d'un néoplasme individuel. Cependant, différents ensembles de mutations somatiques ont été trouvés dans les tissus cancéreux d'un même individu, comme dans une étude récente des cancers ovariens séreux primaires de haut grade qui a révélé une quantité considérable d'hétérogénéité génétique intra-tumorale [11].

Des variants de séquences somatiques dans des tissus normaux ont également été examinés en relation avec l'oncogenèse. Une étude a conclu que les variantes de séquences somatiques dans les populations cellulaires normales pourraient être le stade le plus précoce de l'oncogenèse [12]. Preuve que le développement altéré de la glande mammaire et la prédisposition au cancer du sein sont dus à in utero l'exposition à des perturbateurs endocriniens a suggéré que la sélection de cellules ayant des propriétés phénotypiques différentes, vraisemblablement à la suite de mutations somatiques très précoces, peut avoir lieu aux tout premiers stades du développement du tissu mammaire [13]. Ainsi, nous devrons peut-être reconsidérer si l'accumulation d'un nombre critique de mutations oncogènes, par exemple, l'accumulation de mutations somatiques motrices, est la raison pour laquelle de nombreux cancers surviennent plus tard dans la vie. Au contraire, il a été proposé que, bien que les origines génétiques du cancer puissent survenir tôt dans le développement du fœtus, pression de sélection ultérieure pourrait expliquer la relation entre le vieillissement et le cancer [14]. Il est intéressant de noter qu'un mécanisme possible de production de mutations somatiques très précoces, à savoir le report temporaire de la réparation des lésions de l'ADN rencontrées lors de la réplication tissulaire, appelé "dommage bypass", a été identifié comme responsable de l'hypermutation somatique du gène de l'immunoglobine [15]. Quelle que soit l'hypothèse de l'oncogenèse finalement prouvée, les implications pour la construction de la NGDB pour les cancers seront probablement profondes, car les NGDB devront envisager d'incorporer des données de séquence à des stades beaucoup plus précoces du développement tissulaire, en particulier à partir de tissus qui ont le potentiel de devenir cancéreux. De toute évidence, la capacité de le faire pour le moment n'est pas pratique, mais il est possible d'envisager qu'à l'avenir, de nouvelles techniques de micro-échantillonnage, ainsi que la baisse spectaculaire et continue du coût des NGS, rendront une telle approche beaucoup plus réaliste.

De plus, comme des tissus spécifiques sont séquencés en routine, le nombre d'autres tissus malades dans lesquels des mutations somatiques ont été trouvées a considérablement augmenté [16]. Des études plus détaillées ont également rapporté un mosaïcisme somatique dans un certain nombre d'autres affections, notamment le syndrome de Proteus [17] et l'hémimégalencéphalie [18].

De plus, une étude des variants du nombre de copies (CNV) dans les tissus humains somatiques a révélé un nombre important de changements génomiques intra-individuels entre les tissus [19]. D'autres études sur les anomalies chromosomiques, y compris les NVC, ont révélé un mosaïcisme clonal associé au vieillissement et au cancer [14], ainsi qu'à un risque plus élevé de cancer hématologique [20].

Édition d'ADN

Dans l'état actuel de nos connaissances, ce processus est encore considéré comme extrêmement rare et de faible importance phénotypique [21].

Édition d'ARN

Des preuves récentes, bien que controversées, ont suggéré que l'édition de l'ARN se produit plus fréquemment qu'on ne le pensait auparavant [22, 23], bien que des questions sur sa fréquence réelle dans les tissus normaux et la validité du rapport original se soient posées [24-26]. Cependant, il semble y avoir des cas où les modifications des phénotypes de la maladie sont liées à l'édition de l'ARN [27, 28].

Corégulateurs : ARN non-codants

Ces dernières années, les ARN non codants (ARNnc) se sont avérés jouer un rôle important dans l'expression phénotypique de la production génomique transcrite. Cette famille d'ARN non traduits comprend les petits ARN nucléolaires (snoARN), qui facilitent l'épissage des ARNm, régulent les facteurs de transcription et répriment l'expression des gènes [via les microARN (miARN)]. De petits ARN nucléaires (snRNA) qui altèrent la prolifération cellulaire et l'apoptose au moyen de petits ARN interférents (siRNA) ont également été identifiés [29]. De longs ARN non codants (lncRNAs) ont également été identifiés comme régulateurs possibles de la transcription et de l'expression des gènes. Ainsi, l'utilisation de NGS pour déduire les niveaux d'expression du transcrit en général, en particulier passant par ARNnc, devient de plus en plus courant dans les laboratoires moléculaires et cliniques [30]. Par conséquent, il n'est pas surprenant que les ARNnc aient été impliqués comme étant responsables d'un certain nombre de phénotypes de maladies [31].

Facteurs épigénétiques

L'épigénétique décrit des événements basés sur la chromatine qui régulent les processus modélisés par l'ADN et entraînent une reprogrammation stable de l'expression des gènes en réponse à des stimuli externes transitoires. Les facteurs épigénétiques primaires comprennent les modifications de l'ADN et des histones qui sont ajoutées et supprimées dynamiquement par des enzymes modifiant la chromatine d'une manière hautement régulée. Les mécanismes épigénétiques identifiés comprennent la méthylation de l'ADN, la phosphorylation, l'ubiquitylation, la sumoylation, l'interférence ARN et la variance des histones. De plus, ces modifications épigénétiques jouent un rôle essentiel dans la régulation des processus basés sur l'ADN tels que la transcription, la réparation et la réplication de l'ADN, qui peuvent affecter l'expression du phénotype. Ainsi, des modèles d'expression anormaux ou des changements génomiques dans les régulateurs de la chromatine peuvent avoir des effets profonds sur les processus pathologiques humains [32]. En effet, l'épigénétique est considérée comme un facteur unificateur dans l'étiologie de certains traits complexes [33].

Régulateurs et autres types de protéines en interaction

Au cours des dernières années, l'expression phénotypique s'est également avérée être influencée par des protéines en interaction. Des altérations des surfaces d'interaction d'une molécule spécifique [34] ou des protéines d'interaction elles-mêmes peuvent entraîner des interactions protéine-protéine défectueuses et contribuer à un phénotype de maladie [35].

Pression de sélection par les microenvironnements cellulaires et tissulaires

Il a été proposé que la morphologie et le phénotype de la tumeur soient déterminés par la pression sélective du microenvironnement tissulaire [36, 37]. Cette hypothèse a été élargie pour inclure d'autres phénotypes génétiquement déterminés malades et non malades [38]. La capacité d'effectuer un séquençage ultra-profond à l'aide de séquenceurs de nouvelle génération a révélé beaucoup plus de variantes d'un gène dans les tissus et donc la possibilité que l'évolution au niveau tissulaire contribue à des phénotypes de maladie tels que le cancer [37, 38].

Déconnexions génotype/phénotype et mécanismes possibles

À la lumière de tous les facteurs potentiels de modification du phénotype (figure 2), qui ne sont généralement pas documentés dans les bases de données génétiques traditionnelles, il est facile de comprendre pourquoi ces bases de données, dans leur tentative de lier un génotype défini à un phénotype spécifique, ont tendance à éviter commentant les déconnexions génotype/phénotype, en raison du manque d'informations sur les mécanismes qui pourraient produire de tels effets. Cependant, une revue récente a souligné l'importance de comprendre ces déconnexions, avec plus de 650 références citées en proposant 12 mécanismes moléculaires pour expliquer la pénétrance réduite [10]. De même, un certain nombre de mécanismes possibles ont été suggérés pour expliquer l'expressivité variable, par exemple le mosaïcisme somatique [39], les gènes modificateurs [40], le microARN [41], les processus épigénétiques [42] et l'hétérogénéité allélique [43]. À l'origine, le concept de pénétrance réduite était basé sur des études de conditions génétiques bien connues dans lesquelles un arbre généalogique prédisait un phénotype de maladie, mais ce phénotype n'a pas été observé. Alors que dans la plupart des cas, la probabilité d'une pénétrance réduite était faible, elle a été utile pour calculer la possibilité qu'un individu ait un phénotype malade. Le concept s'est encore élargi lorsque des études à grande échelle ont commencé à enregistrer la présence de mutations dans des gènes spécifiques associés à des maladies multifactorielles, telles que le cancer, un excellent exemple étant les gènes BRCA du cancer du sein. Dans ces cas, la prédiction de la pénétrance était considérée comme importante pour évaluer le risque de maladie. Ce qui a encore compliqué le problème, comme nous l'avons noté, ce sont les données récentes du projet 1000 Genomes et d'autres projets de séquençage à grande échelle, qui ont rapporté que des individus normaux peuvent contenir des dizaines d'allèles potentiellement graves associés à la maladie [10]. Ainsi, plutôt que de parler de pénétrance réduite d'un variant pathogène dans une cohorte connue pour exprimer le phénotype de la maladie, nous devons maintenant examiner pourquoi ces variants pathogènes sont non pénétrants chez un nombre important d'individus sains normaux.

Redéfinir la séquence de référence du génome humain

De toute évidence, l'arrivée du séquençage du génome entier relativement peu coûteux et le séquençage subséquent d'un grand nombre d'individus non malades ont révélé la présence croissante de variantes génétiques connues associées à la maladie chez les individus non malades. Cela a été initialement montré lorsque la première séquence du génome coréen a été comparée à d'autres génomes asiatiques [44]. Des études plus détaillées ont trouvé des variantes de séquence dans les gènes associés à des troubles génétiques spécifiques, chez des individus présentant des phénotypes normaux. De tels exemples ont été récemment découverts dans une analyse génomique de 10 individus sains, où chaque individu présentait ce que l'on appelle une « variance saine » dans 19 à 31 gènes OMIM, car ils ne présentaient aucun des signes, symptômes ou phénotypes de la troubles génétiques associés [45]. Cependant, il convient de noter que toutes les variantes de séquence dans les gènes OMIM ne sont pas toujours pathogènes, comme cela a été récemment rapporté de manière exhaustive [10]. Néanmoins, une étude systématique des variantes de perte de fonction (LoF) a identifié 26 variantes connues et 21 variantes prédites de maladies graves dans l'analyse de 2 951 variantes présumées de LoF obtenues à partir de 185 génomes humains [46]. Ce qui est encore plus problématique, c'est que nos propres travaux ont identifié des variantes de séquences pathogènes spécifiques dans le gène AR chez des individus avec des phénotypes complètement normaux, c'est-à-dire exactement les mêmes variantes AR que celles trouvées chez les individus malades [9].

Nous pensons que ces données remettent en question la validité de nos méthodes actuelles de définition du génome humain dit normal. En particulier, les déconnexions génotype/phénotype des tissus normaux ont clairement créé des questions concernant l'utilité de s'appuyer sur une seule séquence de référence unique comme prédicteur définitif du phénotype. Le comité de nomenclature de la Human Genome Variation Society (HGVS) a étudié cette question (http://www.hgvs.org/mutnomen/refseq.html) et a recommandé que le NCBI RefSeqGen soit utilisé et que les directives de séquence de référence suivent le Locus Reference Format de séquence génomique (LRG) [47], qui suggère d'utiliser un enregistrement à fichier unique contenant une séquence de référence stable unique. Ces recommandations étaient appropriées au début de la NGS, lorsque l'étendue de la variance chez les individus normaux était relativement inconnue. Naturellement, nous comprenons qu'une séquence de référence définitive est importante pour définir les paramètres exoniques, introniques et autres paramètres structurels des gènes. Cependant, la question de la corrélation du phénotype avec une séquence spécifique est clairement devenue beaucoup plus complexe.

Pour faire face à ce problème, la variabilité croissante des séquences chez les individus normaux a été intégrée dans la dernière version du NCBI RefSeqGen (GRC37p13) (http://www.ncbi.nlm.nih.gov/projects/genome/assembly/ grc/human), avec l'idée que ces variantes pourraient être utilisées comme filtre contextuel pour déterminer la relation entre le génotype et le phénotype. En outre, des outils supplémentaires ont été mis en place pour traiter le problème de la variance normale, comme la prise en compte de références spécifiques à une population où les allèles majeurs sont inclus à chaque emplacement, ou la génération d'une séquence de référence où tous les allèles ont été identifiés dans le cadre de la lignée ancestrale commune des humains modernes. Cependant, nous dirions que le simple fait d'intégrer la variance humaine normale, même nuancée, dans une version globale du RefSeqGen ne résout pas le problème croissant de l'association du même variant de gène avec des phénotypes normaux et malades. Ainsi, s'appuyer uniquement sur une séquence de référence basée sur l'ADN, aussi sophistiquée soit-elle, rendra très difficile la distinction entre les altérations génétiques bénignes et pathogènes, du moins dans les bases de données génétiques traditionnelles, où la classification phénotypique de variantes génétiques spécifiques est basée sur le fait d'avoir une séquence de référence unique qui est exclusivement associée à un phénotype normal.

Organisation possible de bases de données génétiques de nouvelle génération

En tant que principe sous-jacent, les NGDB doivent être organisées de manière à prendre en considération, en particulier pour les maladies multifactorielles, le patrimoine génétique global le contexte de toute mutation identifiée. Cependant, le contexte implique à la fois une hétérogénéité génétique intra-organisme ainsi que d'autres facteurs de modification du phénotype (Figure 2). Ces facteurs modificateurs doivent également être pris en compte dans le contexte de « l'analyse des voies » [48]. À la lumière des nombreux facteurs contextuels qui peuvent affecter l'expression du génotype/phénotype, il semble raisonnable que l'avenir des bases de données spécifiques au locus (LSDB) soit organisé pour prendre en compte autant d'informations phénotypiques spécifiques que possible, y compris les facteurs de modification du génotype, par opposition à la plupart des LSDB actuelles qui sont principalement centrées sur le génotype.

La question de savoir comment faire face à l'identification croissante des mutations somatiques et de l'hétérogénéité génétique intra-organisme doit également être étudiée. Traditionnellement, les mutations somatiques n'ont pas été associées aux bases de données à moins qu'un phénotype de cancer ne soit impliqué. À l'heure actuelle, la plupart des bases de données sur les maladies associées à des maladies multifactorielles courantes telles que le cancer, le diabète et les maladies cardiovasculaires manquent souvent de données spécifiques sur les tissus et les individus. En effet, seule la base de données COSMIC [49] répertorie un spectre complet de mutations somatiques associées à des tissus spécifiques et à des échantillons individuels. De plus, actuellement, il n'y a pas de description des variantes de sensibilité de la lignée germinale trouvées dans les tissus témoins correspondants, ce qui rend difficile de tirer des conclusions définitives quant à la signification de nombreuses mutations somatiques. La situation deviendra encore plus complexe lorsque des données d'hétérogénéité génétique inter et intra-tumorale seront ajoutées. De toute évidence, les bases de données traditionnelles à fichiers plats ne seront pas en mesure de traiter de telles données et ce dont nous avons besoin, ce sont des structures de base de données radicalement différentes qui incluent des outils d'analyse beaucoup plus puissants. En particulier, il sera nécessaire d'incorporer des «outils d'analyse de système» complexes qui peuvent analyser les relations complexes entre l'ontologie génotypique et phénotypique [50]. De tels outils d'analyse devront intégrer des moteurs d'analyse des connaissances extrêmement puissants, éventuellement similaires dans leur conception et leur organisation à ceux développés par Google et d'autres sociétés de moteurs de recherche.

Ces moteurs de connaissances, pour « l'analyse génétique des systèmes », nécessiteront la création de nouveaux outils bioinformatiques puissants et des ressources de bases de données considérablement élargies, en particulier pour les bases de données basées sur les maladies. En particulier, ils seront amenés à analyser les génétique et non génétique variation entre de nombreux ensembles de données, provenant de différents sous-groupes ethniques ou populations géographiques, dans le but ultime d'intégrer toutes les bases de données génétiques et non génétiques pour une condition particulière, en particulier si une analyse initiale basée sur la population ne parvient pas à générer des informations significatives sur le génotype/ relations phénotypiques. À l'heure actuelle, une telle tâche dépasse clairement nos capacités, cependant, des études initiales utilisant des souris ont commencé à générer les outils bioinformatiques et les ressources de base de données nécessaires pour créer de telles NGDB [51]. Comme les NGDB incluront l'hétérogénéité génétique inter et intra-tissulaire, un facteur qui doit être pris en compte est l'importance de quantifier les variantes qui entraînent une hétérogénéité génétique, en particulier si elles sont présentes dans des gènes individuels, plutôt que de simplement enregistrer leur présence. En effet, nous avons récemment analysé l'hétérogénéité génétique intra-tissulaire du gène AR dans des tissus cancéreux et non cancéreux prélevés sur des tumeurs du sein et quantifié des variantes AR dans des échantillons de tissus individuels à l'aide d'une nouvelle technique NGS [52]. Une autre approche a consisté à considérer ce que l'on a appelé la « génétique des particules », où chaque cellule est considérée comme génétiquement unique, en utilisant des loci de traits probabilistes (PTL) pour lier les régions génomiques aux probabilités de caractéristiques cellulaires [2].

Prenant tous ces facteurs en considération, nous proposerions un modèle NGDB qui intègre des bases de données distinctes pour chacun des facteurs potentiels de modification du génome, ainsi qu'une base de données de génotypes qui intègre l'hétérogénéité génétique, avec toutes les bases de données individuelles liées à une base de données de phénotypes associée , et les données sont ensuite traitées et analysées via un moteur de connaissances très sophistiqué (Figure 3).

Un modèle pour les bases de données génétiques de nouvelle génération. (1) Base de données sur les génotypes : (A) hétérogénéité génétique dans les tissus sanguins et (B, C et D) dans d'autres tissus d'un organisme. Chacune des bases de données suivantes contient des informations spécifiques associées aux différences de phénotype : (2) base de données d'édition d'ADN, (3) base de données d'édition d'ARN, (4) base de données des corégulateurs, (5) base de données épigénétique et (6) base de données des protéines en interaction. (7) Pression sélective du microenvironnement pour différents phénotypes.

Résumé des actions possibles requises pour créer des NGDB

Voici quelques-unes des actions les plus importantes qui doivent être entreprises pour créer des NGDB :

Travailler en collaboration avec le consortium 1000 Genomes Project et le Human Variome Project (HVP) pour définir les limites et l'importance de la variation normale du génome.

Incorporer l'hétérogénéité génétique individuelle inter et intra-individuelle dans les NGDB.

Établir des lignes directrices quant à l'importance du nombre de lectures nécessaires pour confirmer une variante particulière. Notez que la profondeur de séquençage NGS initiale a commencé à une couverture de 4× à 10× et a rapidement augmenté pour atteindre une couverture de 30× à 50× considérée comme normale. Cependant, des études récentes montrent qu'une couverture accrue est susceptible d'entraîner une détection accrue des variantes [53, 54], qui dans le cas du diagnostic des tumeurs, la couverture a maintenant atteint jusqu'à 20 000 lectures.

Déterminer comment les différentes fréquences d'occurrence de plusieurs variantes génétiques chez les individus doivent être incorporées dans les NGDB. Il est à noter qu'à l'heure actuelle, ces fréquences ne sont généralement pas intégrées dans les bases de données, notamment dans les LSDB. Cela aiderait également clairement à intégrer des données de variantes structurelles telles que les CNV dans les LSDB.

Incorporez efficacement les données d'expression dans les paramètres de données de phénotype dans les NGDB. A noter que des exemples de variations tissu-spécifiques de l'expression génique ont maintenant été rapportés [55]. De plus, les données du projet Genotype-Tissue Expression [56] pourraient être inestimables pour déterminer les relations entre l'expression des gènes tissulaires et le phénotype de la maladie.

Enfin, recherchez la bioinformatique et les paramètres de données nécessaires pour construire des NGDB pouvant incorporer et analyser toutes les données ci-dessus. Pour être vraiment efficace, nous pensons que cet effort devrait impliquer des experts en génétique, bioinformatique et moteurs de recherche et de connaissance basés sur la biologie des systèmes, ainsi qu'un effort mondial pour collecter les variations génétiques comme, par exemple, proposé par le HVP.

Suggestions d'actions futures à entreprendre par le HVP

Nous pensons que HVP est une organisation qui pourrait jouer un rôle de premier plan dans le développement des NGDB en créant d'abord un comité spécial chargé d'examiner les futures conceptions de bases de données génétiques pour traiter certaines des questions soulevées dans cet article. Un tel comité pourrait comprendre non seulement des experts en nomenclature, mais également des experts dans la création à la fois des algorithmes nécessaires à la conception des bases de données, ainsi que des moteurs de recherche et d'analyse. Sur la base des recommandations de ce comité, le HVP pourrait alors mettre en place un Institut de recherche sur les bases de données génétiques, qui, en plus d'être responsable de la conception de la NGDB, pourrait créer un modèle de travail de l'infrastructure requise pour exécuter de telles bases de données à l'échelle mondiale. En particulier, il sera important d'établir une structure de conception universelle afin que toutes les NGDB aient un degré élevé de compatibilité, et nous pensons que si une telle conception est coordonnée via HVP, qui joue déjà un tel rôle dans la nomenclature génétique, il est beaucoup plus de chances d'être accepté. Enfin, à l'ère des nuages ​​de données et des plates-formes de communication sophistiquées, une telle institution n'a pas besoin d'avoir une structure physique, mais pourrait plutôt être un institut virtuel, qui permettrait alors à des experts du monde entier de participer.


Introduction

L'ostéogenèse imparfaite (OI) est un groupe phénotypiquement et génétiquement hétérogène de troubles osseux caractérisés par une fragilité osseuse et une déformation du squelette, en raison de l'anomalie du collagène de type I formé par deux chaînes 㬑(I) (codées par COL1A1 gène) et une chaîne 㬒(I) (codée par COL1A2 gène). Les personnes atteintes d'OI ont une faible masse osseuse, ce qui entraîne une déformation des os longs, des anomalies et des fractures vertébrales, un raccourcissement des extrémités et une malformation du crâne (Marini et al., 2007). Les phénotypes extra-squelettiques observés comprennent la dentinogenèse imparfaite (DI), la peau fine, la sclérotique bleue, la scoliose, les anomalies des systèmes cardiovasculaire et pulmonaire, le visage triangulaire et la déficience auditive (Foster et al., 2014 Marini et al., 2017). Des études antérieures classent l'OI en quatre sous-types (types I–IV) en fonction des résultats cliniques, des schémas héréditaires et des caractéristiques radiographiques : l'OI de type I est la forme la plus légère, l'OI de type II est la forme létale périnatale, tandis que l'OI de type III est la plus grave. et l'OI de type IV est caractérisée par la forme légère à modérée (Sillence et al., 1979 Rauch et al., 2010 Lin et al., 2015 Mrosk et al., 2018). Grâce à une compréhension approfondie de la maladie de l'OI, davantage de sous-types ont été définis et ajoutés au système de classification d'origine de l'OI, ce qui porte le nombre de sous-types à 18 (Forlino et Marini, 2016 Marini et al., 2017 Lu et al., 2019).

Les preuves actuelles démontrent que COL1A1 et COL1A2 sont les principaux facteurs à l'origine de l'OI, car environ 85 à 90 % des cas en sont perturbés, et les quatre sous-types sont impliqués dans COL1A1 et COL1A2 gènes (http://www.le.ac.uk/ge/collagen/). Il existe deux catégories générales de défauts mutationnels survenus dans COL1A1/COL1A2. La première est une mutation faux-sens, impliquant principalement le remplacement de la glycine au sein de la répétition Gly-Xaa-Yaa (le faux-sens de substitution Gly), qui entraîne la synthèse de collagène de structure anormale (Lin et al., 2015). Le second est un groupe de variations qui incluent des mutations de décalage de cadre, de non-sens et d'épissage, qui conduisent principalement à une quantité réduite de collagène de type I normal. Des études antérieures ont montré que le deuxième groupe de variation est souvent associé à des phénotypes plus doux, tandis que le faux-sens de la substitution Gly conduit généralement à des phénotypes plus sévères (Rauch et al., 2010 Zhang et al., 2012). Compte tenu de la spécificité phénotypique du faux-sens de la substitution Gly, nous aimerions étudier davantage de mutations de substitution Gly potentiellement pathogènes pour l'exploration du mécanisme de l'OI.

En plus des gènes de collagène confirmés liés à l'OI (COL1A1 et COL1A2), au cours de la dernière décennie, une série d'études ont montré qu'un ensemble de nouveaux défauts génétiques non liés au collagène affectent le traitement post-traductionnel normal, le repliement moléculaire du collagène de type I, la formation de fibrilles, la différenciation des ostéoblastes et la minéralisation, conduisant à de rares cas autosomiques. formes d'OI récessives, dominantes et liées à l'X (Bregou Bourgeois et al., 2016 Lindert et al., 2016 Marom et al., 2016 Marini et al., 2017). Avec le développement rapide de la technologie de séquençage de nouvelle génération, près de 18 gènes pathogènes autres que le collagène ont été progressivement identifiés (Forlino et Marini, 2016 Marini et al., 2017 Mrosk et al., 2018), dont BMP1, CRTAP, P3H1, PPIB, TMEM38B, SERPINH1, FKBP10, PLOD2, IFITM5, SERPINF1, WNT1, CREB3L1, SP7, SPARC, MBTPS2, P4HB, PLS3, et SEC24D. Based on the complexity of bone formation and clinical observation, we believe that new potential disease-related genes remain to be identified.

Genotype and phenotype associations can provide new insights into understanding the disease mechanism (Geng et al., 2017 Li et al., 2017). The phenotypic severity depends not only on the affected gene, but also on the position of the mutation in the gene. To identify new missense mutations associated with OI, in the present study, we firstly collected genotypic and phenotypic information on 155 patients from literature and evaluated the genotype–phenotype associations. Next, we identified a set of disease-associated variations in COL1A1 et COL1A2 by integrative analysis with several software designed to predict functional effect of human missense mutations. In addition, considering the fact that each biological function is accomplished by the interactions of multiple proteins, we performed network-based analysis and pathway enrichment analysis to identify novel candidate risk genes potentially contributing to the development of OI. Considering limited availability of the patient size and the complex pathogenesis for OI, our comprehensive analysis could promote better understanding of OI in the clinical diagnose, genetic counseling, and prenatal diagnosis.


A comprehensive global genotype–phenotype database for rare diseases

The ability to discover genetic variants in a patient runs far ahead of the ability to interpret them. Databases with accurate descriptions of the causal relationship between the variants and the phenotype are valuable since these are critical tools in clinical genetic diagnostics. Here, we introduce a comprehensive and global genotype–phenotype database focusing on rare diseases.

Méthodes

This database (CentoMD ® ) is a browser-based tool that enables access to a comprehensive, independently curated system utilizing stringent high-quality criteria and a quickly growing repository of genetic and human phenotype ontology (HPO)-based clinical information. Its main goals are to aid the evaluation of genetic variants, to enhance the validity of the genetic analytical workflow, to increase the quality of genetic diagnoses, and to improve evaluation of treatment options for patients with hereditary diseases. The database software correlates clinical information from consented patients and probands of different geographical backgrounds with a large dataset of genetic variants and, when available, biomarker information. An automated follow-up tool is incorporated that informs all users whenever a variant classification has changed. These unique features fully embedded in a CLIA/CAP-accredited quality management system allow appropriate data quality and enhanced patient safety.

Résultats

More than 100,000 genetically screened individuals are documented in the database, resulting in more than 470 million variant detections. Approximately, 57% of the clinically relevant and uncertain variants in the database are novel. Notably, 3% of the genetic variants identified and previously reported in the literature as being associated with a particular rare disease were reclassified, based on internal evidence, as clinically irrelevant.

Conclusion

The database offers a comprehensive summary of the clinical validity and causality of detected gene variants with their associated phenotypes, and is a valuable tool for identifying new disease genes through the correlation of novel genetic variants with specific, well-defined phenotypes.


Major racial bias found in leading genomics databases

Researchers have confirmed for the first time that two of the top genomic databases, which are in wide use today by clinical geneticists, reflect a measurable bias toward genetic data based on European ancestry over that of African ancestry. The results of their study were published in the latest issue of Communication Nature.

The research team was led by Principal Investigator Timothy O'Connor PhD, assistant professor at the University of Maryland School of Medicine (UM SOM) and a faculty member of the school's Institute of Genomic Sciences. He is also a specialist in the areas of Human Evolutionary Genomics, Genotype/Phenotype Architecture, and Computational Biology. Other members of the study included researchers from UM SOM's Department of Medicine and the Program in Personalized and Genomic Medicine, and from the Johns Hopkins University, the University of Colorado, and the Henry Ford Health System.

This deficit in African ancestry genomic data was identified during an 18-month long study conducted under the auspices of the larger Consortium on Asthma among African-Ancestry Populations in the Americas (CAAPA). To create a benchmark for comparison to current database results, the researchers first created the largest, high-quality non-European genome data set ever assembled. Genetic samples of 642 subjects from the African diaspora, including representatives from US, African, and Afro-Caribbean populations, were sequenced in order to produce this unique data set. Then, when compared with current clinical genomic databases, researchers found a clearer preference in those databases for European genetic variants over non-European variants.

"By better understanding the important role of African ancestry in clinical genetics, we can begin to actually identify a disease that has been forgotten or is not part of an individual's self-identification," says O'Connor. "For example, if an African-American patient walks in the door, he might have 20 percent European ancestry, while another might have 20 percent African ancestry. That difference will dramatically change how many variants are found in their genome, and what disease risks they might encounter. That's why we need to expand these databases to include a broader range of ancestries, in order to produce more accurate medical genetic diagnoses."

O'Connor also points out that this shortfall in genomic data also comes at a financial cost. "If you translate the review time it takes for each one of these variants to be sequenced in terms of cost in a clinical setting, you're looking at a difference of about $1,000 more to analyze an African American's genome than a European American's genome -- and you still receive less accurate results," he notes.

"This groundbreaking research by Dr. O'Connor and his team clearly underscores the need for greater diversity in today's genomic databases," says UM SOM Dean E. Albert Reece, MD, PhD, MBA, who is also Vice President of Medical Affairs at the University of Maryland and the John Z. and Akiko Bowers Distinguished Professor at UM SOM. "By applying the genetic ancestry data of all major racial backgrounds, we can perform more precise and cost-effective clinical diagnoses that benefit patients and physicians alike."


Remerciements

  • Head developer: James Staley
  • Production team: James Staley, Mihir Kamat, James Blackshaw, Praveen Surendran, Adam Butterworth & Robin Young
  • Acknowledgements: Benjamin Sun, Steve Ellis, Dirk Paul, Stephen Burgess, Daniel Freitag & John Danesh
  • Funders: UK Medical Research Council (G0800270), British Heart Foundation (SP/09/002), UK National Institute for Health Research Cambridge Biomedical Research Centre And European Research Council (268834) & European Commission Framework Programme 7 (HEALTH-F2-2012-279233)

Les références

Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases. In: Proceedings of the 1993 ACM SIGMOD international conference on management of data. 2. Washington DC: ACM Press 1993. p. 207–16.

Association américaine de psychiatrie. Manuel diagnostique et statistique des troubles mentaux : DSM-IV-TR. Washington, DC: American Psychiatric Association 2000.

Baum AE, Akula N, Cabanero M, Cardona I, Corona W, et al. A genome-wide association study implicates diacylglycerol kinase eta (DGKH) and several other genes in the etiology of bipolar disorder. Mol Psychiatry. 200813:197–207. https://doi.org/10.1038/sj.mp.4002012.

Benjamini Y. Simultaneous and selective inference: current successes and future challenges. Biom J. 201052:708–21. https://doi.org/10.1002/bimj.200900299.

Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J R Stat Soc Ser B (Methodological). 199557:289–300.

Biel M, Seeliger M, Pfeifer A, Kohler K, Gerstner A, Ludwig A, Jaissle G, Fauser S, Zrenner E, Hofmann F. Selective loss of cone function in mice lacking the cyclic nucleotide-gated channel CNG3. Proc Natl Acad Sci USA. 199996:7553–7.

Cichon S, Mühleisen TW, Degenhardt FA, Mattheisen M, Miró X, et al. Genome-wide association study identifies genetic variation in neurocan as a susceptibility factor for bipolar disorder. Am J Hum Genet. 201188:372–81. https://doi.org/10.1016/j.ajhg.2011.01.017.

Craddock N, O’Donovan MC, Owen MJ. The genetics of schizophrenia and bipolar disorder: dissecting psychosis. J Med Genet. 200542:193–204. https://doi.org/10.1136/jmg.2005.030718.

Ding X-Q, Fitzgerald JB, Quiambao AB, Harry CS, Malykhina AP. Molecular pathogenesis of achromatopsia associated with mutations in the cone cyclic nucleotide-gated channel CNGA3 subunit. Adv Exp Med Biol. 2010664:245–53. https://doi.org/10.1007/978-1-4419-1399-9_28.

Fangerau H, Ohlraun S, Granath RO, Nöthen MM, Rietschel M, et al. Computer-assisted phenotype characterization for genetic research in psychiatry. Hum Hered. 200458:122–30. https://doi.org/10.1159/000083538.

Han J, Kamber M. Data mining concepts and techniques, second edition. 2e éd. Amsterdam: Elsevier Morgan Kaufmann Publishers 2006.

Heine S, Michalakis S, Kallenborn-Gerhardt W, Lu R, Lim HY, Weiland J, Del Turco D, Deller T, Tegeder I, Biel M, Geisslinger G, Schmidtko A. CNGA3: a target of spinal nitric oxide/cGMP signaling and modulator of inflammatory pain hypersensitivity. J Neurosci. 201131:11184–92.

Kotsiantis S, Kanellopoulos D. Association rules mining: a recent overview. Int Trans Comput Sci Eng. 200632:71–82.

Lam K, Guo H, Wilson GA, Kohl S, Wong F. Identification of variants in CNGA3 as cause for achromatopsia by exome sequencing of a single patient. Arc Ophtalmol. 2011129:1212–7. https://doi.org/10.1001/archophthalmol.2011.254.

Lango Allen H, Estrada K, Lettre G, Berndt SI, Weedon MN, et al. Hundreds of variants clustered in genomic loci and biological pathways affect human height. La nature. 2010467:832–8. https://doi.org/10.1038/nature09410.

Lee SH, Wray NR, Goddard ME, Visscher PM. Estimating missing heritability for disease from genome-wide association studies. Am J Hum Genet. 201188:294–305. https://doi.org/10.1016/j.ajhg.2011.02.002.

Lee KW, Woon PS, Teo YY, Sim K. Genome wide association studies (GWAS) and copy number variation (CNV) studies of the major psychoses: what have we learnt? Neurosci Biobehav Rev. 2012a36:556–71. https://doi.org/10.1016/j.neubiorev.2011.09.001.

Lee SH, DeCandia TR, Ripke S, Yang J, Schizophrenia Psychiatric Genome-Wide Association Study Consortium (PGC-SCZ), International Schizophrenia Consortium (ISC), Molecular Genetics of Schizophrenia Collaboration (MGS), Sullivan PF, Goddard ME, Keller MC, Visscher PM, Wray NR. Estimating the proportion of variation in susceptibility to schizophrenia captured by common SNPs. Nat Genet. 2012b44:247–50.

Leinders-Zufall T, Cockerham RE, Michalakis S, Biel M, Garbers DL, Reed RR, Zufall F, Munger SD. Contribution of the receptor guanylyl cyclase GC-D to chemosensory function in the olfactory epithelium. Proc Natl Acad Sci USA. 2007104(36):14507–12.

Le-Niculescu H, Patel SD, Bhat M, Kuczenski R, Faraone SV, et al. Convergent functional genomics of genome-wide association data for bipolar disorder: comprehensive identification of candidate genes, pathways and mechanisms. Am J Med Genet Part B Neuropsychiatr Genet. 2009150B:155–81. https://doi.org/10.1002/ajmg.b.30887.

Liu Y-C, Cheng C-P, Tseng VS. Discovering relational-based association rules with multiple minimum supports on microarray datasets. Bioinformatics. 201127:3142–8. https://doi.org/10.1093/bioinformatics/btr526.

Maimon OZ, Rokach L. Data mining and knowledge discovery handbook. New York: Springer 2005.

Mansour HA, Wood J, Logue T, Chowdari KV, Dayal M, et al. Association study of eight circadian genes with bipolar I disorder, schizoaffective disorder and schizophrenia. Genes Brain Behav. 20065:150–7. https://doi.org/10.1111/j.1601-183X.2005.00147.x.

Martinez R, Pasquier N, Pasquier C. GenMiner: mining non-redundant association rules from integrated gene expression data and annotations. Bioinformatics. 200824:2643–4. https://doi.org/10.1093/bioinformatics/btn490.

McElroy SL, Kotwal R, Keck PE Jr. Comorbidity of eating disorders with bipolar disorder and treatment implications. Bipolar Disord. 20068:686–95. https://doi.org/10.1111/j.1399-5618.2006.00401.x.

McElroy SL, Frye MA, Hellemann G, Altshuler L, Leverich GS, et al. Prevalence and correlates of eating disorders in 875 patients with bipolar disorder. J Affect Disord. 2011128:191–8. https://doi.org/10.1016/j.jad.2010.06.037.

McGuffin P, Rijsdijk F, Andrew M, Sham P, Katz R, et al. The heritability of bipolar affective disorder and the genetic relationship to unipolar depression. Arch Gen Psychiatry. 200360:497–502. https://doi.org/10.1001/archpsyc.60.5.497.

McMahon FJ, Akula N, Schulze TG, Muglia P, Tozzi F, et al. Meta-analysis of genome-wide association data identifies a risk locus for major mood disorders on 3p21.1. Nat Genet. 201042:128–31. https://doi.org/10.1038/ng.523.

Michalakis S, Kleppisch T, Polta SA, Wotjak CT, Koch S, et al. Altered synaptic plasticity and behavioral abnormalities in CNGA3-deficient mice. Genes Brain Behav. 201110:137–48. https://doi.org/10.1111/j.1601-183X.2010.00646.x.

Munger SD, Leinders-Zufall T, McDougall LM, Cockerham RE, Schmid A, et al. An olfactory subsystem that detects carbon disulfide and mediates food-related social learning. Curr Biol. 201020:1438–44. https://doi.org/10.1016/j.cub.2010.06.021.

Nakatani N. Genome-wide expression analysis detects eight genes with robust alterations specific to bipolar I disorder: relevance to neuronal network perturbation. Hum Mol Genet. 200615:1949–62. https://doi.org/10.1093/hmg/ddl118.

Ngai EWT, Xiu L, Chau DCK. Application of data mining techniques in customer relationship management: a literature review and classification. Expert Syst Appl. 200936:2592–602. https://doi.org/10.1016/j.eswa.2008.02.021.

Nievergelt CM, Kripke DF, Barrett TB, Burg E, Remick RA, et al. Suggestive evidence for association of the circadian genes PERIOD3 and ARNTL with bipolar disorder. Am J Med Genet B Neuropsychiatr Genet. 2006141B:234–41. https://doi.org/10.1002/ajmg.b.30252.

Nurnberger JI Jr, Blehar MC, Kaufmann CA, York-Cooler C, Simpson SG, et al. Diagnostic interview for genetic studies. Rationale, unique features, and training. NIMH Genetics Initiative. Arch Gen Psychiatry. 199451:849–59 (discussion 863–864).

Pinheiro AP, Bulik CM, Thornton LM, Sullivan PF, Root TL, et al. Association study of 182 candidate genes in anorexia nervosa. Am J Med Genet B Neuropsychiatr Genet. 2010153B:1070–80. https://doi.org/10.1002/ajmg.b.31082.

Potash JB, Toolan J, Steele J, Miller EB, Pearl J, et al. The bipolar disorder phenome database: a resource for genetic studies. Suis J Psychiatrie. 2007164:1229–37. https://doi.org/10.1176/appi.ajp.2007.06122045.

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MAR, et al. PLINK : un ensemble d'outils pour l'association du génome entier et les analyses de liaison basées sur la population. Am J Hum Genet. 200781:559–75. https://doi.org/10.1086/519795.

Purcell SM, Wray NR, Stone JL, Visscher PM, O’Donovan MC, et al. Common polygenic variation contributes to risk of schizophrenia and bipolar disorder. La nature. 2009460:748–52. https://doi.org/10.1038/nature08185.

Schulze TG. What is familial about familial bipolar disorder? Resemblance among relatives across a broad spectrum of phenotypic characteristics. Arch Gen Psychiatry. 200663:1368. https://doi.org/10.1001/archpsyc.63.12.1368.

Schulze TG, Akula N, Breuer R, Steele J, Nalls MA, Singleton AB, Degenhardt FA, Nöthen MM, Cichon S, Rietschel M, Bipolar Genome Study, McMahon FJ. Molecular genetic overlap in bipolar disorder, schizophrenia, and major depressive disorder. World J Biol Psychiatry. 201415:200–8.

Shi J, Wittke-Thompson JK, Badner JA, Hattori E, Potash JB, et al. Clock genes may influence bipolar disorder susceptibility and dysfunctional circadian rhythm. Am J Med Genet Part B Neuropsychiatr Genet. 2008147B:1047–55. https://doi.org/10.1002/ajmg.b.30714.

Sipilä T, Kananen L, Greco D, Donner J, Silander K, et al. An association analysis of circadian genes in anxiety disorders. BiolPsychiatrie. 201067:1163–70. https://doi.org/10.1016/j.biopsych.2009.12.011.

Sklar P, Ripke S, Scott LJ, Andreassen OA, Cichon S, et al. Large-scale genome-wide association analysis of bipolar disorder identifies a new susceptibility locus near ODZ4. Nat Genet. 201143:977–83. https://doi.org/10.1038/ng.943.

Smith EN, Bloss CS, Badner JA, Barrett T, Belmonte PL, et al. Genome-wide association study of bipolar disorder in European American and African American individuals. Mol Psychiatry. 200914:755–63. https://doi.org/10.1038/mp.2009.43.

Smith EN, Koller DL, Panganiban C, Szelinger S, Zhang P, et al. Genome-wide association of bipolar disorder suggests an enrichment of replicable associations in regions near genes. PLoS Genet. 20117:e1002134. https://doi.org/10.1371/journal.pgen.1002134.

Spitzer RL, Williams JB, Gibbon M, First MB. The structured clinical interview for DSM-III-R (SCID). I: history, rationale, and description. Arch Gen Psychiatry. 199249:624–9.

Sullivan PF, Daly MJ, O’Donovan M. Genetic architectures of psychiatric disorders: the emerging picture and its implications. Nat Rev Genet. 201213:537–51. https://doi.org/10.1038/nrg3240.

Wang C, Cao D, Wang Q, Wang D-Z. Synergistic activation of cardiac genes by myocardin and Tbx5. PLoS ONE. 20116:e24242. https://doi.org/10.1371/journal.pone.0024242.

Webb GI. Discovering significant rules. In: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM Press 2006. p. 434–43. https://doi.org/10.1145/1150402.1150451.

Organisation mondiale de la santé. International statistical classification of diseases and related health problems. Geneva: World Health Organization 2011.


Discussion

Based on the breakdown of total number of associated pairs for each laboratory condition (Figure 2) for the 0.8 correlation data set, the phenotypes that have 10 or more associated COGs have a more likely chance of containing confirmed literature hits. This is roughly 3% of the total number of phenotype-COG pairs. However, there are labs such as B30/Oxidase, FAM/Mannose, and FAT/Trehalose with only 2 results, but all are confirmed at 100%. The 0.9 correlation data set has 86% confirmed associations out of all the characterized pairs, while the 0.8 correlation data set has 66%.

Diagram of correlation analysis for associating COGs to lab condition phenotypes. The correlation analysis measures the association between a COG's organism profile (presence or absence of an organism) and a lab condition's organism survival profile. Organisms that have a COG (red) are mapped to the organism's response to adverse growth conditions (blue) creating two vectors that are used for the correlation calculation.

Number of COG-phenotype associated pairs in each subset of the 0.8 and 0.9 threshold correlation score data sets. The resulting data sets of the (a) 0.8 correlation threshold and the (b) 0.9 correlation threshold are broken down into four different subsets. Total number (dark blue) is the total number of COG-phenotype associated pairs found at the 0.8 and 0.9 thresholds respectively. Characterized (light purple) refers to those pairs where the COG has a known function. Annotated (blue-green) are those pairs which were selected for literature verification. Finally, confirmed (light blue) are the associations which were validated in the literature. This is shown for each lab indicated by its GIDEON identifier.

This study reports a percentage of confirmed associations in order to approximate the accuracy of these results. However, this number is most likely a lower bound, since it is possible that some of the predicted associations mentioned in this paper will be experimentally corroborated in the future, raising these percentages.

In addition, although we used the literature as a means of verifying associations, in essence, it is those associations which we were unable to verify that are perhaps the most interesting because these represent new testable hypotheses. By uncovering these novel relationships, it is possible to make inferences about the interrelatedness of what at the outset seem disparate processes. In a similar fashion, for the purpose of assessing our method we were unable to include the COGs with unknown function, but ideally we would like to extend this method to make predictions regarding possible functions of these uncharacterized COGs on the basis of the phenotypes they are most associated with. Finally, while the data in the GIDEON database is extensive, not all assays were performed on all microbes resulting in some missing data.


An atlas of mitochondrial DNA genotype-phenotype associations in the UK Biobank

Published in Nature Genetics, a collaboration between Public Health and Primary Care, Clinical Neurosciences and the MRC Mitochondrial Biology Unit has shown that genetic variants of maternally-inherited mitochondrial DNA (mtDNA) modify our risk of developing common diseases including type 2 diabetes and multiple sclerosis, and also affect our liver and kidney function, and many different blood cell measurements.

Studying 358,916 UK Biobank participants, Kate Yonova-Doing and Claudia Calabrese working with Jo Howson and Patrick Chinnery, developed methods to study 553 mtDNA variants across the UK. Remarkably, mtDNA affects 227 different human phenotypes including the number of red cells and platelets in our blood. MtDNA and nuclear DNA are independently inherited, but some mtDNAs were more likely to be found in people with a Scottish, Welsh or Northumbrian nuclear genetic ancestry – implying the two genomes interact in the population.

Jo Howson said: “mtDNA has been largely ignored in large genetic studies. Here we show this small circular genome plays an important role in many common diseases, and should be factored in to future genetics analyses using the methods we have developed’. Patrick Chinnery said: “We were surprised to see how our mtDNA can influence so many human characteristics. Until recently, populations variants of mtDNA were thought to have no function. Here we show that DNA we inherit from our mother can even influence our height and how long we live”.

Publication Reference: Yonova-Doing, E et al. An atlas of mitochondrial DNA genotype-phenotype associations in the UK Biobank. Nature Genetics 17 May 2021 DOI: 10.1038/s41588-021-00868-1


Voir la vidéo: SVT - 1èreS - Génotype Phénotype (Janvier 2022).