Informations

Gènes qui existent dans l'ancienne plate-forme Affymetrix mais pas dans la plus récente

Gènes qui existent dans l'ancienne plate-forme Affymetrix mais pas dans la plus récente



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'utilise deux ensembles de données d'expression génique d'une plate-forme Affy U95Av2 et d'une plate-forme Affy U133 Plus 2.0. Lorsque je mappe les noms de sonde Affy aux noms de gènes HUGO, il existe des milliers de gènes dans le nouvel ensemble de données Affy U133 Plus 2.0, mais pas dans l'ancien ensemble de données Affy U95Av2, ce qui est quelque chose de prévu. Mais il y a aussi 97 gènes qui existent dans l'ancienne plate-forme Affy U95Av2 mais pas dans la plate-forme Affy U133 Plus 2.0. Je ne m'attendrais pas à cela car Affy U133 Plus 2.0 est une plate-forme beaucoup plus récente et je m'attendrais à ce qu'elle contienne tous les gènes mesurés par Affy U95Av2. Qu'est-ce que ça veut dire? Dois-je comprendre que ces 97 mesures de gènes dans la plateforme Affy U95Av2 n'étaient pas fiables et c'est pourquoi elles n'existent pas dans Affy U133 Plus 2.0 ? Voici ces 97 gènes :

"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2A" "HIST1H2BC2" HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1" "MIA" "MKRN3" "MROH7" " MSX2P1" "MT1A" "MT1B" "NDUFV2" "OPHN1" "OR7E24" "PARP4" "PCDHA12" "PCDHA13" "PCDHGA12" "PCDHGB4" "PINK1-AS" "PMS2P3" "PSMC6" "PSME2" "RAB13" " RCN1" "RNF216P1" "RNF5" "RPL10A" "RPL18" "RPL27" "RPL35" "RPL37" "RPLP1" "RPS15A" "RPS26" "RPS29" "RPS5" "RPS9" "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"


aJe travaillais chez Affymetrix lorsque la plupart de ces baies ont été conçues. Je ne faisais pas partie de l'équipe de conception elle-même, mais je peux peut-être en parler un peu plus.

Les conceptions d'ARN Array ont été conçues pour couvrir tout ce qui pourrait être un vrai transcrit dans le mélange de collections EST, d'ADNc, in silico détections de gènes et entrées diverses dans des bases de données publiques. Il y avait beaucoup de gens différents qui essayaient de trouver des gènes le plus rapidement possible et une grande partie n'était pas de vrais gènes naturellement. Je suis sûr qu'il y avait une quantité raisonnable de contamination dans les millions de transcriptions que nous avons recueillies également.

L'équipe trouverait un bon nombre d'erreurs dans la base de données de séquences. D'ailleurs, il n'y a aucun moyen de soumettre cela de manière significative à la plupart des bases de données bioinformatiques. Juste une note:)

Lorsqu'une nouvelle conception est sortie, l'équipe procédait à un audit pour voir si l'une des transcriptions était tombée en disgrâce par rapport aux preuves et certains de ces «gènes» seraient supprimés du contenu.

Ceci est utile car la technologie d'hybridation d'ADN est à très haut débit pour le dollar, mais elle a un bruit de fond et même un ensemble de sondes sans correspondance dans l'échantillon d'ARN donnera des nombres non nuls.

RNAseq a des problèmes similaires d'assemblages et de sensibilité des limites de lectures sur l'échantillon BTW. Il n'y a pas encore de solution parfaite.

BTW, parfois, les gènes sont renommés. Je ne suis pas entré dans vos méthodes pour voir si c'est un cas, mais quelque chose à garder à l'esprit.


Mon expérience concerne les sondes Affymetrix pour la drosophile, pas H.sapiens, et avec une seule version. Néanmoins, je décrirai la situation que j'ai rencontrée au cas où elle serait pertinente pour la vôtre. Désolé si c'est un hareng rouge.

Ce que j'ai fait avec la fiche technique Affymetrix a été de l'utiliser pour construire ma propre base de données relationnelle SQL contenant les probesetIDs et geneIDs (ainsi que les données expérimentales, bien sûr). J'ai ensuite pu effectuer des requêtes de « ménage » dans la base de données et j'ai été surpris (je n'aurais peut-être pas dû) de trouver ce qui suit :

  • Certains gènes ont été captés par plus d'un ensemble de sondes. Pas de gros soucis. Il suffisait de choisir l'ensemble de sondes qui donnait le signal le plus élevé, à moins qu'il ne tombe dans la deuxième catégorie.
  • Certains ensembles de sondes ont capté plus d'un gène. C'était un problème, et cela signifiait que je devais classer les ensembles de sondes comme ambigus ou non ambigus. Mais un problème encore plus important était que pour certains gènes, il n'existait pas d'ensembles de sondes non ambigus.

De toute évidence, lors de la conception des ensembles de sondes, Affymetrix pensait qu'ils produisaient des gènes spécifiques sans ambiguïté. Lorsqu'ils ont mis à jour les ensembles de sondes pour inclure des désignations de gènes nouvelles ou corrigées, on imagine qu'ils essaieraient de résoudre ce problème (en supposant qu'il existait également dans les ensembles de gènes humains). Cela semble difficile à croire, mais les gènes que vous mentionnez pourraient-ils être réfractaires à la préparation d'ensembles de sondes sans ambiguïté ?


Analyse comparative du transcriptome de cellules souches embryonnaires et adultes à capacité de différenciation étendue et limitée

Récemment, plusieurs populations de cellules souches postnatales, telles que les cellules progénitrices adultes multipotentes (MAPC), ont été décrites et ont une capacité de différenciation plus large que les cellules souches adultes classiques. Ici, nous comparons le transcriptome des cellules souches embryonnaires pluripotentes (ESC), des MAPC et des cellules souches mésenchymateuses restreintes à la lignée (MSC) pour déterminer leur relation.

Résultats

En appliquant l'analyse en composantes principales, la factorisation matricielle non négative et les algorithmes de regroupement des k-moyennes aux données d'expression génique, nous avons identifié un profil d'expression génique unique pour les MAPC. Outre le facteur de transcription Oct4 spécifique aux ESC et d'autres transcrits ESC, dont certains sont associés au maintien de la pluripotence ESC, les MAPC expriment également des transcrits caractéristiques de l'endoderme et du mésoderme précoces. Les MAPC n'expriment cependant pas Nanog ou Sox2, deux autres facteurs de transcription clés impliqués dans le maintien des propriétés ESC. Cette signature moléculaire unique a été observée quelle que soit la plate-forme de puces à ADN utilisée et était très similaire pour les MAPC de souris et de rat. Comme les cellules de type MSC isolées dans des conditions MAPC sont pratiquement identiques aux MSC et que les MSC cultivées dans des conditions MAPC ne régulent pas à la hausse les transcrits exprimés par MAPC, la signature MAPC est spécifique au type de cellule et pas simplement le résultat de conditions de culture différentes.

Conclusion

Les techniques d'analyse multivariée ont regroupé les cellules souches sur la base de leur profil génétique exprimé, et les gènes déterminant ce regroupement reflétaient le potentiel de différenciation des cellules souches in vitro. Cette analyse comparative du transcriptome devrait contribuer de manière significative à l'isolement et à la culture des MAPC et des cellules de type MAPC, et constituer la base d'études visant à mieux comprendre les gènes qui confèrent à ces cellules leur plus grande puissance de développement.


Contenu

Le développement a commencé avec les premiers travaux sur la technologie de capteur sous-jacente. L'un des premiers capteurs portables basés sur la chimie était l'électrode de pH en verre, inventée en 1922 par Hughes. [2] Le concept de base consistant à utiliser des sites d'échange pour créer des membranes permsélectives a été utilisé pour développer d'autres capteurs d'ions dans les années suivantes. Par exemple, un capteur K + a été réalisé en incorporant de la valinomycine dans une fine membrane. [3]

En 1953, Watson et Crick ont ​​annoncé leur découverte de la structure en double hélice désormais familière des molécules d'ADN et ont ouvert la voie à la recherche génétique qui se poursuit jusqu'à nos jours. [4] Le développement des techniques de séquençage en 1977 par Gilbert [5] et Sanger [6] (travaillant séparément) a permis aux chercheurs de lire directement les codes génétiques qui fournissent des instructions pour la synthèse des protéines. Cette recherche a montré comment l'hybridation de brins d'oligonucléotides simples complémentaires pouvait être utilisée comme base pour la détection de l'ADN. Deux développements supplémentaires ont permis la technologie utilisée dans l'ADN moderne. Tout d'abord, en 1983, Kary Mullis a inventé la technique de réaction en chaîne par polymérase (PCR), [4] une méthode pour amplifier les concentrations d'ADN. Cette découverte a permis la détection de quantités extrêmement faibles d'ADN dans des échantillons. Deuxièmement, en 1986, Hood et ses collaborateurs ont conçu une méthode pour marquer les molécules d'ADN avec des étiquettes fluorescentes au lieu de radiomarqueurs, [7] permettant ainsi d'observer optiquement les expériences d'hybridation.

La figure 1 montre la composition d'une plate-forme de biopuce typique. Le composant de détection réel (ou "puce") n'est qu'un élément d'un système d'analyse complet. La transduction doit être effectuée pour traduire l'événement de détection réel (liaison à l'ADN, oxydation/réduction, etc.) dans un format compréhensible par un ordinateur (tension, intensité lumineuse, masse, etc.), qui permet ensuite une analyse et un traitement supplémentaires pour produire une sortie finale lisible par l'homme. Les multiples technologies nécessaires à la réussite d'une biopuce (de la chimie de détection aux microréseaux en passant par le traitement du signal) nécessitent une véritable approche multidisciplinaire, ce qui rend la barrière à l'entrée abrupte. L'une des premières biopuces commerciales a été introduite par Affymetrix. Leurs produits "GeneChip" contiennent des milliers de capteurs d'ADN individuels à utiliser pour détecter des défauts, ou des polymorphismes nucléotidiques simples (SNP), dans des gènes tels que p53 (un suppresseur de tumeur) et BRCA1 et BRCA2 (liés au cancer du sein). [8] Les puces sont produites en utilisant des techniques de microlithographie traditionnellement utilisées pour fabriquer des circuits intégrés (voir ci-dessous).

Le microarray - la grille dense et bidimensionnelle de biocapteurs - est le composant essentiel d'une plate-forme de biopuce. Typiquement, les capteurs sont déposés sur un substrat plat, qui peut être soit passif (par exemple. silicium ou verre) ou actifs, ces derniers étant constitués de dispositifs électroniques ou micromécaniques intégrés qui réalisent ou assistent la transduction du signal. La chimie de surface est utilisée pour lier de manière covalente les molécules du capteur au substrat. La fabrication de puces à ADN n'est pas triviale et constitue un obstacle économique et technologique majeur qui peut finalement décider du succès des futures plateformes de biopuces. Le principal défi de fabrication est le processus consistant à placer chaque capteur à une position spécifique (généralement sur une grille cartésienne) sur le substrat. Divers moyens existent pour réaliser le placement, mais généralement des systèmes robotiques de micro-pipetage [9] ou de micro-impression [10] sont utilisés pour placer de minuscules points de matériau du capteur sur la surface de la puce. Parce que chaque capteur est unique, seuls quelques spots peuvent être placés à la fois. La nature à faible débit de ce procédé entraîne des coûts de fabrication élevés.

Fodor et ses collègues ont développé un processus de fabrication unique (utilisé plus tard par Affymetrix) dans lequel une série d'étapes de microlithographie est utilisée pour synthétiser de manière combinatoire des centaines de milliers de capteurs d'ADN simple brin uniques sur un substrat, un nucléotide à la fois. [11] [12] Une étape de lithographie est nécessaire par type de base ainsi, un total de quatre étapes est nécessaire par niveau de nucléotide. Bien que cette technique soit très puissante dans la mesure où de nombreux capteurs peuvent être créés simultanément, elle n'est actuellement possible que pour créer de courts brins d'ADN (15 à 25 nucléotides). Les facteurs de fiabilité et de coût limitent le nombre d'étapes de photolithographie qui peuvent être effectuées. En outre, les techniques de synthèse combinatoire dirigées par la lumière ne sont actuellement pas possibles pour les protéines ou d'autres molécules de détection.

Comme indiqué ci-dessus, la plupart des microréseaux sont constitués d'une grille cartésienne de capteurs. Cette approche est principalement utilisée pour mapper ou "coder" la coordonnée de chaque capteur à sa fonction. Les capteurs de ces réseaux utilisent généralement une technique de signalisation universelle (par exemple. fluorescence), faisant ainsi des coordonnées leur seule caractéristique d'identification. Ces tableaux doivent être créés à l'aide d'un processus série (c'est à dire. nécessitant plusieurs étapes séquentielles) pour s'assurer que chaque capteur est placé à la bonne position.

La fabrication "aléatoire", dans laquelle les capteurs sont placés à des positions arbitraires sur la puce, est une alternative à la méthode en série. Le processus de positionnement fastidieux et coûteux n'est pas nécessaire, permettant l'utilisation de techniques d'auto-assemblage parallélisées. Dans cette approche, de grands lots de capteurs identiques peuvent être produits. Les capteurs de chaque lot sont ensuite combinés et assemblés en un réseau. Un schéma de codage non basé sur les coordonnées doit être utilisé pour identifier chaque capteur. Comme le montre la figure, une telle conception a d'abord été démontrée (et plus tard commercialisée par Illumina) en utilisant des billes fonctionnalisées placées de manière aléatoire dans les puits d'un câble à fibre optique gravé. [13] [14] Chaque perle était codée de manière unique avec une signature fluorescente. Cependant, ce schéma de codage est limité dans le nombre de combinaisons de colorants uniques qui peuvent être utilisées et différenciées avec succès.

Les puces à ADN ne se limitent pas aux puces à protéines d'analyse d'ADN, les puces à anticorps, les puces à composés chimiques peuvent également être produites à l'aide de biopuces. Randox Laboratories Ltd. a lancé Evidence, le premier analyseur de technologie Biochip Array Technology en 2003. Dans la technologie Protein Biochip Array Technology, la biopuce remplace la plaque ou la cuvette ELISA comme plate-forme de réaction. La biopuce est utilisée pour analyser simultanément un panel de tests connexes dans un seul échantillon, produisant un profil de patient. Le profil du patient peut être utilisé pour le dépistage de la maladie, le diagnostic, le suivi de la progression de la maladie ou le suivi du traitement. La réalisation simultanée de plusieurs analyses, qualifiées de multiplexage, permet une réduction significative du temps de traitement et de la quantité d'échantillon de patient requise. Biochip Array Technology est une nouvelle application d'une méthodologie familière, utilisant des immunoessais sandwich, compétitifs et de capture d'anticorps. La différence par rapport aux immunoessais conventionnels est que les ligands de capture sont attachés de manière covalente à la surface de la biopuce dans un réseau ordonné plutôt qu'en solution.

Dans les dosages sandwich, un anticorps marqué par une enzyme est utilisé dans les dosages compétitifs, un antigène marqué par une enzyme est utilisé. Lors de la liaison anticorps-antigène, une réaction de chimiluminescence produit de la lumière. La détection se fait par une caméra à dispositif à couplage de charge (CCD). La caméra CCD est un capteur sensible et haute résolution capable de détecter et de quantifier avec précision des niveaux de lumière très faibles. Les régions de test sont localisées à l'aide d'un quadrillage, puis les signaux de chimiluminescence sont analysés par un logiciel d'imagerie pour quantifier rapidement et simultanément les analytes individuels.


PLATEFORME UNIQUE, CANAL UNIQUE, NORMALISÉE UNIFORMEMENT

Les grands dépositaires de puces à ADN comme GEO et ArrayExpress se concentrent sur l'archivage des données d'expression utilisées dans des publications spécifiques. Ces archives jouent un rôle essentiel en sciences biologiques en permettant la réplication transparente des analyses de microarrays par d'autres chercheurs. Les expérimentateurs utilisant la même plate-forme de réseau utilisent souvent des méthodes de normalisation différentes pour leurs analyses, de sorte que les données téléchargées à partir de différents projets sur GEO ou ArrayExpress sont peu susceptibles d'être directement comparables. GEO au NCBI fournit des ensembles de données GEO pour atténuer ce problème. Un GEO DataSet contient une collection d'échantillons de puces à ADN biologiquement et statistiquement comparables traités à l'aide de la même plate-forme. Malheureusement, il existe un délai important entre le moment où un échantillon est soumis à GEO et le moment où il est disponible en tant que GEO DataSet. Seul un cinquième du nombre d'échantillons dans M 3D était disponible à partir de GEO DataSets (Figure 1 A et B).

Tous les disponibles E. coli Les données d'expression d'Affymetrix Antisense2 pour le facteur de transcription lexA et sa cible recA connue ont été téléchargées à partir des profils NCBI GEO (UNE) et du compendium M 3D E_coli_v3_Build_1 (B et C). Les données du profil NCBI GEO sont dérivées des ensembles de données NCBI GEO qui ne contiennent qu'un sous-ensemble des données dans GEO. Par conséquent, beaucoup plus d'échantillons étaient disponibles pour le tracé à partir de M 3D (445) que de GEO (85). La corrélation entre lexA et sa cible connue était plus élevée lorsque les données brutes étaient uniformément normalisées avec RMA (C) plutôt que de normaliser chaque microréseau individuellement avec MAS5 (A et B).

Nous avons initialement choisi de n'inclure que des puces Affymetrix monocanal dans M 3D. Le procédé de photolithographie utilisé par Affymetrix permet à tous les laboratoires de démarrer avec un substrat d'hybridation très homogène. De plus, la conception à canal unique élimine le besoin d'une condition de référence commune pour toutes les baies. Ainsi, contrairement aux conceptions de matrices bicolores, les données de différents laboratoires et projets peuvent être intégrées sans artefacts en raison d'une condition de référence incohérente. Les biais systématiques restants dans la plate-forme Affymetrix sont dus à des différences spécifiques aux chercheurs dans les protocoles de préparation et d'hybridation de l'ARN. Cependant, lorsque les données brutes de microréseau au niveau de la sonde (fichiers CEL) sont normalisées en tant que groupe avec RMA (12), nous constatons que ces biais systématiques des chercheurs sont faibles par rapport aux changements biologiques qui se produisent dans les conditions expérimentales (7). De plus, les données normalisées RMA ont tendance à avoir une corrélation plus élevée entre l'expression des facteurs de transcription et leurs cibles connues (Figure 1 B et C).

Pour utiliser l'approche de normalisation RMA dans M 3D , tous les profils d'expression pour une conception de réseau particulière (par exemple, le E. coli Antisense 2) sont collectés, uniformément normalisés et déposés en tant que 𠆋uild’. Périodiquement, nous ajoutons de nouveaux profils d'expression pour une conception de tableau particulière, renormalisons toutes les données et publions un nouveau 𠆋uild’. Cela garantit que toutes les expériences dans n'importe quelle construction sont uniformément normalisées et comparables dans toutes les conditions. Le processus de renormalisation peut entraîner de petits changements dans les valeurs d'expression de tous les profils. Ainsi, toutes les versions sont étiquetées avec un numéro de version qui fait référence au schéma mysql sous-jacent de la base de données et un numéro de version qui désigne l'ensemble particulier de données de microarray (par exemple, E_coli_v3_Build_2 utilise la version 3 du schéma mysql et est le deuxième recueil construit pour E. coli). Les constructions sont maintenues à perpétuité. Ce système, comme le système de construction utilisé par l'assemblage du génome humain, permet aux chercheurs en informatique de spécifier l'ensemble de données exact utilisé pour une analyse particulière.


Discussion

Nous présentons par la présente une validation complète à l'échelle du génome du génotypage regroupé sur les plates-formes de génotypage SNP à plus haut débit. En utilisant l'ensemble complet de puces Affymetrix 500 k comme base de comparaison, nous avons montré que la fiabilité et la précision du génotypage groupé sont aussi bonnes ou améliorées par rapport aux ensembles de puces 10 k et 100 k précédemment testés. Cette comparaison a été étendue à la nouvelle plate-forme SNP6.0, qui s'est pourtant avérée utile pour le génotypage groupé. Nous pensons que ce travail réaffirmerait que SNP-MaP est toujours une alternative viable au génotypage individuel d'un large échantillon de population.

Nouvelle stratégie de mise en commun

Les stratégies de génotypage groupé ont classiquement suivi le chemin consistant à avoir au moins 3 pools de réplications identiques dans le but de « moyenner » l'erreur normalement associée au regroupement [16, 17, 22]. La nouvelle stratégie de pooling présentée dans cet article ne vise pas à remplacer la méthode éprouvée des réplicats, mais est plutôt proposée comme une alternative. Bien qu'il ait été réalisé dans le but d'évaluer le résultat d'une expérience de pensée, les résultats obtenus ont dépassé nos attentes. Notre stratégie de mise en commun impliquait la création de 3 pools chevauchants à partir de 3 sous-pools de 20 échantillons chacun. La comparaison de la précision des estimations de la fréquence des allèles de chacun des sous-groupes à la moyenne obtenue dans les 3 sous-groupes (tableau 1) a montré que la nouvelle stratégie de mise en commun des groupes qui se chevauchent a produit des avantages similaires dans l'amélioration de l'estimation de la fréquence des allèles par rapport à la mise en commun réplique. Comme les réplicats groupés n'ont pas été utilisés pour cette partie de notre étude, nous avons choisi de comparer les capacités de nos sous-groupes qui se chevauchent avec celles des réplicats groupés tels que rapportés par d'autres. La corrélation moyenne entre les fréquences alléliques estimées et les fréquences alléliques réelles s'est améliorée de près de 1 % lorsque les pools de chaque groupe d'étude étaient considérés dans leur ensemble et moyennés. L'erreur moyenne dans les estimations de la fréquence des allèles a été réduite jusqu'à 0,01. Ces améliorations des estimations de fréquence allélique obtenues à partir de cette nouvelle stratégie de regroupement se comparent bien à celles obtenues à partir de nos pools répliqués sur la plate-forme SNP6.0 ainsi que dans d'autres études où encore plus de puces ont été utilisées [19]. Bien que chacun des échantillons ait en fait été répliqué deux fois sur 3 pools, ils ne pouvaient techniquement pas être considérés comme des réplicats. En tant que telles, les fréquences alléliques estimées de chacun des 3 pools au sein de nos groupes d'étude n'étaient pas aussi fortement corrélées les unes aux autres qu'elles l'étaient avec les fréquences alléliques réelles qu'ils estimaient. Néanmoins, nous avons montré que lorsque les estimations obtenues à partir des 3 pools étaient agrégées, elles étaient capables d'estimer plus précisément les fréquences alléliques à un niveau comparablement atteint par les pools répliqués [5, 11, 16]. Cela confirme le fait qu'un nombre suffisant de réplicats peut contrôler l'erreur de regroupement pour donner des résultats qui peuvent être très similaires à ceux obtenus à partir du génotypage individuel.

Estimation des fréquences alléliques

Le génotypage individuel produit classiquement des appels de génotype pour chaque échantillon à partir desquels une fréquence allélique moyenne peut être calculée. Cependant, dans le génotypage groupé, le logiciel de microarray est incapable d'attribuer un génotype en raison de la nature hétérogène de l'échantillon groupé et de l'hybridation inégale aux différentes sondes. En tant que tel, un algorithme pour estimer les fréquences alléliques à partir des intensités de sonde a été nécessaire. Pour tenir compte de l'amplification allélique inégale dans le génotypage groupé, des signaux alléliques relatifs (RAS) utilisés avec une correction k pour améliorer la précision des estimations ont été initialement utilisés [23]. Cet algorithme a été largement validé sur les puces Affymetrix 10 k par divers groupes [9, 11-15]. Cette méthode relativement simple et précise d'estimation de la fréquence des allèles l'a rendue très populaire parmi les chercheurs. Ainsi, même lorsqu'un nouvel algorithme (correction spécifique à la sonde basée sur un polynôme ou PPC) qui a amélioré la très populaire méthode de correction RAS/k a été proposé et s'est avéré donner les meilleures estimations de la fréquence des allèles à partir du génotypage groupé sur l'Affymetrix 10 k [21], l'algorithme éprouvé a prévalu avec son utilité étendue à l'ensemble de microarrays Affymetrix 100 K [16], ainsi qu'à l'ensemble de microarrays 500 K [5, 19]. Les principales critiques de l'algorithme PPC étaient le temps de calcul en Perl et R, et la nécessité des 3 génotypes dans les échantillons de référence limitant le nombre de SNP analysés [19]. Notre groupe a estimé qu'avec les progrès rapides de la technologie informatique ces dernières années, la première critique ne devrait pas empêcher l'utilisation de l'algorithme PPC plus précis, même en tenant compte des gros volumes de données générés par l'ensemble de baies Affymetrix 500 k. La deuxième critique peut ne pas être vraiment valable en fonction de l'ensemble de données d'échantillon utilisé pour entraîner l'algorithme.

Choix de l'ensemble de données de référence affectant la précision des estimations de fréquence allélique

Quelle que soit la méthode utilisée pour estimer les fréquences alléliques à partir des données d'intensité de la sonde du génotypage groupé, la nécessité d'un ensemble d'échantillons de référence est primordiale. Dans la plupart des situations, les données de fréquence allélique provenant d'échantillons de référence (généralement d'une population Hapmap appropriée) sont utilisées comme référence pour comparer les estimations de fréquence allélique. Alors que la question des échantillons de référence a été soulevée [13] dans le contexte de l'hybridation différentielle des SNP hétérozygotes affectant la précision de l'estimation des fréquences alléliques à partir du génotypage groupé, aucune étude de suivi n'a été réalisée pour tenter de quantifier ces différences. Nous avons montré dans cet article que le choix des échantillons de référence a un impact sur la précision des estimations de la fréquence des allèles.

Notre comparaison initiale de l'exactitude des estimations de la fréquence des allèles à partir du génotypage groupé sur la plate-forme 500 k a révélé que l'utilisation d'un ensemble d'échantillons de référence génétiquement homogène, comme celui d'un groupe ethnique particulier, a produit des fréquences d'allèles estimées qui étaient plus précises que l'utilisation d'un ensemble plus hétérogène. une. Bien que notre utilisation du même ensemble d'échantillons pour le génotypage individuel et groupé ait fourni une meilleure indication des capacités de la plate-forme 500 k en allélotypage, on pourrait penser qu'un tel résultat serait attendu étant donné que les mêmes échantillons ont été utilisés pour les deux. Nos résultats de la première comparaison individuelle vs pool (tableau 3) ont été confirmés dans la deuxième comparaison des fréquences alléliques réelles et estimées (tableau 4) à partir d'un ensemble complètement différent d'échantillons regroupés, où nous avons montré un niveau élevé similaire de précision des estimations. .

Cette différence peut être attribuée à la disponibilité d'échantillons avec les 3 génotypes pour les SNP dans l'ensemble d'échantillons de référence. Pour la méthode RAS de calcul des fréquences alléliques, la présence d'échantillons hétérozygotes avec les deux homozygotes permet le calcul de la correction k qui contribue à améliorer la précision des estimations de fréquence allélique. De même, pour la PPC, les échantillons hétérozygotes permettent la dérivation de polynômes du second degré qui augmentent la précision des fréquences alléliques estimées en tenant compte des efficacités d'hybridation inégales des différents SNP [21]. Ainsi, un ensemble de données d'échantillon de référence avec une plus grande proportion de SNP avec des échantillons hétérozygotes produirait, en théorie, de meilleures estimations de fréquence allélique qu'un ensemble avec moins de SNP avec des échantillons hétérozygotes. De plus, une population génétiquement hétérogène devrait avoir plus de SNP avec des membres hétérozygotes. L'ensemble de données d'échantillons de 500 k contenait 72,7 % (364 140) de tous les SNP avec des échantillons homozygotes et hétérozygotes, tandis que nos échantillons typés individuellement avaient 63,3 % ou 316 623 SNP avec les 3 génotypes représentés dans la population de l'échantillon. La différence de nombre de SNP avec les 3 génotypes entre les deux ensembles de données d'échantillon reflète leur hétérogénéité tandis que l'ensemble de données d'échantillon de 500 k était composé de représentants des quatre principales populations Hapmap, notre propre ensemble d'échantillons de types individuels étaient tous d'origine chinoise. Cependant, bien que cette différence soit attendue étant donné les différences ethniques dans les deux ensembles d'échantillons, la disparité dans la précision des estimations de fréquence allélique produites par eux ne l'est pas. Lorsque nos échantillons typés individuellement ont été utilisés pour estimer les polynômes (valeurs bêta) pour la PPC, les fréquences alléliques estimées étaient plus proches des fréquences alléliques réelles de plus de 3% (différence moyenne de fréquence allélique allant jusqu'à 0,05) par rapport aux estimations. obtenu à partir de l'ensemble de données d'échantillon de 500 k (tableau 3 et tableau 4). Ces résultats indiquent qu'une plus grande proportion de SNP avec 3 génotypes disponibles dans l'ensemble d'échantillons de référence n'améliore pas nécessairement la précision des estimations de fréquence allélique. Il se peut que les SNP variables ou non dans la population étudiée ne soient pas nécessairement les mêmes que ceux de la population de référence, car une telle variabilité (présence d'échantillons homozygotes et hétérozygotes pour tout SNP particulier) de ces SNP dans la population de référence n'est pas utile pour améliorer la précision des fréquences alléliques estimées.

Nous pensions que la variabilité du SNP était liée à l'origine ethnique des échantillons de l'ensemble de données de référence. Alors que des ensembles de données d'échantillons de référence complets de différentes ethnies n'étaient pas facilement disponibles pour la plate-forme 500 k, des données complètes pour les 270 échantillons Hapmap ont été mises à disposition par Affymetrix lors de la sortie du SNP6.0. Cela nous a permis de comparer la précision des fréquences alléliques de notre génotypage combiné calculé à l'aide des valeurs bêta des quatre principales populations Hapmap avec les fréquences alléliques de ces mêmes populations. Bien que nous n'ayons pas encore effectué de génotypage individuel sur la plate-forme SNP6.0, une telle comparaison serait toujours valable car nous avons déjà montré que nos échantillons chinois de Singapour sont similaires à la population chinoise Hapmap Han (CHB) (données non publiées). Nos résultats (tableau 5) ont confirmé nos soupçons selon lesquels l'origine ethnique de l'ensemble de données de référence est en effet importante. Alors que la précision de l'estimation s'est améliorée lorsque les quatre populations Hapmap ont été considérées dans leur ensemble par rapport à l'ensemble de données d'échantillons de 500 k, cela pourrait être dû au plus grand nombre d'échantillons (270 contre 48) dans l'ensemble de référence. Alors que les ensembles de données CEU et YRI avaient des SNP significativement plus informatifs avec les 3 génotypes appelés (66,31 % et 72,47 % respectivement), l'ensemble de données de population CHB a quand même réussi à produire de meilleures estimations de la fréquence des allèles avec une proportion relativement plus faible (55 %) de de tels SNP. Ni l'augmentation des nombres dans les ensembles de données CEU, YRI et combinés par rapport aux ensembles de données de référence CHB ou JPT, ni la disponibilité d'échantillons hétérozygotes avec les deux homozygotes n'ont amélioré la précision des estimations de la fréquence allélique. Alors que nous pensons que les différences de précision des fréquences alléliques lors de l'utilisation des différents ensembles d'échantillons de référence peuvent être dues à la variabilité plutôt disparate entre les différentes populations Hapmap [24], la propriété la plus importante de l'ensemble d'échantillons de référence qui affecterait la précision de l'allèle les estimations de fréquence est son origine ethnique et s'il partage cela avec la population étudiée.

L'importance d'un ensemble d'échantillons de référence qui est génétiquement homogène avec la population étudiée dans les études d'association à l'échelle du génome utilisant le génotypage groupé, pourrait être interprétée comme signifiant que si les chercheurs étudient une population pour laquelle les données de génotypage de référence ne sont pas disponibles (très probablement en dehors du 4 principales populations Hapmap), ils auraient besoin d'effectuer un génotypage individuel rond afin de générer un ensemble de données de référence qu'ils pourraient utiliser pour des expériences de regroupement ultérieures. Cela nuit grandement aux avantages offerts par le génotypage groupé comme moyen plus économique et plus efficace d'effectuer une analyse initiale du génome entier dans le cadre d'une étude d'association. Cependant, c'est là que les référentiels de génotypage, comme suggéré par divers auteurs [12, 13], seraient utiles, en fournissant des ensembles de données de référence complets de populations non couvertes actuellement par le projet international Hapmap.

Validation du génotypage groupé sur des plateformes à haut débit

Dans cet article, nous renforçons les capacités de SNP-MaP comme alternative au génotypage individuel de centaines ou de milliers d'échantillons dans une étude d'association cas-témoins à l'échelle du génome. Alors que le génotypage groupé avait été précédemment validé sur les ensembles de puces Affymetrix 10 k et 100 k à plus petite échelle, une analyse aussi détaillée n'avait pas été effectuée sur les plates-formes de génotypage SNP 500 k ou plus récentes. Des études de validation antérieures ont montré des précisions de génotypage groupé sur la plate-forme 10 k allant de 0,923 [11] à 0,987 [13] et de 0,971 [16] à 0,983 [17] sur l'ensemble de matrices 100 k. Alors que le génotypage groupé semblait extrêmement populaire en utilisant les plates-formes de génotypage à débit relativement plus faible de 10 k et 100 k, les chercheurs ne semblaient pas également enthousiasmés par les nouvelles puces de génotypage SNP à efficacité améliorée [15]. Cela pourrait être dû à l'appréhension des « compromis » associés au fait d'essayer de presser plus de sondes sur une micropuce. Alors que les puces 10 k et 100 k avaient 40 sondes pour chaque SNP, les matrices 500 k et SNP6.0 l'avaient réduite à 24 et 6 par SNP respectivement, certains SNP étant représentés par 4 et 2 sondes supplémentaires respectivement.

Nonetheless, validation of pooled genotyping was indeed carried out on the 500 k arrays with estimation accuracies ranging from 0.926 [5] to 0.983 [19]. While Wilkening et al. used only 40% of the SNPs, (SNPs found on the Nsp I chip of the 500 k array set), Docherty et al. evaluated the performance of almost all the SNPs (> 90%) in the array set. Building on Docherty et al.'s work, we chose to base our study on the full repertoire of 500,568 SNPs. The high level of accuracy we have shown (Pearson's Correlation = 0.988) is comparable with that obtained by others. The estimated allele frequencies show minimal variability from the actual allele frequencies (mean error = 0.036), and is similarly comparable to previous studies. Despite the apprehension about pooled genotyping on the 500 k platform, we have shown that allelotyping of pooled samples on this platform is both reliable and accurate. These results add to the work done by others to further affirm that pooled genotyping is extremely viable on this higher throughput platform.

We took this analysis one step further by focusing on the currently available ultra high-throughput SNP genotyping SNP6.0 platform and the 906,600 SNPs it covered (the other 946,000 probes on the SNP6.0 chip were for the detection of copy number variations which are outside the scope of this paper). Estimated allele frequencies from our pooling experiment highly represented those from our selected reference data set (Pearson's Correlation = 0.989, mean error = 0.035). Despite the reduction in intensity data available per-SNP, the SNP6.0 platform seems equally well suited as its predecessors for SNP-MaP. Although our allele frequency estimates from pooled genotyping on the SNP6.0 platform were based on individual genotyping data of Hapmap CHB samples instead of the samples in the pools (which we used in our validation on the 500 k platform), we are still highly confident of its relevance due to the ethnic similarity of Hapmap CHB and our Singapore Chinese samples.

In the 10 k and 100 k arrays, relative allele signal data was readily available thus allowing the use of the RAS method to estimate allele frequencies together with the k-correction to account for unequal hybridization. While such data was directly unavailable for the 500 k data, various authors [12, 15] provided scripts or formulae to extract this information from the raw intensity data. In the three generations of SNP chips, both PM (Perfect Match) and MM (Mis-Match) probes were present, thus allowing relative signal intensities to be calculated. However, with the newer SNP6.0 chip only PM probes were available, probably due to the increased coverage of genetic variants. With the availability of only PM signal intensities (instead of RAS signals), PPC was the only method for estimating allele frequencies from pooled genotyping data using only the PM probes while still accounting for unequal hybridization. Prior to this study, PPC had only been validated on the 10 k platform [19, 21]. Following our validation of pooled genotyping on the 500 k array set using PPC for allele frequency estimation, the current ascertainment of the performance of the SNP6.0 array in SNP-MaP would be the first on such a high density microarray.

Previous studies [5, 12, 18] have suggested that high estimates of reliability of pooled genotyping are inflated by a variety of factors such as quality of genotype calls for certain SNPs, and rare or non-polymorphic SNPs. Both these factors were examined to evaluate their relationship with the accuracy of allele frequency estimates. We discovered (Table 6) that SNPs with missing genotype calls in the reference data set did not affect accuracy of estimated allele frequencies derived from beta values calculated from the reference samples unlike mentioned previously [12]. Excluding SNPs which were rare in the reference sample set (minor allele frequency < 5%) did cause accuracy of allele frequency estimates to reduce slightly to 0.976 (Table 7) however, this difference is minor, unlike what was reported before [5], and should not be taken as an indication that the high levels of accuracy observed were in fact due to non-polymorphic SNPs in the populations. As a measure of the performance of allele frequency estimation, sensitivity and specificity were calculated for subsets of SNPs following various minor allele frequency cut-offs. The high specificity (95.4%, Table 8) of allele frequency estimates of common SNPs (minor allele frequency > 5%) indicates that Type I errors in the approximation of true allele frequency are low while not really compromising on the sensitivity of the test (sensitivity = 85.9%).

Regardless of how we compared our pooled estimates of allele frequencies with the actual allele frequencies obtained from our individually typed samples and known allele frequencies from Hapmap CHB samples, the allele frequency estimates that we obtained proved to be extremely reliable. With reliability and validity improvements over that previously demonstrated on 10 k, 100 k and 500 k arrays, we have shown that both the 500 k and SNP6.0 platforms perform well in pooled genotyping.

While we have showed that pooled genotyping allows the estimation of allele frequencies which are highly accurate compared to the actual allele frequencies, it cannot be used to completely replace individual genotyping the availability of actual genotype data as obtained from individual genotyping allows a more detailed analysis and understanding of the genomic variability in the sample population, and also permits linkage and haplotype analysis within the population. Furthermore, while the genotyping of pooled samples introduces errors, and the errors due to pooling are usually minimal, and random errors due to the array itself can be corrected for by having multiple pooled replicates [22], systematic errors due to the array itself might go unnoticed unless individual genotyping is done. Therefore, pooled genotyping would be best suited when relative instead of absolute allele frequencies are desired, such as in case control association studies. Even then, pooled genotyping should always be followed up by individual genotyping, such as in a two-stage study design [3], so as to validate the observations from the pooled estimates.


Genes that exist in old Affymetrix platform but not in the newer one - Biology

Optimised consensus clustering of one or more heterogeneous datasets.

Or read below for an easy-to-use clust command line!

Clust is a fully automated method for identification of clusters (groups) of genes that are consistently co-expressed (well-correlated) in one or more heterogeneous datasets from one or multiple species.

Figure 1: Clust processes one gene expression dataset to identify (K) clusters of co-expressed genes. Clust automatically identifies the number of clusters (K).

The multiple datasets case:

Figure 2: Clust processes multiple gene expression datasets (X1, X2, . X(L)) to identify clusters of genes that are co-expressed (well-correlated) in each of the input datasets. The left-hand panel shows the gene expression profiles of all genes in each one of the input datasets, while the right-hand panel shows the gene expression profiles of the genes in the clusters (C1, C2, . C(k)). Note that the number of conditions or time points are different for each dataset.

No need to pre-process your data clust automatically normalises the data.

No need to preset the number of clusters clust finds this number automatically.

You can control the tightness of the clusters by varying a single parameter -t

It is okay if the datasets:

  • Were generated by different technologies (e.g. RNA-seq or microarrays)
  • Are from different species
  • Have different numbers of conditions or time points
  • Have multiple replicates for the same condition
  • Require different types of normalisation
  • Were generated in different years and laboratories
  • Have some missing values
  • Do not include every single gene in every single dataset

Clust generates the following output files:

  • A table of clustering statistics
  • A table listing genes included in each cluster
  • Pre-processed (normalised, summarised, and filtered) datasets' files
  • Plotted gene expression profiles of clusters (a PDF file)

Figure 3: Automatic Clust analysis pipeline

Then run it from any directory as:

Then run it from any directory as:

Clust is available on Bioconda as well!

Then run it from any directory as:

First, make sure you have all of the following Python packages installed:

  • numpy
  • scipy
  • matplotlib
  • scikit-learn
  • pandas
  • joblib
  • portalocker

Then, download the latest release file (clust-..*.tar.gz) file from the release tab and run clust without installation directly by running the script clust.py that is in the top level directory of the source code by:

Hint: you can check which package you have installed by:

Upgrade clust to a newer version

If you already have clust and you want to upgrade it, then based on the way you used to install clust (from the ways above), upgrade it by:

Way 1. sudo pip install clust --upgrade

Way 2. pip install --user clust --upgrade

Way 3. conda update -c bioconda clust

Way 4. Download the newer release file (clust-..*.tar.gz) and use it to run clust instead of the older one

Clust has not been tried in Windows thoroughly. If you try it, your feedback will be much appreciated.

We recommend that you download and install WinPython which provides you with many Python packages that clust requires from http://winpython.github.io/

Open WinPython Powershell Prompt.exe from the directory in which you installed WinPython.

Then you can run clust by:

For normalised homogeneous datasets, simply run:

Where data_path is either the path to a single data file (v1.8.5+), or a path to a directory including one or more data files. This command runs clust with default parameters. If the output directory is not provided using the -o option, clust creates a new directory for the results within the current working directory.

For raw RNA-seq TPM, FPKM, or RPKM data, consider the Normalisation section below. Other sections below address handling replicates, handling data from mulitple species, and handling microarray data (only or mixed with RNA-seq data).

Each dataset is represented in a single TAB delimited (TSV) file in which the first column represents gene IDs, the first row represents unique labels of the samples, and the rest of the file includes numerical values, mainly gene expression values.

Figure 4: Snapshots of the first few lines of three data files X1.txt, X2.txt, and X3.txt.

  • When the same gene ID appears in different datasets, it is considered to refer to the same gene.
  • If more than one row in the same file had the same identifier, they are automatically summarised by summing up their values.
  • IMPORTANT: Gene names should not include spaces, commas, or semicolons.

NEW FEATURE: AUTOMATIC NORMALISATION! (V1.7.0 and newer)

Clust applies data normalisation during its pre-processing step.

Version 1.7.0 and newer: Clust automatically detects the most suitable normalisation for each dataset unless otherwise stated by the user via the -n option. The normalisation codes that clust decides to apply are stored in the output file /Normalisation_actual

Version 1.6.0 and earlier: The required normalisation techniques should be stated by the user via the -n option. Otherwise, no normalisation is applied.

Tell clust how to normalise your data in one of two ways:

clust data_path -n code1 [code2 code3 . ] [. ] (V1.7.0 and newer)

  • List one or more normalisation codes (from the table below) to be applied to your one or more datasets
  • Example: clust data_path -n 101 3 4 [. ]

clust data_path -n normalisation_file [. ]

  • Provide a file listing the normalisation codes for each dataset (see Fig. 5).
  • Each line of the file includes these elements in order:
    1. The name of the dataset file (e.g. X0.txt)
    2. One or more normalisation codes. The order of these codes defines the order of the application of normalisation techniques.
  • Delimiters between these elements can be spaces, TABs, commas, or semicolons.

Figure 5: Normalisation file indicating the types of normalisation that should be applied to each of the datasets.

Codes suggested for commonly used datasets

  • RNA-seq TPM, FPKM, and RPKM data: 101 3 4
  • Log2 RNA-seq TPM, FPKM, and RPKM data: 101 4
  • One-colour microarray gene expression data: 101 3 4
  • Log2 one-colour microarray gene expression data: 101 4
  • Two-colour microarray gene expression data: 3 6
  • Log2 two-colour microarray gene expression data: 6
  • Log2 fold-changes 4

Based on these, if your data is recommended to use one of the codes which include the code 3, but the dataset has too many zeros or some negative values, it is recommended to use 31 in the place of 3. For example, if you have a one-colour microarray data with too many zeros or few negative values, use 101 31 4 à la place de 101 3 4.

Code Définition
0 No normalisation (Default in v1.6.0 and earlier)
1 Divide by the mean value of the row
2 Divide by the first value of the row
3 Log2
31 Set all values that are less than 1.0 to 1.0, then log2 (v1.7.0+)
4 Z-score: subtract the mean of the row and then divide by its standard deviation
5 Divide by the total (sum) of the row
6 Subtract the mean value of the row
7 Divide by the maximum value of the row
8 2 to the power X
9 Subtract the minimum value of the row
10 Rank across rows (1 for the lowest, up to N pour N columns average ranks at ties)
11 Rank across rows (1 for the lowest, up to N pour N columns order arbitrarly at ties)
12 Linear transformation to the [0, 1] range across rows (0.0 for the lowest and 1.0 for the highest)
13 Set all values of genes with low expression everywhere to zeros. The threshold of low expression is found by fitting a bimodal distribution to per-gene maximum expression values over all samples (v1.7.0+)
- -
101 Quantile normalisation
102 Column-wise mean subtraction
103 Subtract the global mean of the entire dataset
- -
1000 Automatic detection of suitable normalisation (Default in v1.7.0 and newer)

If multiple replicates exist for the same condition, include this information in a replicates file and provide it to clust by:

Each line in the replicates file relates to the replicates of a single condition or time point, and includes these elements in order:

  1. The name of the dataset file (e.g. X0.txt).
  2. A name for the condition of time-point this can be any label that the user chooses.
  3. One or more names of the replicates of this condition. These should match column names in the dataset file.

Data from multiple species

If your datasets come from multiple species, you can include a mapping file that defines gene mapping across species.

The mapping file is a TAB delimited file in which the first row shows the names of the species and the first column shows the IDs of the orthologue groups (OGs). Each OG includes zero, one, or many orthologous genes in each species' column split by commas.

Figure 7: Mapping fission and budding yeast genes

Figure 8: Mapping rice, setaria, and maize genes. Notice that some OGs do not include genes in some species

You can use Orthofinder to identify the OGs across multiple species. Orthofiner's output file Orthogroups.csv can be provided directly to clust as the mapping file.

If some genes do not exist in some species (e.g. Figure 8), have a look at the section Genes missing from some datasets below.

Data from multiple technologies (e.g. mixing RNA-seq and microarrays)

Incorporating microarray data in the analysis with or without RNA-seq data can be straightforwardly done. The main point to be taken care of is to include the correct normalisation codes for the different datasets as detailed in the Normalisation section above.

Also, if the first column of the microarray data file includes probe IDs which are not identical across datasets generated by using different microarray/RNA-seq platforms, make sure that probe-gene mapping information is included in the map file described above.

For example, you may apply clust to tens of human and mouse datasets generated by these different technologies / platforms:

Platform / Format La technologie Example identifier
Human RNA-seq reads (TPM) RNA-seq NM_000014.4
Mouse RNA-seq reads (TPM) RNA-seq NM_001166382.1
Affymetrix Human Genome U133+ 2.0 Microarray 1552258_at
Illumina Human WG-6 v3.0 Microarray ILMN_1825594
Illumina Mouse WG-6 v2.0 Microarray ILMN_1243094

In this case, provide clust with a mapping file (TAB delimited) which looks like this:

OG H_RNAseq M_RNAseq H_U133+ H_WG6 M_WG6
OG00001 NM_001105537.2 NM_001310668.1, NM_001310668.1 204474_at, 37586_at ILMN_1676745 ILMN_1236966
. . . . . .

Here, the probes/transcripts that represent the human gene ZNF142 or its mouse orthologue Znf142 from the five platforms are mapped to a single unique OrthoGroup (OG) identifier (OG00001).

This mapping file is provided to clust by the -m option:

These are many reasons that result in missing some genes from some datasets:

  • Datasets are from multiple species and some genes do not exist in some species (see Figure 8 above for example)
  • Older platforms of microarrays did not include probes for some genes
  • Other reasons

Clust allows you to automatically discard genes that do not appear in all (or most) datasets by using the -d option. This option specifies the minimum number of datasets in which a gene has to be present for it to be included in the analysis.

For example, if you have 20 datasets, you can force clust to discard any gene that is not included at least in 17 datasets by:

Handling genes with low expression

By default in v1.7.0+, Clust filters out genes with flat expression profiles (profiles with absolutely no change in expression) after summarising replicates and normalisation. To switch this option off, use the --no-fil-flat option.

Aussi, clust can automatically filter out genes with low expression values if you provide the three options -fil-v , -fil-c , and -fil-d to clust:

This will discard any gene that does not have at least the value of value , at least at conditions conditions, at least in datasets . This is applied before normalisation but after summarising replicates and handling gene mapping across multiple species.

Are you obtaining noisy clusters?

A tightness parameter -t controls how tight the clusters should be (tighter and smaller clusters versus less tight and larger clusters). This is a real positive number with the default value of 1.0. Values smaller than 1.0 (e.g. 0.5) produce less tight clusters, while values larger than 1.0 (e.g. 2.0, 5.0, 10.0, . ) produce tighter clusters.

Try larger values of -t to obtain tighter clusters:

Paramètre Définition
data_directory The path of the directory including all data files
- -
-n <file or integer list> Path of the normalisation file or a list of normalisation codes. See the Normalisation section above for details.
-r <file> Path of the replicates file
-m <file> Path to orthogroup mapping file
-o <directory> Custom path of the output directory
- -
-t <real number> (Cluster tightness) versus (cluster size) weight: a real positive number, where 1.0 means equal weights, values smaller than 1.0 means larger and less tight clusters, and values larger than 1.0 produce smaller and tighter clusters (default: 1.0).
-q3s <real number> Defines the threshold for outliers in terms of the number of Q3's (third quartiles). Smaller values lead to tighter clusters (default: 2.0).
- -
-fil-v <real number> Threshold of data values (e.g. gene expression). Any value lower than this will be set to 0.0. If a gene never exceeds this value at least in FILC conditions in at least FILD datasets, it is excluded from the analysis (default: -inf)
-fil-c <integer> Minimum number of conditions in a dataset in which a gene should exceed the data value FILV at least in FILD datasets to be included in the analysis (default: 0)
-fil-d <integer> Minimum number of datasets in which a gene should exceed the data value FILV at least in FILC conditions to be included in the analysis (default: 0)
--fil-abs -fil-v is used as a threshold for the absolute values of expression. Useful when the data has positive and negative values (e.g. log-ratio 2-colour microarray data). (default: not used).
--fil-perc -fil-v is a percentile of gene expression rather than an absolute expression value (e.g. -fil-v 25 sets the 25th percentile of all gene expression values as the threshold). (default: not used).
--fil-flat Filter out genes with flat expression profiles (constant expression over all samples in all datasets). (default: used).
--no-fil-flat Cancels the default --fil-flat option.
- -
-d <integer> Minimum number of datasets in which a gene has to be included for it to be considered in the clust analysis. If a gene is included only in fewer datasets than this, it will be excluded from the analysis (default: 1)
-cs <integer> Smallest cluster size (default: 11)
-K <integer> [<integer> . ] K values: refer to the publication for details (default: all even integers from 4 to 20 inclusively)
- -
--no-optimisation Skip the cluster optimisation step. Not recommended except to compare results before and after optimisation (default: optimisation is performed).
-basemethods <string> [<string> . ] One or more base clustering methods (default (V1.8.0+): k-means)
- -
-h, --help show the help message and exit

Raw expression data from multiple species

Example datasets are available in ExampleData/1_RawData. These are three datasets from two yeast species, two datasets from fission yeast, and one from budding yeast.

That directory contains the datasets' files in a Data sub-directory, and includes three other files specifying the replicates, the required normalisation, and the gene mapping across the datasets, i.e. orthologous genes across the two yeast species.

Run clust over this data by:

Or let clust automatically detect suitable normalisation by running (v1.7.0+):

You may like to specify a tightness level -t other than the default by adding:

You may also specify an output directory other than the default by adding:

Example datasets of datasets taken from one species, have no replicates, and already normalised are available in ExampleData/2_Preprocessed, or more specifically in the Data directory therein. These datasets require no pre-processing, so you can simply run this command over the directory "Data":

Find the results in the Results_[Date] directory that clust will have generated in your current working directory.

This runs clust with the default tightness -t value of 1.0. You may like to make the generated clusters tighter by increase -t or less tight by decreasing -t . For example, try -t = 5.0 or -t = 0.2 by:

You may also like to save results in an output directory of your choice by using -o :

When publishing work that uses clust, please cite this pre-print:

  1. Basel Abu-Jamous and Steven Kelly (2018) Clust: automatic extraction of optimal coexpressed gene clusters from gene expression data. Biologie du génome : 19:172 doi: https://doi.org/10.1186/s13059-018-1536-8.

Remerciements

The results shown here are, in part, based on data from multiple previously published studies. We acknowledge the investigators and patients who contributed to the acquisition and analysis of the data used in this study. This work was partially supported by research funding from National Natural Science Foundation of China (Grant no. 81472220), Shanghai Science and Technology Development Fund (the Domestic Science and Technology Cooperation Project, No. 14495800300) and Canhelp Genomics. We thank Yang Yang, Xinming Zhang, Yi Cai, and Minzhe Fang for excellent technical and operational assistance.


Affiliations

Department of Radiation Oncology, University of Michigan Medical School, Ann Arbor, MI, USA

S G Zhao, W C Jackson, V Kothari, M J Schipper, J R Evans, C Speers, D A Hamstra & F Y Feng

Department of Biostatistics, University of Michigan Medical School, Ann Arbor, MI, USA

GenomeDx Biosciences Inc., Vancouver, British Columbia, Canada

Comprehensive Cancer Center, University of Michigan Medical School, Ann Arbor, MI, USA

Michigan Center for Translational Pathology, University of Michigan Medical School, Ann Arbor, MI, USA

Department of Radiation Oncology, Harvard University, Boston, MA, USA

Departments of Urology, Oncology, and Pathology, Johns Hopkins University, Baltimore, MD, USA

Department of Radiation Oncology, Thomas Jefferson University, Philadelphia, PA, USA

Glickman Urological and Kidney Institute, Cleveland Clinic, Cleveland, OH, USA

Department of Laboratory Medicine and Pathology, Mayo Clinic, Rochester, MI, USA

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Auteur correspondant


DNA Microarrays and Genetic Testing

Lars Dyrskjøt , . Torben F. Ørntoft , in Molecular Diagnostics (Second Edition) , 2010

16.2.4.2 Bladder Cancer

For the study of bladder cancer development and progression, microarray gene expression profiling has also been applied with success. In one of the first studies using clinical material, Affymetrix GeneCchips with probes for approximately 5,000 human genes and ESTs were used to identify gene expression pattern changes between superficial and invasive tumors ( Thykjaer et al., 2001 ). The identified genes encoded oncogenes, growth factors, proteinases, and transcription factors together with proteins involved in cell cycle, cell adhesion, and immunology. This was the first study to identify genes that separated superficial from invasive bladder tumors. A later microarray-based study on bladder tumors showed advances in disease classification and outcome prediction ( Dyrskjøt et al., 2003 ). The authors of this study also used the GeneChips with probes for approximately 5,000-genes and ESTs for identification of a 32-gene expression pattern using 40 tumor samples for classifying tumors according to disease stage. This stage classifier was successfully validated on an independent test set consisting of 68 bladder tumors analyzed on a different array platform. The stage classifier did not only reproduce histopathological staging, but added important information regarding subsequent disease progression.

Prediction of disease progression from non-muscle-invasive to invasive stage would be of great benefit in the clinical management of patients diagnosed with early stage bladder tumors. In one study, a 45-gene molecular classifier was developed by comparing 29 non-muscle-invasive tumors (13 without later progression and 16 with later progression) using custom Affymetrix GeneChip arrays ( Dyrskjøt et al., 2005 ). The 45-gene classifier was tested on a series of 74 independent tumors using a two-color oligonucleotide array platform with only the genes of interest. The classification results showed a positive correlation to disease outcome (P < 0.03) with a positive predictive value of 0.3 and a negative predictive value of 0.95. The low positive predictive value may be explained by the fact that patients were continuously treated with transurethral resection and BCG installations. In another study of progression prediction ( Wild et al., 2005 ) the authors used 42 Ta tumors, where eight showed later progression to invasive bladder cancer and eight showed later CIS lesions to delineate a gene set optimal for predicting progression. Using cross-validation test, the predictor correctly classified 33 of the samples, which gives a sensitivity of 86% and a specificity of 71%. No independent test set validation results have been reported for this gene set. The consensus gene set of 11 genes resulting from the most commonly used genes in cross-validation loops show no overlap with the 45-gene set signature from Dyrskjøt and colleagues ( Dyrskjøt et al., 2005 ). The progression signature reported by Dyrskjøt and colleagues was recently validated in a large retrospective study using bladder tumors from a cohort of 404 patients diagnosed with bladder cancer in hospitals in Denmark, Sweden, France, England, and Spain ( Dyrskjøt et al., 2007 ). The molecular progression classifier was highly significantly correlated with progression-free survival (P < 0.001) and cancer-specific survival (P = 0,001). Furthermore, multivariate Cox’s regression analysis showed the progression classifier to be an independent significant variable associated with disease progression after adjustment for known risk factors as age, sex, stage, grade, and treatment (hazard ratio 2.3, P = 0.007). Consequently, the retrospective multi-center validation study confirmed the potential clinical utility of the molecular classifier to predict the outcome of patients initially diagnosed with non-muscle invasive bladder cancer.

Gene expression profiles predictive of chemotherapy response have been published in several neoplasms. In a small study of muscle invasive bladder cancer, the response to neoadjuvant (in advance to surgical treatment) chemotherapy was investigated using cDNA microarrays ( Takata et al., 2005 ). Fourteen tumors were used to identify a signature of 14 predictive genes, which was validated on nine additional tumors. RT-PCR results showed good correlation with the microarray, warranting further validation in a larger series. In a recent study, Als and colleagues (2007) identified 55 genes that correlated significantly with survival following chemotherapy. The authors validated two of the protein products (emmprin and survivin) using immunohistochemistry on an independent sample set of 124 tumors. Multivariate analysis identified emmprin expression (hazard ratio, 2.23 P < 0.0001) and surviving expression (hazard ratio, 2.46 P < 0.0001) as independent prognostic markers for poor outcome, together with the presence of visceral metastases (hazard ratio, 2.62 P < 0,0001). In the clinical good prognostic group of patients without visceral metastases, both markers showed significant discriminating power as supplemental risk factors (P < 0,0001). Within this group of patients, the subgroups of patients with no positive, one positive, or two positive immunohistochemistry scores (emmprin and survivin) had estimated 5-year survival rates of 44.0%, 21.1%, and 0%, respectively. Response to chemotherapy could also be predicted with an odds ratio of 4.41 (95% confidence interval, 1.91–10.1) and 2.48 (95% confidence interval, 1.1–5.5) for emmprin and survivin, respectively. Consequently, emmprin and survivin proteins were identified as strong independent prognostic factors for response and survival after chemotherapy in patients with advanced bladder cancer.


Informations sur l'auteur

Affiliations

PROOF Centre of Excellence, Vancouver, BC, Canada

Casey P. Shannon, Robert Balshaw, Virginia Chen, Zsuzsanna Hollander, Bruce M. McManus, Raymond T. Ng & Scott J. Tebbutt

BC Centre for Disease Control, Vancouver, BC, Canada

Division of Cardiology, University of British Columbia, Vancouver, BC, Canada

Department of Pathology and Laboratory Medicine, University of British Columbia, Vancouver, BC, Canada

Department of Computer Science, University of British Columbia, Vancouver, BC, Canada

Department of Medicine, Division of Respiratory Medicine, University of British Columbia, Vancouver, BC, Canada

J. Mark FitzGerald, Don D. Sin & Scott J. Tebbutt

Centre for Heart Lung Innovation, University of British Columbia, Vancouver, BC, Canada

Casey P. Shannon, Virginia Chen, Zsuzsanna Hollander, Bruce M. McManus, Don D. Sin, Raymond T. Ng & Scott J. Tebbutt

Institute for Heart and Lung Health, Vancouver, BC, Canada

Bruce M. McManus, J. Mark FitzGerald, Don D. Sin, Raymond T. Ng & Scott J. Tebbutt