Informations

8 : Modèles d'ajustement d'évolution discrète des caractères - Biologie


Dans ce chapitre, l'algorithme d'élagage de Felsenstein a été présenté et s'est avéré être utilisé pour calculer les probabilités des modèles Mk et Mk étendu sur les arbres phylogénétiques. J'ai également décrit les cadres ML et bayésiens qui peuvent être utilisés pour tester des hypothèses sur l'évolution des personnages. Ce chapitre comprend également une description du test de « poubelle totale », qui vous dira si vos données contiennent des informations sur les taux d'évolution d'un caractère donné.

  • 8.1 : L'évolution des membres et l'absence de membres
    Les squamates avaient perdu leurs membres à plusieurs reprises au cours de leur histoire évolutive. C'est un modèle qui est connu depuis des décennies, mais les analyses ont été limitées par l'absence d'un arbre phylogénétique de squamates grand et bien soutenu au niveau des espèces. Au cours des dernières années, des arbres phylogénétiques ont été produits à une échelle suffisamment large pour permettre une analyse complète de cette question. De tels efforts pour reconstruire cette section de l'arbre de la vie offrent un potentiel passionnant pour revisiter de vieilles questions avec de nouvelles données.
  • 8.2 : Ajustement des modèles Mk aux données comparatives
    Les équations du chapitre 7 nous donnent suffisamment d'informations pour calculer la probabilité de données comparatives sur un arbre. Pour comprendre comment cela se fait, nous pouvons d'abord considérer le cas le plus simple, où nous connaissons l'état de début d'un caractère, la longueur de la branche et l'état de fin. Nous pouvons ensuite appliquer la méthode à un arbre entier en utilisant un algorithme d'élagage, qui permettra de calculer la vraisemblance des données compte tenu du modèle et de l'arbre phylogénétique.
  • 8.3 : Utilisation du maximum de vraisemblance pour estimer les paramètres du modèle Mk
  • 8.4 : Utilisation du MCMC bayésien pour estimer les paramètres du modèle Mk
  • 8.5 : Exploration de Mk - le test du "total des déchets"
    Un problème qui se pose parfois dans l'optimisation du maximum de vraisemblance se produit lorsqu'au lieu d'un pic, la surface de vraisemblance a une longue « crête » plate de valeurs de paramètres également probables. Dans le cas du modèle Mk, il est courant de constater que toutes les valeurs de q supérieures à une certaine valeur ont la même vraisemblance. C'est parce qu'au-dessus d'un certain taux, l'évolution a été si rapide que toutes les traces de l'histoire de l'évolution de ce caractère ont été effacées.
  • 8.6 : Tester les différences dans le taux de changement de caractère avant et arrière
  • 8.7 : Annexe - Algorithme d'élagage de Felsenstein
    L'algorithme d'élagage de Felsenstein (1973) est un exemple de programmation dynamique, un type d'algorithme qui a de nombreuses applications en biologie comparée. En programmation dynamique, nous décomposons un problème complexe en une série d'étapes plus simples qui ont une structure imbriquée. Cela nous permet de réutiliser les calculs de manière efficace et accélère le temps nécessaire pour faire des calculs.
  • 8.S : Modèles d'ajustement de l'évolution discrète des caractères (Résumé)

Outils phylogénétiques pour la biologie comparée

&ldquo&helliphow puis-je spécifier un état ancestral pour mes phytools de nœud racine ?? Et puis-je en spécifier un lors de l'utilisation du modèle ER d'évolution des personnages ? Je pense que cela devrait être très simple à répondre, désolé, mais si vous pouviez m'orienter vers une réponse, ce serait fantastique.&rdquo

Je vais interpréter cela comme signifiant "Comment puis-je m'adapter à un modèle de caractère discret dans lequel l'état à la racine globale est connu".

Ce n'est pas super facile. Il est plus simple de le faire en utilisant fitMk , mais peut également être réalisé en utilisant fitDiscrete du package geiger.

D'abord, je vais démontrer fitMk .

model<-matrix(c(0,1,0,1,0,1,0,1,0),3,3,dimnames=list(states, states)) modèle

Notez que bien que l'on puisse être tenté de comparer les vraisemblances de ces trois modèles ajustés, cela ne devrait en fait pas être fait. En effet, les vraisemblances sont dans chaque cas conditionnées à la connaissance de l'état à l'état racine - en d'autres termes, elles sont conditionnées à des données différentes. Que cela n'équivaut pas à contraindre un paramètre particulier à avoir une certaine valeur est plus évident par comparaison entre le modèle dans lequel la racine est fixée à l'état « » et le modèle dans lequel l'état de la racine est inconnu. Si le premier était un cas particulier du second, alors il devrait avoir une probabilité plus faible (ou égale), alors qu'en fait sa probabilité est légèrement plus élevée. Comment venir? Eh bien, en réalité, la probabilité d'état fixe est la probabilité que toutes les pointes soient dans leurs états observés et que la racine est dans l'état "b" , étant donné l'arbre, un modèle et les paramètres du modèle (à estimer) alors que la vraisemblance du modèle 'flat prior' est simplement la probabilité des données aux extrémités, étant donné l'arbre & modèle , mais intégrant sur toutes les valeurs possibles pour le nœud racine de la phylogénie.

Nous pouvons faire la même analyse en utilisant fitDiscrete , mais ce n'est pas aussi simple. Tout d'abord, nous devons utiliser la méthode pour générer une fonction de vraisemblance, puis nous pouvons optimiser cette fonction en utilisant différentes distributions de probabilité a priori pour la racine de l'arbre, comme suit :

(Notez que fitDiscrete n'utilise pas de prior plat par défaut.)

Pour chaque modèle ajusté, $maximum est le paramètre de modèle ajusté unique tandis que $objective est la log-vraisemblance. Si nous avions un modèle avec plus d'un paramètre, nous pourrions utiliser optim ou un autre optimiseur numérique pour ajuster le modèle.

Enfin, n'oubliez pas que phytools a des méthodes de traçage S3 pour fitMk et amp fitDiscrete . Par exemple.:

plot(fit.geiger<-fitDiscrete(tree,x,model="ARD")) title(main="Result from geiger::fitDiscrete(. model="ARD")") title(main=paste(" nlog(L) =",round(logLik(fit.geiger),5)), cex.main=1)

lik<-fit.geiger$lik q<-fit.phytools$rates ## estimation du paramètre fitMk lik(pars=c(q12=q[3],q13=q[5],q21=q[1],q23=q[ 6],q31=q[2],q32=q[4]), racine="flat")

Il aurait également été plausible que fitMk n'ait pas réussi à converger vers la solution ML car, en général, les routines d'optimisation utilisées par fitDiscrete sont plus robustes. Cela ne semble pas être le cas dans ce cas.)


Outils phylogénétiques pour la biologie comparée

J'ai pensé qu'il pourrait être utile de publier un tutoriel rapide sur la façon de comparer des modèles de base pour l'évolution discrète des caractères à l'aide de la fonction phytools fitMk . fitMk emprunte en fait beaucoup de code à la fonction ape ace , bien qu'il ne fasse pas d'estimation de l'état ancestral marginal, mais il permet à l'utilisateur de spécifier la distribution a priori &pi. Cela peut théoriquement être important.

Pour cet exercice, nous utiliserons le Anolis données écomorphes :

Nous pouvons adapter différents modèles comme suit :

En plus de ces modèles de base, nous pouvons également adapter n'importe quel modèle arbitraire. Ainsi, par exemple, nous pourrions adapter un modèle dans lequel l'évolution des caractères est ordonnée. Dans ce cas, je supposerai que les écomorphes ne peuvent évoluer que par ordre alphabétique - une hypothèse totalement ridicule, bien sûr - mais utile pour démontrer la façon dont de tels modèles sont mis en place :

De même, nous pourrions adapter un modèle ordonné mais dans lequel les taux de retour et d'avance sont différents (indiqués ici par les éléments superdiagonale et sous-diagonale, respectivement) :

Notez que les indices 1 et 2 n'ont rien à voir avec les taux réels qui sont ajustés - ils nous permettent simplement de dire à R d'ajuster (dans ce cas) deux taux différents, et où ces taux différents devraient être distribués dans la matrice. En d'autres termes, un modèle symétrique peut également être spécifié comme suit :

Enfin, nous pouvons comparer les modèles à l'aide d'un rapport de vraisemblance, pour les modèles emboîtés ou à l'aide de l'AIC. N'oubliez pas qu'un AIC inférieur indique un meilleur ajustement du modèle pénalisant pour le nombre de paramètres dans le modèle ajusté :

On dirait que le modèle à taux égaux l'emporte !

Essayons avec un jeu de données plus simple simulé sous un modèle irréversible :

fitER<-fitMk(tree,x,model="ER") fitARD<-fitMk(tree,x,model="ARD") irrAtoB<-matrix(c(0,0,1,0),2,2,dimnames=list(c("a" ,"b"),c("a","b"))) fitAtoB<-fitMk(tree,x,model=irrAtoB) irrBtoA<-t(irrAtoB) fitBtoA<-fitMk(tree,x,model=irrBtoA) fitBtoA

Nous pouvons donc voir qu'en effet le modèle de génération, a->b , convient le mieux.

Pour dupliquer l'une des analyses ci-dessus, vous pouvez également utiliser l'objet de données phytools anoletree comme suit :


Les caractères dentaires utilisés dans les analyses phylogénétiques des mammifères montrent des taux d'évolution plus élevés, mais pas une indépendance réduite

Des reconstructions précises de la phylogénie sont essentielles pour étudier l'évolution d'un clade, et les caractères morphologiques sont nécessairement utilisés pour la reconstruction des relations des organismes fossiles. Cependant, la variation de leurs modes évolutifs (par exemple la variation du taux et la non-indépendance des caractères) non prise en compte dans les analyses peut conduire à des phylogénies peu fiables. Une étude récente a suggéré que les analyses phylogénétiques des mammifères pourraient souffrir d'une dominance des caractères dentaires, qui se sont avérés avoir un signal phylogénétique inférieur à celui des caractères ostéologiques et ont produit des phylogénies moins congruentes avec les références dérivées moléculairement. Ici, nous nous appuyons sur ces travaux antérieurs en testant cinq partitions morphologiques supplémentaires pour le signal phylogénétique et en examinant quels aspects de l'évolution des caractères dentaires et autres peuvent l'affecter, en ajustant des modèles d'évolution discrète des caractères aux phylogénies déduites et calibrées dans le temps à l'aide de données moléculaires. Les résultats indiquent que le signal phylogénétique des caractères discrets est en corrélation plus forte avec les taux d'évolution, avec des taux accrus entraînant une homoplasie accrue. Dans un jeu de données couvrant tous les Mammalia, les caractères dentaires ont des taux d'évolution plus élevés que les autres partitions. Cependant, elles ne correspondent pas plus mal que les autres régions à un modèle d'évolution indépendante des caractères. Les primates et les marsupiaux présentent des schémas différents de ceux des autres clades de mammifères, les caractères dentaires évoluant à des rythmes plus lents et étant plus fortement intégrés (moins indépendants). Bien que la dominance des caractères dentaires dans les analyses des mammifères puisse conduire à des phylogénies inexactes, le problème n'est pas unique aux caractères dentaires et les résultats ne sont pas cohérents entre les ensembles de données. Les repères moléculaires (étant entièrement indépendants des données de caractères) fournissent un cadre pour examiner chaque ensemble de données individuellement afin d'évaluer l'évolution des caractères utilisés.

Mots clés: Taux D'évolution Homoplasie Indépendance Mammifères Phylogénie.

©2020 Brocklehurst et Bénévent.

Déclaration de conflit d'intérêts

Les auteurs déclarent qu'il n'y a pas d'intérêts concurrents.

Les figures

Figure 1. Tracés de violon illustrant les résultats de…

Figure 1. Tracés de violon illustrant les résultats de Bi et al. (2014) matrice de caractères (total…

Figure 2. Tracés de violon illustrant les résultats de…

Figure 2. Tracés de violon illustrant les résultats de la matrice de Spaulding, O'Leary & Gatesy (2009) (Artiodactyla).

Figure 3. Résultats du Tomiya (2010)…

Figure 3. Résultats de la matrice Tomiya (2010) (Carnivora).

(A) Valeurs lambda de Pagel (signal phylogénétique)…

Figure 4. Tracés de violon illustrant les résultats de…

Figure 4. Tracés de violon illustrant les résultats de Ni et al. (2013) matrice (Primates).

Figure 5. Tracés de violon illustrant les résultats de…

Figure 5. Tracés de violon illustrant les résultats de la matrice de Beck (2017) (Marsupialia).


Contenu

Ces modèles sont des descriptions phénoménologiques de l'évolution de l'ADN comme une chaîne de quatre états discrets. Ces modèles de Markov ne décrivent pas explicitement le mécanisme de mutation ni l'action de la sélection naturelle. Ils décrivent plutôt les taux relatifs de différents changements. Par exemple, les biais mutationnels et la sélection purificatrice favorisant les changements conservateurs sont probablement tous deux responsables du taux relativement élevé de transitions par rapport aux transversions dans les séquences évolutives. Cependant, le modèle de Kimura (K80) décrit ci-dessous tente uniquement de capturer l'effet des deux forces dans un paramètre qui reflète le taux relatif de transitions vers les transversions.

Les analyses évolutives des séquences sont conduites sur une grande variété d'échelles de temps. Ainsi, il est commode d'exprimer ces modèles en termes de taux instantanés de changement entre différents états (le Q matrices ci-dessous). Si on nous donne un état de départ (ancestral) à une position, le modèle Q matrice et une longueur de branche exprimant le nombre attendu de changements survenus depuis l'ancêtre, alors nous pouvons dériver la probabilité que la séquence descendante ait chacun des quatre états. Les détails mathématiques de cette transformation de matrice de taux en matrice de probabilité sont décrits dans la section mathématiques des modèles de substitution de la page des modèles de substitution. En exprimant les modèles en termes de taux instantanés de changement, nous pouvons éviter d'estimer un grand nombre de paramètres pour chaque branche d'un arbre phylogénétique (ou chaque comparaison si l'analyse implique de nombreuses comparaisons de séquences par paires).

Les modèles décrits sur cette page décrivent l'évolution d'un site unique au sein d'un ensemble de séquences. Ils sont souvent utilisés pour analyser l'évolution d'un locus entier en faisant l'hypothèse simplificatrice que différents sites évoluent indépendamment et sont distribués de manière identique. Cette hypothèse peut se justifier si l'on peut supposer que les sites évoluent de manière neutre. Si l'effet principal de la sélection naturelle sur l'évolution des séquences est de contraindre certains sites, alors des modèles de taux d'hétérogénéité entre sites peuvent être utilisés. Cette approche permet d'estimer une seule matrice des taux relatifs de substitution et un autre ensemble de paramètres décrivant la variance du taux total de substitution entre les sites.

Chaînes de Markov en temps continu Modifier

Exemple: Nous aimerions modéliser le processus de substitution dans les séquences d'ADN (c'est à dire. Jukes-Cantor, Kimura, etc.) en temps continu. Les matrices de transition correspondantes ressembleront à :

où les blocs 2 × 2 en haut à gauche et en bas à droite correspondent à probabilités de transition et les blocs 2 × 2 en haut à droite et en bas à gauche correspondent à probabilités de transversion.

Théorème: Les matrices de transition en temps continu satisfont :

Noter: Il y a ici une confusion possible entre deux sens du mot transition. (i) Dans le cadre de chaînes de Markov, la transition est le terme général pour le changement entre deux états. (ii) Dans le cadre de changements de nucléotides dans les séquences d'ADN, la transition est un terme spécifique pour l'échange entre les deux purines (A G) ou les deux pyrimidines (C ↔ T) (pour plus de détails, voir l'article sur les transitions en génétique). En revanche, un échange entre une purine et une pyrimidine est appelé une transversion.

Dérivation de la dynamique de substitution Modifier

Considérons une séquence d'ADN de longueur fixe m évoluant dans le temps par remplacement de base. Supposons que les processus suivis par le m les sites sont indépendants markoviens, identiquement répartis et que le processus est constant dans le temps. Pour un site particulier, laissez

être l'ensemble des états possibles pour le site, et

est connu comme le matrice de taux. Notez que, par définition, la somme des entrées dans chaque ligne de Q est égale à zéro. Il s'ensuit que

Ergodicité Modifier

En d'autres termes, les fréquences de p A ( t ) , p G ( t ) , p C ( t ) , p T ( t ) (t),,p_(t),,p_(t)> ne change pas.

Réversibilité temporelle Modifier

Tous les processus stationnaires ne sont pas réversibles, cependant, les modèles d'évolution de l'ADN les plus couramment utilisés supposent une réversibilité temporelle, ce qui est considéré comme une hypothèse raisonnable.

Sous l'hypothèse de réversibilité temporelle, soit s x y = μ x y / π y =mu _/pi _ > , alors il est facile de voir que :

Mise à l'échelle des longueurs de branches Modifier

En comparant les séquences existantes, on peut déterminer la quantité de divergence de séquence. Cette mesure brute de divergence renseigne sur le nombre de changements survenus le long du chemin séparant les séquences. Le simple décompte des différences (la distance de Hamming) entre les séquences sous-estimera souvent le nombre de substitutions en raison de coups multiples (voir homoplasie). Essayer d'estimer le nombre exact de changements qui se sont produits est difficile, et généralement pas nécessaire. Au lieu de cela, les longueurs de branches (et les longueurs de chemin) dans les analyses phylogénétiques sont généralement exprimées en nombre attendu de changements par site. La longueur du chemin est le produit de la durée du chemin dans le temps et du taux moyen de substitutions. Bien que leur produit puisse être estimé, le taux et le temps ne sont pas identifiables à partir de la divergence de séquence.

Les descriptions des matrices de taux sur cette page reflètent avec précision l'ampleur relative des différentes substitutions, mais ces matrices de taux sont ne pas mis à l'échelle de telle sorte qu'une longueur de branche de 1 donne un changement attendu. Cette mise à l'échelle peut être accomplie en multipliant chaque élément de la matrice par le même facteur, ou simplement en mettant à l'échelle les longueurs des branches. Si nous utilisons β pour désigner le facteur d'échelle et ν pour désigner la longueur de branche mesurée dans le nombre attendu de substitutions par site, alors βν est utilisé dans les formules de probabilité de transition ci-dessous à la place de μt. Notez que ν est un paramètre à estimer à partir des données et est appelé longueur de branche, tandis que β est simplement un nombre qui peut être calculé à partir de la matrice de taux (ce n'est pas un paramètre libre séparé).

La valeur de peut être trouvée en forçant le taux de flux d'états attendu à 1. Les entrées diagonales de la matrice de taux (le Q matrice) représentent -1 fois le taux de sortie de chaque état. Pour les modèles réversibles dans le temps, nous connaissons les fréquences d'état d'équilibre (ce sont simplement lesje valeur du paramètre pour l'état je). Ainsi, nous pouvons trouver le taux de changement attendu en calculant la somme des flux sortant de chaque état pondérée par la proportion de sites qui devraient appartenir à cette classe. Définir comme l'inverse de cette somme garantira que le processus mis à l'échelle a un flux attendu de 1 :

Par exemple, dans le Jukes-Cantor, le facteur d'échelle serait 4/(3μ) parce que le taux de sortie de chaque état est 3μ/4.

Modèle JC69 (Jukes et Cantor 1969) Modifier

Le p dans cette formule est fréquemment appelé la p -distance. C'est une statistique suffisante pour calculer la correction de distance Jukes-Cantor, mais n'est pas suffisante pour le calcul de la distance évolutive sous les modèles plus complexes qui suivent (notez également que p utilisé dans les formules suivantes n'est pas identique à la " p -distance").

Modèle K80 (Kimura 1980) Modifier

K80, le modèle Kimura 1980, [2] souvent appelé Le modèle à deux paramètres de Kimura (ou la Modèle K2P), distingue les transitions ( A ↔ G , ie de purine à purine, ou C ↔ T , ie de pyrimidine à pyrimidine) et les transversions (de purine à pyrimidine ou vice versa). Dans la description originale du modèle par Kimura, les et étaient utilisés pour désigner les taux de ces types de substitutions, mais il est maintenant plus courant de définir le taux de transversions à 1 et d'utiliser pour désigner le rapport de taux de transition/transversion (comme est fait ci-dessous). Le modèle K80 suppose que toutes les bases sont également fréquentes ( π A = π G = π C = π T = 0,25 =pi _=pi _=0.25> ).

La distance à deux paramètres de Kimura est donnée par :

p est la proportion de sites qui présentent des différences transitoires et q est la proportion de sites qui présentent des différences transversionnelles.

Modèle K81 (Kimura 1981) Modifier

K81, le modèle Kimura 1981, [3] souvent appelé Le modèle à trois paramètres de Kimura (modèle K3P) ou le modèle Kimura à trois types de substitution (K3ST), a des taux distincts pour les transitions et deux types distincts de transversions. Les deux types de transversion sont ceux qui conservent les propriétés faibles/fortes des nucléotides (ie, A T et C ↔ G , notés par le symbole γ [3] ) et ceux qui conservent les propriétés amino/céto des nucléotides (ie, A ↔ C et G ↔ T , notés par le symbole β [3] ). Le modèle K81 suppose que toutes les fréquences de base d'équilibre sont égales (i.e., A = π G = π C = π T = 0,25 =pi _=pi _=0.25> ).

Le modèle K81 est utilisé beaucoup moins souvent que le modèle K80 (K2P) pour l'estimation de la distance et c'est rarement le modèle le mieux adapté en phylogénétique du maximum de vraisemblance. Malgré ces faits, le modèle K81 a continué à être étudié dans le contexte de la phylogénétique mathématique. [4] [5] [6] Une propriété importante est la capacité d'effectuer une transformation de Hadamard en supposant que les modèles de site ont été générés sur un arbre avec des nucléotides évoluant sous le modèle K81. [7] [8] [9]

Lorsqu'elle est utilisée dans le contexte de la phylogénétique, la transformée de Hadamard fournit un moyen élégant et entièrement inversible pour calculer les fréquences de modèle de site attendues étant donné un ensemble de longueurs de branches (ou vice versa). Contrairement à de nombreux calculs de maximum de vraisemblance, les valeurs relatives de α , et peuvent varier d'une branche à l'autre et la transformation d'Hadamard peut même fournir la preuve que les données ne ne correspond pas à un arbre. La transformée de Hadamard peut également être combinée avec une grande variété de méthodes pour tenir compte de l'hétérogénéité des taux entre les sites, [10] en utilisant des distributions continues plutôt que les approximations discrètes généralement utilisées dans la phylogénétique du maximum de vraisemblance [11] (bien qu'il faille sacrifier l'inversibilité de la Transformée de Hadamard pour utiliser certaines distributions d'hétérogénéité des taux entre les sites [10] ).

Modèle F81 (Felsenstein 1981) Modifier

F81, le modèle de 1981 de Felsenstein, [12] est une extension du modèle JC69 dans lequel les fréquences de base peuvent varier de 0,25 ( π A ≠ π G ≠ π C ≠ π T eq pi _ eq pi _> )

Lorsque la longueur de branche, , est mesurée dans le nombre attendu de changements par site, alors :

Modèle HKY85 (Hasegawa, Kishino et Yano 1985) Modifier

HKY85, le modèle Hasegawa, Kishino et Yano 1985, [13] peut être considéré comme combinant les extensions réalisées dans les modèles Kimura80 et Felsenstein81. À savoir, il fait la distinction entre le taux de transitions et de transversions (en utilisant le paramètre κ), et il permet des fréquences de base inégales ( π A ≠ π G ≠ π C ≠ π T eq pi _ eq pi _> ). [ Felsenstein a décrit un modèle similaire (mais pas équivalent) en 1984 en utilisant une paramétrisation différente [14] ce dernier modèle est appelé modèle F84. [15] ]

Si nous exprimons la longueur de la branche, ?? en termes de nombre de changements attendus par site alors :

et la formule pour les autres combinaisons d'états peut être obtenue en substituant les fréquences de base appropriées.

Modèle T92 (Tamura 1992) Modifier

T92, le modèle Tamura 1992, [16] est une méthode mathématique développée pour estimer le nombre de substitutions de nucléotides par site entre deux séquences d'ADN, en étendant la méthode à deux paramètres de Kimura (1980) au cas où un biais de contenu G+C existe . Cette méthode sera utile lorsqu'il y a de forts biais de transition-transversion et de contenu G+C, comme dans le cas de Drosophile ADN mitochondrial. [16]

Comme T92 fait écho à la deuxième règle de parité de Chargaff - les nucléotides d'appariement ont la même fréquence sur un seul brin d'ADN, G et C d'une part, et A et T d'autre part - il s'ensuit que les quatre fréquences de base peuvent être exprimées comme une fonction de π GC >

La distance évolutive entre deux séquences d'ADN selon ce modèle est donnée par

Modèle TN93 (Tamura et Nei 1993) Modifier

TN93, le modèle de Tamura et Nei 1993, [17] distingue les deux types de transition, c'est-à-dire que ( A ↔ G ) peut avoir un taux différent de ( C ↔ T ). Les transversions sont toutes supposées se produire au même taux, mais ce taux peut être différent des deux taux pour les transitions.

TN93 permet également des fréquences de base inégales ( π A ≠ π G ≠ π C ≠ π T eq pi _ eq pi _> ).

Modèle GTR (Tavaré 1986) Modifier

GTR, le modèle généralisé réversible dans le temps de Tavaré 1986, [18] est le modèle neutre, indépendant, à sites finis et réversible dans le temps le plus général possible. Il a été décrit pour la première fois sous une forme générale par Simon Tavaré en 1986. [18]

sont les paramètres de vitesse de transition.

Par conséquent, GTR (pour quatre caractères, comme c'est souvent le cas en phylogénétique) nécessite 6 paramètres de taux de substitution, ainsi que 4 paramètres de fréquence de base d'équilibre. Cependant, cela est généralement éliminé jusqu'à 9 paramètres plus μ , le nombre total de substitutions par unité de temps. Lors de la mesure du temps dans les substitutions ( μ =1) il ne reste que 8 paramètres libres.

En général, pour calculer le nombre de paramètres, il faut compter le nombre d'entrées au-dessus de la diagonale dans la matrice, c'est-à-dire pour n valeurs de traits par site n 2 − n 2 -n> over 2>> , puis ajoutez m pour les fréquences de base d'équilibre, et soustraire 1 car μ est fixe. On obtient

Par exemple, pour une séquence d'acides aminés (il y a 20 acides aminés "standards" qui composent les protéines), on trouverait qu'il y a 209 paramètres. Cependant, lors de l'étude des régions codantes du génome, il est plus courant de travailler avec un modèle de substitution de codon (un codon est constitué de trois bases et code pour un acide aminé dans une protéine). Il y a 4 3 = 64 =64> codons, mais les taux de transitions entre codons qui diffèrent de plus d'une base sont supposés être nuls. Par conséquent, il y a 20 × 19 × 3 2 + 64 − 1 = 633 over 2>+64-1=633> paramètres.


Outils phylogénétiques pour la biologie comparée

Au cours des derniers mois, Luke Harmon et moi avons travaillé sur un projet qui m'a amené à faire de nombreuses mises à jour et ajouts à phytools.

Cet après-midi, j'ai soumis un nouveau phytools version à CRAN et il est déjà disponible (uniquement en tant que source Windows & Mac binaires prennent généralement quelques jours pour être construits).

Je n'ai pas eu le temps ces dernières semaines de publier des informations sur les nouvelles mises à jour de packages qui sont dans cette version actuelle. Je vais essayer de faire quelques entrées de blog maintenant, cependant, qui décrivent certaines des mises à jour et des nouvelles fonctionnalités de phytools.

La première d'entre elles que je mentionnerai est une nouvelle fonction (appelée fitHRM ) qui peut être utilisée pour ajuster le modèle de taux caché de Beaulieu et al. (2013).

Ce modèle peut déjà être adapté aux données de caractères discrets dans R en utilisant le package corHMM. En fait, je soupçonne que la mise en œuvre de corHMM est plus robuste et s'adapte mieux aux grands arbres. (Je n'ai pas encore essayé d'utiliser fitHRM avec une très grande phylogénie - mais je sais que corHMM dans le corHMM a été utilisé dans des études empiriques impliquant jusqu'à des milliers de taxons.)

L'idée de ce modèle est que nous observons l'évolution entre les états dans un certain espace d'état (par exemple, une &harr b &harr c, etc.), mais il existe également des conditions non observées pour chaque état (ou certains états, voir ci-dessous) avec des taux de changement différents pour d'autres états (par exemple, un', b', c', etc).

Un exemple simple de ceci pourrait être le cas d'un trait binaire dans lequel la condition 0 (disons) existait dans deux états cachés : 0' (chaud) et 0'' (froid). Lorsque dans la condition observée 0 a l'état caché 0' le changement 0 &harr 1 est autorisé, mais quand il's dans l'état 0'' le changement 0 &harr 1 ne peut pas se produire.

Pour commencer, simulons exactement sous ce modèle et voyons à quoi ressemble l'évolution !

(y est le vecteur de trait que nous observons, rappelez-vous. Nous n'avons aucune idée si chaque extrémité de l'arbre est à l'état caché 0* ou 0**.)

Maintenant, adaptons notre modèle. Pour notre modèle de taux cachés, nous imaginons qu'il existe deux catégories de taux (c'est-à-dire deux états cachés) pour 0, mais une seule catégorie de taux (pas d'états cachés) pour 1. 1) . Notez que ce modèle interdit explicitement les transitions de 0** (en fait, nous allons les appeler 0 et 0* dans le modèle ajusté) à 1.

En plus du modèle de tarifs cachés, nous pouvons également adapter un M standardk maquette. Le modèle des taux cachés a ce modèle comme cas particulier, ce qui nous permet de comparer facilement leurs probabilités.

En plus du modèle verbal des taux cachés que nous avons décrit, adaptons également un seconde modèle de taux cachés dans lequel au lieu de deux catégories de taux pour 0 et deux pour 1, nous avons deux catégories de taux (c'est-à-dire deux états cachés) pour chaque niveau observé de notre trait. (Il s'agit en fait du même modèle que celui adapté au corHMM.)

Ce modèle (par défaut - nous pouvons également le définir sur order=TRUE pour éviter cela) autorise les transitions 0 $harr 1 et 0* &harr 1* , ainsi que 0 &harr 0* et 1 &harr 1* .

Voici un tracé de nos quatre modèles différents pour que vous ayez une meilleure idée.

Mettons tous nos modèles dans un tableau et comparons-les.

Cela nous montre que le modèle le mieux pris en charge est le HRM-1, un modèle à état caché. Cela est parfaitement logique car c'est le modèle que nous avons utilisé pour la simulation. Frais!


Résultats

Phylogénie

Le gène unique ITS et LSU partiel, et les séquences combinées d'ITS avec LSU partiel de 254 souches de champignons noirs ont été appliqués pour déterminer les arbres phylogénétiques de l'ensemble de l'ordre Chaetothyriales, en utilisant Capnodium salicinum et Café Capnodium en tant qu'exogroupe des taxons. L'alignement contenait 522 caractères pour ITS, 497 pour LSU, 1019 pour les séquences combinées. L'alignement des séquences combinées avait les fréquences de base suivantes : f (A) = 00,243, f (T) = 00,247, f (C) = 00,234, f (G) = 00,275, dont 642 sites variables et 548 sites informatifs de parcimonie . Lorsque des arbres séparés de LSU et ITS ont été comparés à l'arbre basé sur l'alignement concaténé, les valeurs de bootstrap dans l'arbre combiné étaient en moyenne plus élevées que celles trouvées dans les arbres à gène unique. Certaines familles n'ont pas formé de clades supportés dans les arbres à gène unique, mais ont obtenu un support bootstrap plus élevé dans les arbres combinés. L'arbre NJ non réduit a montré que cet algorithme n'est pas adapté à l'analyse des Chaetothyriales au niveau ordinal, à en juger par le faible nombre de branches supportées. Avec l'analyse bayésienne (BA) (Fig. 3), l'arbre combiné contenait un total de 153 clades supportés (probabilités postérieures PP 95 %) et avec le maximum de vraisemblance (ML) 123 clades supportés (support bootstrap BS ≥ 70 %). Un total de 120 clades ont été reconnus cohérents dans les deux algorithmes de la figure 3, les deux types de support sont indiqués par l'épaisseur des branches.

Pour la reconstitution de l'évolution possible de l'ordre des Chaetothyriales, l'ordre d'apparition des groupes reconnus est significatif. Dans la plupart des ouvrages sur les Chaetothyriales, les topologies d'inférences phylogénétiques suggèrent l'existence de six familles (Réblová et al. 2013 Gueidan et al. 2014 Teixeira et al. 2017). La famille des Phaeosaccardinulaceae a été introduite par Batista et Ciferri (1962) et est représentée par trois espèces (Wijayawardene et al. 2020). Les familles récemment décrites Strelitzianaceae et Paracladophialophoraceae ont respectivement quatre et deux espèces dans l'arbre. Trois autres groupes ont été ajoutés dans des études récentes explorant de nouveaux habitats (Muggia et al. 2020 Wang, données non publiées). Ces groupes étaient pour la plupart reconnus comme des clades distincts pris en charge avec un bootstrap élevé dans l'arbre bi-locus avec tous les algorithmes appliqués.

Six espèces, Atrokylindriopsis (Ma et al. 2015), Lichenodiplis (Hawksworth et Dyko 1979), Melnikomyces (Crous et al. 2014), Bacillicladium (Réblová et al. 2016), Muellerella (Muggia et al. 2020) and Uncispora (Sinclair 1979), mentioned as having an uncertain phylogenetic position by Wijayawardene et al. (2020), were included in the ML analysis. Atrokylindriopsis setulosa et Uncispora in Clade 1 had bootstrap support of 72 %. Lorsque Neostrelitziana acaciigena was added to the tree, it clustered in Clade 6, almost all species of this clade were described as Trichomeriaceae, with bootstrap support remaining at 100%. Paracladophialophora formed a sister clade to a cluster of undescribed ant-domatia associated fungi. Lichenodiplis, for which only an LSU sequence was available, formed a sister clade to a group of endolichenic fungi (Muggia et al. 2020). Bacillicladium was monophyletic next to Trichomeriaceae with low bootstrap support. The tree including the genera above is shown in Fig. 3. The genera Melnikomyces et Muellerella seemed remote from Chaetothyriales and were excluded from further analysis.

In the literature, the following fungi are treated as members of Chaetothyriales, at least by some authors, but were found at relatively long branches in the ML tree: Epibryon hepaticola, Capronia villosa, Cladophialophora modesta, Cladophialophora hostae, Cladophialophora scillae, Paracladophialophora spp., Coccodinium bartschii, Arthrophiala arthreospora, Capronia nigerrima, Bacillicladium dematidis, Rhinocladiella mackenziei, et Strelitziana spp., of which Coccodinium has been surmised to be dothideaceous (Hyde et al. 2013). Species were individually rearranged as outgroups and the effect on statistical support of resulting ML trees was compared with the supposition as to whether these are members or non-members, the bootstrap values should change significantly. Supported and unsupported clades were calculated trees with highest ratios supported vs. unsupported clades at a low number of supported clades in the backbone were considered to be optimal. The ratio of the combined ML tree including all incertae sedis above is 1.30 (Table 2). The highest ratios (1.75) were obtained when Epibryon hepaticola, Capronia villosa, Cladophialophora modesta, Cladophialophora hostae et Cladophialophora scillae, Paracladophialophora spp., Bacillicladium dematidis, ou Coccodinium bartschii were used as outgroup, the ratios increased slightly compared to the reference tree (1.30, with Capnodium as outgroup) these species were consequently regarded as incertae sedis. Four of the items tested as outgroups, i.e. Capronia nigerrima (0.72), Rhinocladiella mackenziei (0.72), Arthrophiala arthreospora (1.04), and Strelitziana spp. (1.04) had a negative impact on the tree and taken as belonging in Chaetothyriales. Bacillicladium dematidis, Cladophialophora modesta, et Capronia villosa, similar to dothidealean Coccodinium bartschii, appeared as single-species branches in the tree, could not be affiliated to any of the known families and are therefore regarded as incertae sedis. Whether or not these species are members of Chaetothyriales could not be established. The complete tree including these species was compared to the same tree without these species, which led to drop of the ratio to 0.63. The complete tree with Paracladophialophora as outgroup remained the optimal tree, with a high ratio (1.75) of supported/unsupported branches and with a relatively low number of clades. This suggest that the group (Clade 3) represents a separate family, as proposed by Crous et al. (2016).

The best-fit models of evolution obtained for the different datasets were ITS = TVM+I+G, LSU = GTR+I+G, combined sequences = TIM2+I+G. No topological conflicts between the datasets were detected. The ML tree was constructed with GTRGAMMA + I in the CIPRES webserver. Robustness of trees was tested by comparing different algoritms on the individual datasets of LSU and ITS, and the combined dataset, placing accent on the backbone by collapsing all supported clades. The best tree is judged to be the one with the most resolved backbone, i.e. an optimal ratio of supported/unsupported branches, combined with high support values for all clades, starting at the outermost position (lowest value) which was variably taken by Capronia villosa ou Cladophialophora modesta (Fig. 4 Table 3). With these criteria, the Bayesian tree of the combined dataset appeared to be optimal. Nine well-supported clades were recognized, which represent five existing families and several uncharacterized groups.

Outgroup test for long branches base on ML tree. une Cladophialophora modesta as outgroup b Paracladophialophora sp. as outgroup c Rhinocladiella mackenziei as outgroup all species without incertae sedis e all species including incertae sedis

Clade 7 (Chaetothyriaceae) was relatively heterogeneous with low support, most likely caused by undersampling of sequence data as compared to the large diversity described on the natural substrate. One of the two Chaetothyrium species defining family and order, C. brischoficola, was found in this clade in several datasets (Fig. 3). The families Phaeosaccardinulaceae and Strelitzianaceae were found as part of the Chaetothyriaceae cluster their family status is doubtful. Clade 1 (Herpotrichiellaceae) were also found to be diverse and resolved into two groups in some of the trees. The remaining families Cyphellophoraceae (Clad 2), Epibryaceae (Clade 8), and Trichomeriaceae (Clade 6) had consistent support. Three further clades had consistently high support values, i.e. a group of ant-domatia associated species (Clade 4) and two clusters of endolichenic species (Clade 5 and Clade 9).

Famille Trichomeriaceae (Clade 6) comprised 50 strains, ten of which represented as yet undescribed species from an ant carton. Two species, Metulocladosporiella musicola et M. musae, were originally thought to belong to Herpotrichiellaceae (Crous et al. 2006), but in our tree clustered in Trichomeriaceae. The type strains of three species, Cladophialophora pucciniophila, Cladophialophora proteae et Cladophialophora eucalypti also clustered in this clade, although the type species of Cladophialophora, C. ajelloi (= C. carrionii) is a member of Herpotrichiellaceae. Exophiala placitae et Exophiala encephalarti should morphologically belong to Herpotrichiellaceae, but cluster in Trichomeriaceae.

Clade 4 comprised a total of 15 strains originating from ant domatia inside plant stems, known as domatia. Species typically produce sympodial conidia with flat conidial scars, and sometimes have additional catenate conidial states (Wang unpublished data). The clade has sufficient support and ecological homogeneity to be recognized as a separate family. Two species, reported as causing leaf spots on different plant hosts (Crous et al. 2007), described after their plant hosts as Cladophialophora scillae et C. hostae, had exclusively catenate micromorphology. They cluster in one clade with a long branch, and upon taking them as outgroups, the general support values of tree improved (ratio rise from 1.30 to 1.75) consequently, Cladophialophora scillae et C. hostae are listed here as incertae sedis.

Clade 2 with 100% (ML/BI) bootstrap support contains 25 species belonging to family Cyphellophoraceae. Twenty strains described Cyphellophora species are clustered in this clade together with four Phialophora espèce (P. livistona, P. attae, P. capiguarae, et P. intermedia), together with a strain from the ant-made carton strain (CBS 128959). Cyphellophora et Phialophora traditionally differ by conidial shape, either lunate and septate, or subsphaerical, respectively, but the type species of Phialophora, P. verrucosa, is a member of the ‘carrionii-clade’ in Herpotrichiellaceae (de Hoog et al. 2011).

Clade 7 contains 21 species belonging to Chaetothyriaceae. The clade is well-supported in ML and BI trees (73/100). Inter-specific distances are relatively large due to incomplete taxon sampling. Members of this family have been reported since the 19th century after their ascomata on the natural substrate culture and sequence data are available of only a fraction of these. Appropriate description of the family Chaetothyriaceae is therefore as yet impossible.

Clade 8 contains members of Epibryaceae, with 100% ML and 100% BI bootstrap support. The phylogeny of this family also suffers from a severe taxon sampling effect, as of the 47 species listed in Index Fungorum, only seven are available in GenBank. Of these, Epibryon hepaticola clusters at some distance from remaining taxa, but given the poor representation of extant biodiversity this is probably insignificant. Lorsque E. hepaticola was treated as outgroup, the ratio rose from 1.30 to 1.75 consequently, the species is listed as incertae sedis. This clade also contained three species belonging to Cladophialophora, classified as such on the basis of catenate conidia. The original strain of Cladophialophora minutissima was isolated from bryophytes, while other Epibryon species had been described on the basis of their ascomata produced inside moss thalli obviously this Cladophialophora is a cultural state of an Epibryon espèce. Cladophialophora humicola et C. sylvestris were derived from soil and decaying pine needles, respectively. The cladophialophora-type of conidiation is common throughout the entire order Chaetothyriales.

Herpotrichiellaceae (Clade 1) is best represented by sequence data, because a large part of the known species was described from isolates in culture, thus only representing the asexual state. Traditionally, species were described after their ascomata on the natural substrate, classified in the genus Capronia. Index Fungorum lists 89 described species, of which 85 belong to Herpotrichiellaceae and one to Trichomeriaceae. For a total of 119 strains in Herpotrichiellaceae, sequence data were available, including 11 carton fungi. It is unknown whether these are asexual isolates of known sexual species the connection between sexual and asexual morphs has been made only occasionally (Müller et al. 1987 Untereiner 1997). The core structure of Herpotrichiellaceae was poorly resolved. The group fell apart into several, poorly supported subclusters. On the basis of LSU-data, de Hoog et al. (2011) distinguished a number of approximate clades within the family, of which the ‘bantiana-clade’ and the ‘carrionii-clade’ could be recognized. In a third, large remainder of species, numerous novel taxa had been added since 2011 no clades or clusters could be distinguished.

Nomenclature

The order Chaetothyriales was validated by Barr (1987a, b) for epiphytic sooty molds mostly producing setose, clypeolate ascomata containing dark, multi-celled ascospores, with Chaetothyriaceae (Barr 1979) as type family. The invalidly described families Phaeosaccardinulaceae and Euceramiaceae (Batista and Ciferri 1962) were regarded as synonyms (Barr 1987a, b).

Chaetothyriaceae had provisionally been introduced by Hansford (1946) with Chaetothyrium, based on C. guaraniticum Speg., as the type species. The original dried material of the type species, described in 1888, insufficiently allows interpretation. The Index Fungorum lists 76 published names in Chaetothyrium, of which 67 are accepted as members of Chaetothyriaceae. However, GenBank contains only two sequenced species, viz. Chaetothyrium agathis (Liu et al. 2015) and C. bischofiicola (Chomnunti et al. 2012b), both isolated on a single occasion from leaves of tropical plants. It remains uncertain whether this is in accordance with the intention of Spegazzini (1888), but numerous authors maintained the ecological concept of ‘sooty moulds’, i.e. epiphytic colonizers of living plants: at least 64 of the 67 species mentioned above were described from plant leaves, generally without symptoms. In order to stabilize the nomenclatural reference of Chaetothyriales, we herewith propose Chaetothyrium agathis Hongsanan & K.D. Hyde (Liu et al. 2015) as a neotype de Chaetothyrium. Chaetothyrium agathis takes a central position in the clade of Chaetothyriaceae (Fig. 3) and is the reference point of the order Chaetothyriales. Wijayawardene et al. (2020) listed the genus Aithaloderma in the Chaetothyriaceae. Hansford (1946) reexamined the type of A. clavatisporum which displayed a Triposporium asexual state, and reclassified it in Chaetothyrium.

Chaetothyriaceae further comprises the genus Ceramothyrium. This genus is listed with 41 names in Index Fungorum, of which 39 are surmised to belong to Chaetothyriaceae. The type species is Ceramothyrium paivieae (Batista 1956), originally reported from leaves of Paivea langsdortii (= Copaifera langsdorfii Leguminosae) in Brazil. No molecular data are available for this species. Judging from older literature, this genus is also reserved for species colonizing plant leaves, with 37 of 39 species demonstrating this ecology, including the nine species of which LSU sequences are available in GenBank. Of these, Ceramothyrium thailandicum colonizes living leaves of Lagerstroemia (Lythraceae) in Thailand. Awaiting selection of neotype material which is closer to the original type location of Batista (Batista 1956), we regard Ceramothyrium thailandicum as the reference species for Ceramothyrium in the present paper.

Phaeosaccardinula, introduced by Hennings (1905) with type species P. diospyricola on leaves of Diospyros (Ebenaceae) in Amazonian Brazil, contains 47 species in Index Fungorum, of which 41 were regarded as members of Chaetothyriaceae. The genus currently has six synonymous generic names (Table 3), all containing a very small number of species that were mostly discarded for nomenclatural reasons. In accordance with the type species P. diospyricola, nearly all authors in older literature classified plant-colonizing species in the genus. Of three species, LSU sequences are available in GenBank, í.e. P. dendrocalami et P. multiseptata (Yang et al. 2014), and P. ficus (Chomnunti et al. 2012b), all from living plant leaves, in (sub)tropical China and Thailand, respectively. In absence of sequence data of the remaining 39 species of Phaeosaccardinula, we regard these species as representative for the genus, with P. ficus comme reference.

Two species are known in Vonarxia of which V. anacardii is the type species (Batista 1960). The species is in poor condition (van der Aa and von Arx 1986) and is currently judged to be of uncertain affinity (Index Fungorum), while V. vagans has been sequenced and described by several authors (Réblová et al. 2013 Crous et al. 2009). That taxon, based on Ypsilonia vagans Speg. on leaves of Spiraea cantonensis (Rosaceae) in Brazil, has setose sporodochia with splayed stauroconidia. Crous et al. (2009) epitypified the species with CBS 123533 as the type culture. Given the unclear status of the type species V. anacardii, we might regard V. vagans as a reference species for the genus Vonarxia, but it should be noted that it is also the type species of Kazulia (Raj 1977). The morphologically similar genus Fumagopsis was described by Spegazzini (1910) with F. triglifioides, on living leaves of Lucuma neriifolia (Sapotaceae) in Argentina, as the type species. Using the dried herbarium specimen of the holotype, van der Aa and van Oorschot (1985) redescribed this specimen. It is characterized by setose sporodochia bearing stauroconidia, similar to those of Vonarxia vagans but differing by the conidia being pronouncedly multicellular. Fumagopsis triglifioides has as yet not been sequenced. Three species records of Fumagopsis are listed in Index Fungorum, but only one, F. stellae, CBS 145078 from leaves of Eucalyptus (Myrtaceae) in Australia, has been deposited in NCBI. This species had similar morphology, with setose sporodochia and multicellular stauroconidia on the natural substrate, and sequences placed it in Chaetothyriales (Crous et al. 2018). Numerous other sporodochial, morphologically reminiscent genera have been described, such as Zelopelta (Sutton and Gaur 1984), Phalangispora (Nawawi and Webster 1982), which are in need of modern sequence data.

Four small genera were recently described for which sequence data are available, i.e. Aphanophora, Arthrophiala, et Camptophora. All type species of these genera (Table 3) cluster in the supported clade of Chaetothyriaceae (Fig. 3), all at relatively long branches, underlining their position as separate genera. Nullicamyces clusters amidst species of Ceramothyrium in a cluster that is however not supported (Fig. 3). Stanhughesia was described as Ceramothyrium asexual states (Constantinescu et al. 1989). Species of Microcallis have been reclassified in Chaetothyrina which is a genus of Micropeltidaceae.

Cyphellophoraceae was introduced by Réblová and Untereiner (Réblová et al. 2013) with Cyphellophora (de Vries 1962) as the type genus and C. laciniata as the type species. CBS 190.61 is available as the type strain, and the taxon has several genes in GenBank. Currently, 28 species have been described in the genus, two of which were transferred as independent genera of Chaetothyriaceae (C. eugeniae as type of Anaphora, et C. hymeloconis as type of Camptophora) and one, C. suttonii, has been excluded. Another genus of this family is Anthopsis, based on A. deltoidea as type species with CBS 263.77 as type strain (Moussa et al. 2017a, b).

Trichomeriaceae was introduced by Chomnunti et al. (2012b) with Trichomerium as type genus. This genus is based on the sooty mold Limacinia coffeicola Puttemans [non Phaeosaccardinula coffeicola (Maharachchikumbura et al. 2018)] as the type species (Puttemans 1904). Reynolds (1983) judged this species as being close to or identical to T. grandisporum, which he considered as the only recognized species in Trichomerium with a large number of synonymous names. No living ex-type material was available to recent authors (Chomnunti et al. 2012a), who consequently took T. foliicola, with sequence data, as reference for genus and family. From their extensive illustrations of the sexual state of this fungus, it appears that the ascigerous fruit bodies of Trichomerium are morphologically very similar to those of Capronia, the rather monomorphic sexual state observed in numerous species of Herpotrichiellaceae. Conidia were not observed, but several members of Trichomeriaceae [e.g. Trichomerium gloeosporum (Hongsanan et al. 2016a) and T. changmaiensis (Maharachchikumbura et al. 2018)] produce elaborate stauroconidia.

La famille Epibryaceae was introduced by (Gueidan et al. (2014) with Epibryon (Döbbeler 1978, 1980) as type genus which has Epibryon plagiochilae as the type species. This species was described with molecular data by Stenroos et al. (2010a, b) in a detailed overview of the genus, and is accepted here as reference for this group of phylogenetically consistent moss endophytes.

The best-known family in the order Chaetothyriales is Herpotrichiellaceae, introduced by Munk (1953) with Herpotrichiella (Petrak 1914) as the type genus. Herpotrichiella moravica was selected as the type species, which is considered to be a synonym of Capronia pilosella (Untereiner 1997). Consequently, the currently accepted name for Herpotrichiella is that of its older synonym Capronia, introduced by Saccardo (1883) with Capronia sexdecimspora (Cooke) Sacc. as type species, characterized by setosa ascomata with asci containing 16 hyaline, 3-4-septate ascospores. As no interpretable type material of this species is available, the identity of this species remains uncertain. As yet, none of the species with 16-spored asci has been sequenced, and thus replacement of C. sexdecimspora by an extant neotype is difficult and the exact position of the reference for Capronia in the Herpotrichiellaceae remains uncertain. We propose to stabilize the nomenclature of Herpotrichiellaceae by selecting Capronia pilosella AFTOL 657 as reference for the family.

A large number of Capronia species has been subsequently described (e.g. Barr 1987a, b Friebes 2012), of which Index Fungorum considers 81 to be of chaetothyrialean affinity. The family Herpotrichiellaceae comprises 30 generic names (Table 3), which are principally available for a future taxonomic rearrangement with phylogenetic affinity as leading principle and which therefore are in need of redefinition with reference material. The oldest name of these is Berlesiella, based on Sphaeria nigerrima Bloxam 1859, which in spite of absence of usable type material is now considered to be Capronia nigerrima (Barr 1991). Sequenced material of this species is available from Untereiner and Naveau (1999) who used strain CBS 513.69 described by Müller et al. (1987). Caproniella was introduced (Berlese 1896) with Melanomma pleiosporum as a single species, now known as Capronia pleisporum (MycoBank), but no recent material is known to be available. Berlese (1899) used Caproniella avec Sphaeria sexdecimspora as the type. This generic name is superfluous as S. sexdecimspora was the type of Capronia, et Caproniella Berlese 1899 is a later homonym of Caproniella Berlese 1896. For these reasons we consider Caproniella comme un nomen confusum. Moussa et al. (2017a, b) noted that Foxia et Melanchlenus were invalid due to absence of descriptions in the protologues. Most of the remaining genera are represented by extant type strains with molecular data (Table 3).

Ecology and evolution

Members of Chaetothyriales have a rich ecological diversity, with a general tendency to extremotolerance (Gostincar et al. 2019) and toxin management (Teixeira et al. 2017). The difficulty to isolate the fungi from the environment (Sudhadham et al. 2008, Vicente et al. 2008) interferes with understanding of the preferred ecological niche. Available data may provide distorted information since unspecific habitats may have been sampled thus far. Par exemple, Cyphellophora europaea is commonly encountered colonizing human nails. It has been found in bathrooms where this fungus is likely to have been acquired by the patients. A natural habitat has not been found, but colonization of moist surfaces suggests oligotrophy. For only a small number of species of Cyphellophoraceae, environmental data are available. Numerous species have been described from a single strain on a single host plant, without indication of a specific plant-pathogenic lifestyle. We have assumed oligotrophy for these species as well, listing them as colonizers of the phyllosphere with an epiphytic lifestyle.

Ecologies of 254 strains and their relatives in Chaetothyriales were investigated (Table 1). Many species of Chaetothyriales have been described from single collections and hence epidemiological investigations are problematic. Habitat data were abstracted from the sampling sites of strains described in the original publications, supplemented with a summary of ecological trends per species abstracted from the literature. Seven categories were summarized as follows, ‘epilithic/lichenolytic’ (on bare or parasitizing on lichens), ‘epiphytic’ (colonizing plant leaves without symptoms), ‘opportunistic’ (deep, single- or multi-organ infection in humans, also infection in cold-blooded vertebrates), ‘carton’ (carton of chewed wood in ant nests), ‘domatium’ (ant nest inside living plant stem), ‘bryophytic’ (endophytic in mosses), and ‘other’ (aquatic, fungicolous, in soil). Members of the family Herpotrichiellaceae showed highly diverse ecological sources. In a total of 119 strains, five ecologies were distinguished. In the main categories, 38 strains derived from opportunistic infections, 30 from other, 36 were epiphytic, 4 were epilithic/lichenolytic, while 11 as yet undescribed strains had been isolated from carton material in ant nests.

Available information on members of Cyphellophoraceae was scant, not allowing definitive conclusions. Several species were isolated from living plants, but it remained unclear whether this was an infectious process, or epiphytic growth without notable invasion. Data are abstracted from a summary given by Feng et al. (2014). Cyphellophora europaea is the only common species of the family. It is a commensal or mild infectious agent on human skin and nails, and was repeatedly isolated in bathrooms where the fungus was suggested to be picked up (Lian and de Hoog 2010) for this reason, we prefer ‘opportunistic’ as its ecology. In total, four ecology types are observed in this family. Given the frequent plant origin without clear description of disease, we listed the main ecology as ‘epiphytic’ (44%).

Members of Trichomeriaceae are surface colonizers: 42 % of the species were isolated from rock. Knufia epidermidis was originally described as repeatedly being involved in mild nail infections (Li et al. 2008), but Zakharova et al. (2013) found the same fungus occurring as a rock colonizer with an ecology similar to remaining Knufia espèce. 38 % of members of Trichomeriaceae reportedly were derived as ‘sooty molds’ from plants which often had somewhat leathery leaves. Since these were single sampling events and no reports about plant disease have been published, we listed all species as being epiphytic. The species of Bradymyces had single isolation events (rock and fish) for which no common denominator could be found.

Members of Chaetothyriaceae have nearly always been reported from living plants. Detection was generally by ascomata on the natural substrate, which eventually were immersed on a stroma fixed to the undamaged host tissue. We listed those members as ‘epiphytic’ only 10% of the species were described from other habitats.

Clade 4 contains a major subclade of 15 strains that were derived exclusively from domatia of tropical ants. The second subclade contained two species with cladophialophora-like morphology which caused leaf spots on their host plants they are known from single sampling events. Two more undescribed clades (Clades 5 and 9) were noted which all were derived from rock environments (Muggia et al. 2020).

Epibryon species are fungi forming small ascomata inside moss tissue. Index Fungorum lists 48 species, most of which have been described after material on the host and could not be included in this study for lack of sequence information. Three cladophialophora-like species clustered in the Epibryaceae, of which C. minutissima was derived from mosses without observation of the ascigerous state. The ecologies of the five cultured Epibryon species are consistently bryophilous.

Of the distinguished ecological categories, epilithic and epiphytic are commonly encountered in several families (Herpotrichiellaceae, Trichomeriaceae, Cyphellophoraceae, Chaetothyriaceae, and Clades 5 and 9). Also carton-material of ant nests and tunnels is widely distributed (Herpotrichiellaceae, Trichomeriaceae and Cyphellophoraceae). Human infection is nearly exclusively found in Herpotrichiellaceae, occasionally in Trichomeriaceae, and restricted to mild, superficial infections in Cyphellophoraceae. Infections in cold-blooded vertebrates are restricted to Herpotrichiellaceae. Dominant ecology in Clades 9 and 5 is ‘epilithic’ in Epibryaceae this is ‘bryophytic’, in Clade 4 ‘ant-domatium associated’, in Chaetothyriaceae ‘epiphytic’, and in Trichomeriaceae it is ‘epiphytic’. The overview contains 39 ant-associated strains, isolated either from carton material of nests and tunnels, or from domatia inside living plants. The latter type (15 entries) is restricted to Clade 4, while carton-associated species (24 entries) have a wide distribution in Herpotrichiellaceae, Trichomeriaceae and Cyphellophoraceae and are not found in Clade 4, confirming data of Voglmayr et al. (2011) and Nepel et al. (2014).

The evolutionary time estimation (Fig. 1) reveals that the Chaetothyriales crown order emerged in the late Devonian Period. Between the end of the Cretaceous, i.e. 151.69 Mya, the family was split, separating Clade 8, Epibryion hepaticola M10, Clade 9 and Capronia villosa from the remaining species. Fundamental speciation events occurred through the Cretaceous and Paleocene periods. The formation of the family Chaetothyriaceae (Clade 7) appears ancestral, starting about 122 Mya. The diversification of the family Herpotrichiellaceae was later, around 111 Mya (Fig. 1).

Ancestral character state reconstruction

In a first step, ecological traits were plotted model-free on to the phylogeny via the function ‘phenogram’ over time, in order to determine approximate number of ancestral trait changes (Fig. 5). Seven major directions of trait evolution are obvious (1–7 in Fig. 5). Although the phenogram does not indicate the exact ancestral state to the Chaetothyriales, particularly the traits ‘epiphytic’ and ‘epilithic-lichenicolous’ (branching point 1) suggests ancestry as a ‘epilithic-lichenicolous-epiphytic’ type. This assumption is strongly supported by absence of early overlapping trait changes. Branching point 1 gave rise to at least 3 major traits (branching points 2–4), which subsequently led to a strong lineage diversification and occupation of vacant ecological space leading to extant traits. During this process, most traits underwent multiple trait shifts visualized by overlapping branches, which is apparent for the epiphytic (branching points 2, 3 and 6) and the opportunistic characters (branching points 6, 7). Particularly the opportunistic trait appears to have sourced its extant trait from a strong random walk of ancestral intermediate traits (strong branch/line overlap). Traits ‘carton’, ‘domatia’ and ‘bryophytic’ have a non-random distribution. ‘Carton’ has diversified from early ancestral branching point (5), with almost no overlap to other traits.

Quantitative trait simulation among the phylogeny inferred via the R package ‘PHYTOOLS’. The plot depicts phenotypic distribution over the phylogeny and its associated changes over time. While it is similar the Brownian motion phenogram, the quantitative trait simulation does not depict the stochastically mapped character on to the phylogeny, and with that the phenotypic changes estimated for each branch, neither the relative evolutionary rate ratio (σ parameter) for each phenotype. Instead, it visualizes trait changes, uniformity and discreteness of such changes over time in a more comprehensive way. Branching points indicate approximated major directions of phenotypic changes at the root node to the entire order Chaetothyriales. X-axis depicts relative time for the phenotype (ecology) to evolve given the underlying phylogeny. Y-axis depicts relative phenotypic categories