De rode panda en Cserhati (11): clustering op mtDNA
Naast WGKS gebruikt Cserhati ook mitochondriaal DNA voor een indeling van de rode panda. Hij gebruikt het volledige mtDNA zoals opgegeven in GenBank voor 52 soorten: 15 soorten en ondersoorten van de familie beren, de twee ondersoorten van de rode panda, drie soorten stinkdieren, 30 soorten van de familie marterachtigen, en nu ook twee soorten van de familie van de wasbeer, de wasbeer zelf en de neusbeer.
Cserhati begint weer met het maken van een heat map om de correlatie matrix tussen de soorten weer te geven. Cserhati schrijft:
Three larger
clusters and two smaller clusters are visible in the heat map.
Dat kan
moeilijk kloppen.
Het lijkt
meer op twee heel grote clusters; of een stuk of acht of zelfs negen clusters.
Cserhati geeft de matrix met correlaties in mtDNA tussen de 52 soorten in Additional File 2. Die correlatie matrix heb ik overgenomen in Excel, en wat gesorteerd zodat de rode panda's, de wasbeer, de neusbeer en de stinkdieren naast elkaar staan, en daarna ingekleurd met de hoog-laag kleurmogelijkheid in Excel. Dan komt de volgende versie van Cserhati's matrix te voorschijn:
Bij de kleuren valt als eerste de verdeling in twee grote groepen op: de beren Ursidae en de superfamilie Musteloidea met de vier families Mephitidae, Ailuridae, Procyonidae en Mustelidae. Dat is ongeveer de grens geler/ roder.
Dit komt ook
naar voren in de clustering die Cserhati geeft. De eerste splitsing in clusters
is tussen de Ursidae en de Musteloidea. Twee clusters is wat de gegevens
zeggen.
Tabel 3 van Cserhati met kleine aanpassing uit Additional file 2. Min, Max verwijzen naar laagste en hoogste correlatie van een groep. Mean en StDev naar gemiddeldeen standaard deviatie van de correlaties van een groep. P-waarde moet slaan op de clustering.
Even goed kijken
om de marterachtigen Mustelidae te zien: hun correlaties zijn net groener van
tint ingekleurd, niet zo gelig ingekleurd als de correlaties met de overige
soorten van de superfamilie Musteloidea. Binnen de Mustelidae zien we mooie
groene gebieden. Als je dit zo ziet lijkt het er veel op dat er clusters zitten
binnen de Mustelidae: een grote familie met onderfamilies. De wezels lijken een
cluster te geven dat net zo goed is als de familie stinkdieren, bijvoorbeeld.
Zoiets
bijvoorbeeld:
Figuur 3.
Heatmap waarin de grootte van de correlaties in mtDNA tussen de soorten zichtbaar
is. Groener is hoge correlatie, roder is lage correlatie, geel er tussen in. Families
en (min of meer) onderfamilies hebben nu
een kadertje gekregen. Figuur 3 van Cserhati BMC Genomics met de soorten op
andere volgorde. |
Waarom komt Cserhati dan op vijf clusters uit?
Niet op grond
van statistiek. Er is Additional file 5: Figure S3:
Plot showing the mean silhouette width according to the number of clusters for the mitochondrial data, based on the ‘silhouette’ method. The maximum average silhouette width is 0.51 for two clusters.
Er is ook deze figuur, Additional Figure S3 uit het CRSQ artikel. Het optimale aantal clusters is twee, en vijf, zes, zeven, acht of tien clusters zijn iets minder goede maar onderling even goede mogelijkheden. Ik heb acht clusters omkaderd in figuur 3 hier; vijf clusters is geen betere oplossing dan acht.
Figuur 5 Clusterwijdte bij verschillende aantallen clusters, en optimaal aantal clusters, voor de mitochondriale gegevens.
Statistisch had Cserhati beter bij twee clusters, familie Ursidae en superfamilie Musteloidea kunnen blijven. Op grond van clustering is acht clusters een even goede oplossing als vijf clusters.
Het lijkt
erop dat Cserhati de voorkeur geeft aan vijf clusters omdat er soorten uit vijf
families in de data zitten. Dat houdt in de clustering overbodig was -
de uitslag was bekend.
***
Cserhati, M., 2021, A tail of two pandas – whole
genome k-mer signature analysis of the red panda (Ailurus fulgens) and the
Giant panda (Ailuropoda melanoleuca), BMC Genomics 22: 228
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-021-07531-3
https://creationismeweersproken.blogspot.com/2023/01/de-rode-panda-en-cserhati-8-clustering.html
Reacties
Een reactie posten