De rode panda en Cserhati (11): clustering op mtDNA

Naast WGKS gebruikt Cserhati ook mitochondriaal DNA voor een indeling van de rode panda. Hij gebruikt het volledige mtDNA zoals opgegeven in GenBank voor 52 soorten: 15 soorten en ondersoorten van de familie beren, de twee ondersoorten van de rode panda, drie soorten stinkdieren, 30 soorten van de familie marterachtigen, en nu ook twee soorten van de familie van de wasbeer, de wasbeer zelf en de neusbeer.

Cserhati begint weer met het maken van een heat map om de correlatie matrix tussen de soorten weer te geven. Cserhati schrijft:

Three larger clusters and two smaller clusters are visible in the heat map.

Dat kan moeilijk kloppen.

Het lijkt meer op twee heel grote clusters; of een stuk of acht of zelfs negen clusters.

Figuur 1. Heatmap waarin de grootte van de correlaties in mtDNA tussen de soorten zichtbaar is. De rode panda's, familie Ailuridae, zijn hier ver van de van stinkdieren Mephitidae en de  wasbeer en neusbeer Procyonidae geplot. Lichter is hogere correlatie, donkerder is lagere correlatie.  Figuur 3 van Cserhati BMC Genomics.

Cserhati geeft de matrix met correlaties in mtDNA tussen de 52 soorten in Additional File 2. Die correlatie matrix heb ik overgenomen in Excel, en wat gesorteerd zodat de rode panda's, de wasbeer, de neusbeer en de stinkdieren naast elkaar staan, en daarna ingekleurd met de hoog-laag kleurmogelijkheid in Excel. Dan komt de volgende versie van Cserhati's matrix te voorschijn:

 

Figuur 2. Heatmap waarin de grootte van de correlaties in mtDNA tussen de soorten zichtbaar is. Groener is hoge correlatie, roder is lage correlatie, geel er tussen in.  Figuur 3 van Cserhati BMC genomics met de soorten op andere volgorde en andere kleur.

Bij de kleuren valt als eerste de verdeling in twee grote groepen op: de beren Ursidae en de superfamilie Musteloidea met de vier families Mephitidae, Ailuridae, Procyonidae en Mustelidae. Dat is ongeveer de grens geler/ roder.

Dit komt ook naar voren in de clustering die Cserhati geeft. De eerste splitsing in clusters is tussen de Ursidae en de Musteloidea. Twee clusters is wat de gegevens zeggen.

Tabel 3 van Cserhati met kleine aanpassing uit Additional file 2. Min, Max verwijzen naar laagste en hoogste correlatie van een groep. Mean en StDev naar gemiddeldeen standaard deviatie van de correlaties van een groep. P-waarde moet slaan op de clustering.


Cserhati gaat door naar vijf clusters, die elk een familie vertegenwoordigen. Waarom stopt hij daar? Waarom komt Cserhati niet met clusters binnen de familie Mustelidae?

Even goed kijken om de marterachtigen Mustelidae te zien: hun correlaties zijn net groener van tint ingekleurd, niet zo gelig ingekleurd als de correlaties met de overige soorten van de superfamilie Musteloidea. Binnen de Mustelidae zien we mooie groene gebieden. Als je dit zo ziet lijkt het er veel op dat er clusters zitten binnen de Mustelidae: een grote familie met onderfamilies. De wezels lijken een cluster te geven dat net zo goed is als de familie stinkdieren, bijvoorbeeld.

Zoiets bijvoorbeeld:


Figuur 3. Heatmap waarin de grootte van de correlaties in mtDNA tussen de soorten zichtbaar is. Groener is hoge correlatie, roder is lage correlatie, geel er tussen in. Families en (min of meer) onderfamilies  hebben nu een kadertje gekregen. Figuur 3 van Cserhati BMC Genomics met de soorten op andere volgorde.

Waarom komt Cserhati dan op vijf clusters uit?

Niet op grond van statistiek. Er is Additional file 5: Figure S3:


Plot showing the mean silhouette width according to the number of clusters for the mitochondrial data, based on the ‘silhouette’ method. The maximum average silhouette width is 0.51 for two clusters.

Er is ook deze figuur, Additional Figure S3 uit het CRSQ artikel. Het optimale aantal clusters is twee, en vijf, zes, zeven, acht of tien clusters zijn iets minder goede maar onderling even goede mogelijkheden. Ik heb acht clusters omkaderd in figuur 3 hier; vijf clusters is geen betere oplossing dan acht.

 

Figuur 5 Clusterwijdte bij verschillende aantallen clusters, en optimaal aantal clusters, voor de mitochondriale gegevens. 

Statistisch had Cserhati beter bij twee clusters, familie Ursidae en superfamilie Musteloidea kunnen blijven. Op grond van clustering is acht clusters een even goede oplossing als vijf clusters.

Het lijkt erop dat Cserhati de voorkeur geeft aan vijf clusters omdat er soorten uit vijf families in de data zitten. Dat houdt in de clustering overbodig was - de uitslag was bekend.  

 

***

 

Cserhati, M., 2021, A tail of two pandas – whole genome k-mer signature analysis of the red panda (Ailurus fulgens) and the Giant panda (Ailuropoda melanoleuca), BMC Genomics 22: 228

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-021-07531-3

https://creationismeweersproken.blogspot.com/2023/01/de-rode-panda-en-cserhati-8-clustering.html

Reacties