De rode panda en Cserhati (8): clustering

Cserhati gebruikt twee technieken voor de plaatsing van de rode panda en de reuzenpanda op grond van de Whole Genome K-mer Signatures: een fylogenetische boom en clustering.

Cserhati legt niet veel nadruk op de fylogenetische boom op grond van zijn WGKS gegevens van 28 soorten, maar geeft ruim aandacht aan clustering. In zijn analyse maakt hij een correlatiematrix, de paarsgewijze correlaties van de octamer signatures van de soorten. Deze matrix geeft hij weer in een 'heatmap' waarin de grootte van de correlatie weergegeven wordt op een licht-donker schaal. Op grond van deze matrix gaat Cserhati clusters zoeken.

The last step (in the analysis) involves visualizing the PCC in a heatmap and using clustering algorithms to detect monophyletic groups.

"Using clustering algorithms to detect monophyletic groups".

Kan dat? 

Kun je groepen met gezamenlijke afstamming, monofyletische groepen, vinden of definiëren door clustering?

 

1       Clustering geeft overeenkomst, geen fylogenie

Bij clustering hebben we een groot aantal onafhankelijke individuen (personen, scholen, auto's, muziekstukken, landen) elk met een aantal kenmerken. Bij clustering zoeken we wie op wie lijkt, of er groepen te definiëren zijn zodat elk individu binnen de groep meer op elk ander individu in die groep lijkt dan op een individu in de andere groep. Zo'n groep heet een cluster. Een cluster geeft overeenkomst aan. Afstamming is niet aan de orde bij clustering. Ook niet monofylie, dat is gezamenlijke afstamming.

 

2       Een fylogenie geeft clustering

Als we een fylogenie hebben, en daar soorten uit kiezen: bv 5 apen, 5 knaagdieren, 5 runderen, 5 vleermuizen, en er een een clustering programma op loslaten, krijgen we gegarandeerd 4 clusters, met elk 5 soorten. We hebben namelijk bestaande groepen ingevoerd, en dan vind je terug wat je erin stopt.

In de fylogenie van de orde roofdieren Carnivora hebben we de families katten Felidae, beren Ursidae en de superfamilie Musteloidea. Als Cserhati clustering loslaat op 28 soorten roofdieren die bij deze monofyletische groepen horen, vindt hij drie clusters: katten, beren en Musteloidea. Cserhati heeft soorten uit drie monofyletische groepen in een cluster analyse gestopt, en dan vind je die monofyletische groepen terug.  

 

3       Een monofyletische groep geeft een monofyletisch cluster

Niet andersom. Een groep soorten is niet monofyletisch omdat ze samen in een cluster zitten, ze zitten in een cluster omdat ze monofyletisch zijn.

 

4       Op grond van clustering kan niet tot monofylie besloten worden.

'Cluster' en 'monofyletische groep' zullen vaak samenvallen als er biologische soorten voor clustering gebruikt worden, maar bij clustering van een aantal soorten zeehonden met Poiana leightoni, Poiana richardsonii (linsangs uit Afrika), Prionodon linsang en Prionodon pardicolor (linsangs uit Azië) krijgen we (vermoedelijk) twee clusters, een met de zeehonden en een met de linsangs. Dit terwijl de Aziatische linsangs en de Afrikaanse linsangs niet tot dezelfde familie of superfamilie behoren. Zo'n linsang cluster is heterogeen. Niets in clustering op zich vertelt dat een cluster monofyletisch zou zijn.

 

5       Clustering en invoer

Het aantal clusters hangt af van de reikwijdte van de invoer. Bij de 28 soorten met WGKS data van Cserhati is er een cluster katten, een cluster beren en een cluster Musteloidea. Er zijn 12 soorten in het cluster Musteloidea en dit cluster splitst niet verder opBij Cserhati's analyse op mtDNA zijn er 37 soorten Musteloidea, en de Musteloidea splitsen op in 4 clusters: nl de vier monofyletische families Mephitidae, Ailuridae, Procyoniidae en Mustelidae - die clusters geven omdat ze een monofyletische familie zijn. De Mustelidae splitsen hier niet verder op, maar wezels, marters en otters invoeren kan tot drie clusters leiden.

 

6       Een fylogenie is hiërarchisch, clustering niet

Clustering kan geen hiërarchische structuur in de gegevens weergeven. De hiërarchie in de indeling van de levende wezens zie je pas bij herhaling van clustering invoer van verschillende reikwijdte (zie voorbeeld onder punt 5). Dit betekent dat clustering van biologische groepen geen goede weergave van de hiërarchische groepsstructuur geeft. 

 

7       Clusters hebben niets met verwantschap te maken

Clusters geven alleen de optimale splitsing van de gegevens, niets over verwantschap, niet binnen en ook niet tussen clusters. Verwantschap volgt uit de fylogenie.

Voor voorbeelden, zie onder punten 4 en 5. De familie Mustelidae is monofyletisch en de soorten zijn verwant, maar als je otters, wezels en marters in een clusterprogramma stopt, zul je verschillende clusters vinden. De families van de monofyletische superfamilie Musteloidea zijn verwant, maar in een clusterprogramma komen ze wel als cluster naar voren bij voldoende reikwijdte van de invoer. Als alle soorten katten in een clusterprogramma gestopt worden, krijg je een cluster 'grote katten' en een cluster 'kleine katten'. De 'grote katten' en de 'kleine katten' zijn verwant, ondanks dat ze in verschillende clusters terecht komen.

 

8       Clustering is een statistisch trucje, geen biologische indeling

 Een fylogenie is biologie, clustering statistiek.

 

Al met al, "using clustering algorithms to detect monophyletic groups" laat geen inzicht in clustering of fylogenie of biologie zien. Uit het bestaan van een cluster kan niet tot monofylie besloten worden. Uit het bestaan van twee clusters kan niet besloten worden dat de soorten in de verschillende clusters niet verwant zijn.

 

Cserhati, M., 2021, A tail of two pandas – whole genome k-mer signature analysis of the red panda (Ailurus fulgens) and the Giant panda (Ailuropoda melanoleuca), BMC Genomics 22: 228

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-021-07531-3

 

*******

 

Twee keer een Google vraag met het eerste antwoord:

1       'what is the difference between a cluster and a clade?'

http://dgmweb.net/DNA/General/Cluster_vs_Clade.html#:~:text=A%20cluster%20is%20defined%20by,an%20apparent%20lack%20of%20resemblance.

A cluster is defined by resemblance, which may or may not reflect common ancestry, while a clade is defined entirely on proving common ancestry through logical deduction, despite what may be an apparent lack of resemblance.

 

2       'is clustering the same as classification?'

What is the Basic Difference Between Classification and Clustering? Classification sorts data into specific categories using a labeled dataset. Clustering is partitioning an unlabeled dataset into groups of similar objects.

https://blog.bismart.com/en/classification-vs.-clustering-a-practical-explanation

Classification Vs. Clustering - A Practical Explanation

Classification and clustering are two methods of pattern identification used in machine learning. Although both techniques have certain similarities, the difference lies in the fact that classification uses predefined classes in which objects are assigned, while clustering identifies similarities between objects, which it groups according to those characteristics in common and which differentiate them from other groups of objects. These groups are known as "clusters".

 

Reacties