De rode panda en Cserhati (8): clustering
Cserhati gebruikt twee technieken voor de plaatsing van de rode panda en de reuzenpanda op grond van de Whole Genome K-mer Signatures: een fylogenetische boom en clustering.
Cserhati legt
niet veel nadruk op de fylogenetische boom op grond van zijn WGKS gegevens van
28 soorten, maar geeft ruim aandacht aan clustering. In zijn analyse maakt hij
een correlatiematrix, de paarsgewijze correlaties van de octamer signatures van
de soorten. Deze matrix geeft hij weer in een 'heatmap' waarin de grootte van
de correlatie weergegeven wordt op een licht-donker schaal. Op
grond van deze matrix gaat Cserhati clusters zoeken.
The last step (in
the analysis) involves visualizing the PCC in a heatmap and using clustering
algorithms to detect monophyletic groups.
"Using
clustering algorithms to detect monophyletic groups".
Kan dat?
Kun
je groepen met gezamenlijke afstamming, monofyletische groepen, vinden of
definiëren door clustering?
1 Clustering geeft overeenkomst, geen
fylogenie
Bij clustering
hebben we een groot aantal onafhankelijke individuen (personen, scholen, auto's,
muziekstukken, landen) elk met een aantal kenmerken. Bij clustering zoeken we
wie op wie lijkt, of er groepen te definiëren zijn zodat elk individu binnen de
groep meer op elk ander individu in die groep lijkt dan op een individu in de
andere groep. Zo'n groep heet een cluster. Een cluster geeft overeenkomst aan. Afstamming
is niet aan de orde bij clustering. Ook niet monofylie, dat is gezamenlijke afstamming.
2 Een fylogenie geeft clustering
Als we een
fylogenie hebben, en daar soorten uit kiezen: bv 5 apen, 5 knaagdieren, 5
runderen, 5 vleermuizen, en er een een clustering programma op loslaten,
krijgen we gegarandeerd 4 clusters, met elk 5 soorten. We hebben namelijk
bestaande groepen ingevoerd, en dan vind je terug wat je erin stopt.
In de
fylogenie van de orde roofdieren Carnivora hebben we de families katten
Felidae, beren Ursidae en de superfamilie Musteloidea. Als Cserhati clustering
loslaat op 28 soorten roofdieren die bij deze monofyletische groepen horen,
vindt hij drie clusters: katten, beren en Musteloidea. Cserhati heeft soorten uit drie
monofyletische groepen in een cluster analyse gestopt, en dan vind je die
monofyletische groepen terug.
3 Een monofyletische groep geeft een
monofyletisch cluster
Niet andersom.
Een groep soorten is niet monofyletisch omdat ze samen in een cluster zitten,
ze zitten in een cluster omdat ze monofyletisch zijn.
4 Op grond van clustering kan niet tot
monofylie besloten worden.
'Cluster' en
'monofyletische groep' zullen vaak samenvallen als er biologische soorten voor
clustering gebruikt worden, maar bij clustering van een aantal soorten
zeehonden met Poiana leightoni, Poiana richardsonii (linsangs uit
Afrika), Prionodon linsang en Prionodon pardicolor (linsangs uit Azië)
krijgen we (vermoedelijk) twee clusters, een met de zeehonden en een met de
linsangs. Dit terwijl de Aziatische linsangs en de Afrikaanse linsangs niet tot
dezelfde familie of superfamilie behoren. Zo'n linsang cluster is heterogeen.
Niets in clustering op zich vertelt dat een cluster monofyletisch zou zijn.
5 Clustering en invoer
Het aantal clusters hangt af van de reikwijdte van de invoer. Bij de 28 soorten met WGKS data van Cserhati is er een cluster katten, een cluster beren en een cluster Musteloidea. Er zijn 12 soorten in het cluster Musteloidea en dit cluster splitst niet verder op. Bij Cserhati's analyse op mtDNA zijn er 37 soorten Musteloidea, en de Musteloidea splitsen op in 4 clusters: nl de vier monofyletische families Mephitidae, Ailuridae, Procyoniidae en Mustelidae - die clusters geven omdat ze een monofyletische familie zijn. De Mustelidae splitsen hier niet verder op, maar wezels, marters en otters invoeren kan tot drie clusters leiden.
6 Een fylogenie is hiërarchisch, clustering
niet
Clustering
kan geen hiërarchische structuur in de gegevens weergeven. De hiërarchie in de
indeling van de levende wezens zie je pas bij herhaling van clustering invoer
van verschillende reikwijdte (zie voorbeeld onder punt 5). Dit betekent dat clustering van biologische groepen geen goede weergave van de hiërarchische groepsstructuur geeft.
7 Clusters hebben niets met verwantschap te
maken
Clusters
geven alleen de optimale splitsing van de gegevens, niets over verwantschap,
niet binnen en ook niet tussen clusters. Verwantschap volgt uit de fylogenie.
Voor
voorbeelden, zie onder punten 4 en 5. De familie Mustelidae is monofyletisch en
de soorten zijn verwant, maar als je otters, wezels en marters in een
clusterprogramma stopt, zul je verschillende clusters vinden. De families van
de monofyletische superfamilie Musteloidea zijn verwant, maar in een
clusterprogramma komen ze wel als cluster naar voren bij voldoende reikwijdte van de invoer. Als alle soorten katten
in een clusterprogramma gestopt worden, krijg je een cluster 'grote katten' en
een cluster 'kleine katten'. De 'grote katten' en de 'kleine katten' zijn
verwant, ondanks dat ze in verschillende clusters terecht komen.
8 Clustering is een statistisch trucje, geen
biologische indeling
Een fylogenie is biologie, clustering
statistiek.
Al met al, "using
clustering algorithms to detect monophyletic groups" laat geen inzicht in
clustering of fylogenie of biologie zien. Uit het bestaan van een cluster kan niet tot
monofylie besloten worden. Uit het bestaan van twee clusters kan niet besloten worden dat de soorten in de verschillende clusters niet verwant zijn.
Cserhati, M., 2021, A tail of two pandas – whole
genome k-mer signature analysis of the red panda (Ailurus fulgens) and the
Giant panda (Ailuropoda melanoleuca), BMC Genomics 22: 228
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-021-07531-3
*******
Twee keer een
Google vraag met het eerste antwoord:
1 'what is
the difference between a cluster and a clade?'
A cluster is defined by resemblance, which may or may
not reflect common ancestry, while a clade is defined entirely on proving
common ancestry through logical deduction, despite what may be an apparent lack
of resemblance.
2 'is
clustering the same as classification?'
What is the Basic
Difference Between Classification and Clustering? Classification sorts
data into specific categories using a labeled dataset. Clustering
is partitioning an unlabeled dataset into groups of similar objects.
https://blog.bismart.com/en/classification-vs.-clustering-a-practical-explanation
Classification Vs. Clustering - A Practical
Explanation
Classification and clustering are two methods of
pattern identification used in machine learning. Although both techniques have
certain similarities, the difference lies in the fact that classification uses
predefined classes in which objects are assigned, while clustering identifies
similarities between objects, which it groups according to those
characteristics in common and which differentiate them from other groups of
objects. These groups are known as "clusters".
Reacties
Een reactie posten