Metodi matematici nella cladistica filogenetica

Dichiaro da subito che non ho alcuna competenza specifica nella materia; volevo anche mettere un titolo diverso e meno formale... Ma se, lettore, hai fatto tanto da incuriosirti per capire di che si parla, vorrei ripagarti con una prima, basilare, informazione: nonostante la mia impreparazione in materia, combattuta al suono di qualche libro e ricerca in rete, di fatto si tratta di un argomento estremamente interessante.

Non dico divertente, perché questo dipenderebbe dalla mia capacità di renderlo tale e quindi preferirei che entrambi non ci contassimo; ma affascinante senz'altro, almeno per chi condivide l'interesse per la biologia, di cui l'evoluzionismo neodarwiniano rimane l'interpretazione più concreta e pervasiva.

Di che si tratta, in concreto

Mi ha sempre affascinato, quando ero bambino, l'immagine letteraria dei biologi dell'ottocento. Mi affascinava che tutto studiassero, osservassero e collezionassero. Che avessero studi, o case, magari in campagna, piene di reperti, gabbie, provette; e taccuini di osservazioni con disegni bellissimi e pazientissime notazioni attorno a tutto... Certo molto in questa mia fascinazione doveva dipendere dall'abitare nella periferia postindustriale di Milano, negli anni 70 e 80 del novecento, all'undicesimo piano. Ma di questo passo temo di andare fuori tema.

Tornando a noi, una cosa questi biologi (o, per dir meglio: naturalisti) la compivano con estrema accuratezza: l'osservazione della natura. Eppure, proprio questa loro attività, se da un lato ha portato a un grandissimo numero di scoperte e intuizioni, dall'altro per sua natura si dibatteva fra le sue stesse implicite contraddizioni. Perché per osservare, occorre innanzitutto sapere dove osservare; solo in questo modo si vede realmente il fatto in sé. Portiamo il problema al concetto iniziale che è quello di cladistica filogenetica e cominciamo con il descrivere i termini. Mi perdoni il lettore che, sapendone più di me, in materia, troverà le mie descrizioni poco accurate e precise; il senso generale mi auguro comunque di essere riuscito a coglierlo.

Cladistica

I nostri naturalisti erano spinti, fra le altre, da un'attitudine senza la quale ben difficilmente avrebbero intrapreso le loro carriere: l'ansia classificatoria. Mi permetto di chiamarla ansia (non dico Disturbo Ossessivo Compulsivo, ma quello ho in mente) semplicemente per la ragione che ne sono anch'io affetto fin da quando ero bambino. Raccogliere rami, conchiglie, insetti, piume, ossa... esaurirebbe presto l'esigenza di un collezionista se questi si fermasse a organizzare la sua Wunderkammer. Ma nella wunderkammer l'insolito ha la precedenza sul solito, l'isolato sul simile, l'aberrante sul perfetto esemplare. Mentre il naturalista è affascinato, al contrario, dalla anatomia comparata, dalla convergenza evolutiva, dall'ontogenesi che ricapitola la filogenesi. Al naturalista interessa spiegarsi le cose per riconoscerle come parti di un disegno più grande, piuttosto che vivere della curiosità e dell'eccezione che fanno gola al puro collezionista.

Da questo orientamento psicologico prima che culturale nasce la Cladistica, che non è altro se non un tentativo di classificazione dell'intero sistema dei viventi, specializzabile in ogni sua sottoparte. Cladistica significa, in prima istanza, disporre entità distinte secondo una rappresentazione ad albero, in cui due rami con una inserzione più ravvicinata porteranno "frutti" fra loro più simili di due rami appartenenti a biforcazioni più remote. Quindi, di per sé, la pura Cladistica si interessa alla bontà della classificazione in sé, non alla modalità con cui le entità (che in biologia prendono il nome di Taxa, plurale di taxon) sono classificate.

Ma fra tutte le possibili classificazioni dei viventi, ce n'è una che appare più "naturale" delle altre: quella delle affinità dovute ad antenati comuni; o delle parentele fra i viventi, per così dire.

Prima di entrare nel merito di che cosa questo comporti come conseguenza, volevo portare rapidamente l'attenzione su che cosa questo implichi come condizione necessaria. Implica, di per sé, un generale senso del passaggio del tempo e della trasformazione delle popolazioni e delle specie attraverso il tempo. Sì, perché rimarrebbe semplicemente un insoluto mistero teorizzare che nel mondo dei viventi non ci sia evoluzione (intesa non ancora in senso darwiniano, ma come trasformazione tout-court) e poi accorgersi delle innumerabili affinità e difformità fra Phylum, Classi, Ordini. Porre che sia per una ragione differente dall'essersi evoluti a partire da antenati comuni significa semplicemente mettere un vuoto al posto di un pieno. Ipotizzare qualcuno o qualcosa di complesso che attesti lo statu quo e che sia, per ciò stesso, più complesso di quello che tenta di spiegare.

Filogenetica

Il produttivo concetto di cladistica filogenetica, riassumibile quindi come: rappresentazione del sistema dei viventi in cui ogni biforcazione è consistita in una, per quanto arcaica, speciazione, comporta problemi non indifferenti di interpretazione dei dati oggettivi quando si vuole estrapolare l'esatta successione degli eventi.

Vediamo innanzitutto l'approccio classico (non ingenuo) al problema e ai suoi tentativi di risoluzione nell'ambito degli strumenti a disposizione degli scienziati. Limitiamo il discorso a un caso particolarissimo, solo perché può essere sufficientemente rappresentativo e perché lo conosco meglio: la classificazione dei taxa all'interno della famiglia delle Cactacee.

Immaginiamo quindi di voler elaborare un'ipotesi di classificazione, in seno alla Cactacee, che si basi sulla storia evolutiva della famiglia. Su che cosa potremmo basarci? Sicuramente sui caratteri esterni (fenetici) delle piante; e questo porta a un generale consenso rispetto al dividere la famiglia in quattro sottofamiglie:

Pereskioideae - Con un fusto poco succulento che diviene legnoso. Si tratta sostanzialmente di arbusti, verosimilmente più simili ai lontani antenati delle altre sottofamiglie.
Opuntioideae - I "Fichi d'India" caratterizzati da fusti spesso appiattiti (le Pale, o Cladodi dei Fichi d'India) ma soprattutto dagli sgradevolissimi glochidi, spine speciali con cui ha fatto i conti chiunque ne abbia coltivato una...
Maihuenioideae - Piccole cespugliose con fusti corti, globosi o cilindrici; la sottofamiglia conta pochissime specie.
Cactoideae - I cactus comunemente intesi, che vanno dagli Epiphyllum epifitici, ai Saguari, al Barile della suocera, a tutto quello che comunemente si intende quando si parla di Cactus.

Ma da qui in avanti, cioè nel tentativo di investigare le parentele all'interno delle singole sottofamiglie, il metodo classico inizia a produrre risultati contrastanti, nella "ricostruzione". Immaginiamo infatti di avere di fronte un certo numero di cactus e di voler stabilire quali sono più "affini" fra di loro. Cominceremo quindi con l'osservazione di un certo numero di caratteri esterni e riconoscibili (magari non facilmente o non sempre, come fiori e frutti che non sono sempre presenti). Fra questi caratteri quelli normalmente utilizzati sono:

Colore, dimensione e forma dei fiori;
Punto di inserzione dei fiori nel fusto (esempio: alla sommità dei tubercoli oppure nell'"ascella" sita fra un tubercolo e l'altro, ecc.);
Forma generale del fusto (stretto e piatto, globoso, colonnare, ecc.);
Numero, colore, forma delle spine (più o meno suddivise fra centrali e radiali);
Forma, dimensione, struttura dei semi;
Forma e dimensione della radice (fittonante, tuberiforme, fascicolata, ecc.);

Il problema che si pone, a questo punto, può essere rappresentato semplicemente con un un problema di importanza relativa della singola caratteristica valutata, rispetto alle altre. Cioè, detto in altri termini, le domande possono suonare come: "Sono da ritenersi più affini due cactus che hanno il fiore uguale come forma e dimensioni oppure due cactus che hanno i semi con la stessa struttura?"

E questa domanda può essere ulteriormente parafrasata in: "Quale di queste caratteristiche varia di più e quale varia di meno al passaggio delle generazioni?" Sarà ovviamente in funzione del numero di caratteristiche a lenta variazione che i cactus saranno definibili come strettamente imparentati: se due cactus dovessero possedere caratteristiche comuni fra quelle a veloce evoluzione (come, per unanime consenso, è il colore del fiore), questo non autorizzerebbe a immaginare nulla rispetto alla loro affinità. Viceversa, se ci fosse un modo per assicurarsi che una determinata caratteristica si mantiene relativamente stabile nel corso delle generazioni, una variazione marcata di questa caratteristica potrebbe essere un sintomo di "distanza" evolutiva fra due esemplari.

Purtroppo una modalità oggettiva non esiste e le poche affermazioni condivise fra gli scienziati, pur essendo largamente utilizzate, non rappresentano molto di più di un consenso fra esperti, quindi non ancora un dato oggettivo e quantificabile.

In che cosa consiste il metodo matematico

Come uscire, quindi, da questa empasse? Uno dei sogni dei biologi, almeno negli ultimi due secoli, è stato proprio quello di raggiungere non solo un unanime consenso nella determinazione di quali siano i caratteri "più significativi" nel senso descritto sopra, ma anche di poter fare il salto fra il dato qualititativo-soggettivo a quello quantitativo-oggettivo. Una delle tecniche più promettenti in questo campo (anche se si tratta pur sempre di una valutazione statistica e quindi non di un dato puntualmente vero fino a prova contraria) è quella che consiste nel valure l'informazione genetica per cogliere e quantificare la variabilità individuale e inferirne informazioni obbiettive sulle distanze genetiche.

In effetti il passaggio dalla valutazione fenetica, cioè dei caratteri espressi in un individuo, a quella genetica, cioè relativa a caratteri presenti già a livello cellulare (o mitocondriale) rappresenta un primo passo fondamentale in direzione della oggettività. Immaginiamo, a questo proposito, quanti possono essere gli accadimenti, nella vista del singolo individuo, che renderebbero molto aleatorio il considerare le dimensioni, le forme, i colori, il peso e ogni altra caratteristica rilevabile, in un individuo. Detto per inciso, sono proprio tutti questi complessi e in parte imprevedibili avvenimenti che rendono difficile la vita dei cactus coltivati e che rendono interessante e stimolante il coltivarle fino a farle fiorire (ma questo è evidentemente un altro argomento).

Questa variabilità, che potrebbe essere classificata come: "variabilità dovuta all'esposizione alla vita stessa", fa sì che la lettura di un dato numerico non abbia senso di per sé al livello dell'individuo, ma che necessiti invariabilmente di una popolazione abbastanza numerosa per poter ragionare in termini di mediana delle misure. E anche qui un campione della popolazione sufficientemente ampio non è sempre facile da ottenere -né poco costoso...

D'altro canto la lettura delle informazioni genetiche (per quanto per lo più ardua, vista la mole spropositata di queste informazioni) nonostante le difficoltà oggettive nel reperirle, che richiedono un affinamento continuo delle tecniche di determinazione, rappresenta un passo estremamente significativo in direzione del rendere la valutazione oggettiva. Nessun accadimento nel corso dell'evoluzione del singolo organismo può avere effetto nell'alterare l'informazione genetica. Da qui l'implicita maggiore affidabilità.

Sembrerebbe facile quindi... Non lo è affatto. Perché se è vero che abbiamo in mano l'intero libro, non sappiamo né in che lingua è scritto, né quale pagina leggere; e non ci aiuta molto il fatto che parliamo di migliaia di volumi, alcuni con interi capitoli o pagine o frasi, ossessivamente ripetuti, o bianchi, o apparentemente senza senso (non codificanti, li definiscono i biologi).

Come portare la nostra attenzione sui soli dati significativi? Rispondere a questa domanda è la scommessa dell'approccio matematico-statistico alla valutazione dei loci genetici.

Prima di addentrarci nelle tecniche utilizzate, vorrei però proporre un esperimento "in silico", come si dice: nel prossimo articolo creeremo una popolazione astratta di esseri viventi con soli quattro geni e la osserveremo nel corso del tempo mentre varia in modo casuale. Al passare di un congruo numero di generazioni avremo un differenziarsi di popolazioni differenti (evidentemente stiamo sfruttando un implicito principio antropico, che ci assicura che le nostre popolazioni astratte saranno di successo nel loro ambiente!). Arrivando al "tempo presente" con un certo numero di popolazioni avremo i dati di base per poter, retrospettivamente, analizzare con tecniche matematiche i possibili alberi filogenetici che le hanno prodotte.