Una vita colorata

Dopo un articolo iniziale e una divagazione, proseguiamo ora nel cercare di capire insieme come rappresentarci i metodi matematici applicati alla filogenetica. In particolare in questo articolo costruiremo una popolazione di individui "viventi" (ovviamente viventi: in silico) che faremo evolvere nel corso delle ere e di cui cercheremo poi, retrospettivamente, di ricostruire l'albero filogenetico attraverso opportuni strumenti matematici.

Cominciamo con il rappresentare una sequenza di basi di un generico gene. Dal momento che queste basi sono Adenina, Citosina, Guanina e Timina, possiamo identificarle semplicemente (come si fa usualmente) con le lettere iniziali ACGT.

Prima che qualcuno tema di dover rinfrescare le sue passate conoscenze di chimica organica, dico subito che tutto quanto ci serve sapere di tale argomento è già stato scritto qui sopra. In effetti il nostro approccio richiede semplicemente una vaga idea di questi elementi:

  • Gli esseri viventi a oggi conosciuti (e quelli che stiamo per inventare) condividono il fatto di avere un "patrimonio genetico" dotato di queste caratteristiche:
    • viene replicato, salvo alterazioni casuali, da una generazione alla successiva;
    • determina la codifica delle proteine e, quindi, in modo indiretto, di ogni tessuto dell'organismo che lo possiede.
  • In particolare questo "patrimonio genetico" è codificato all'interno di geni, costruiti attorno alla molecola del DNA (acido desossiribonucleico);
  • questa molecola è un lunghissimo filamento visualizzabile come una successione di varie "basi" (=pioli di una scala avvolta a elica). I pioli possono avere (guardando un solo montante della scala) una sola delle quattro specie definite sopra (ACGT).

Quindi: una sterminata successione di "lettere A,C,G o T" variamente raggruppate (in "loci", geni e patrimonio genetico) sono tutto quanto ci serve sapere per esprimere il nostro ipotetico "vivente".

Ad esempio: immaginiamo che abbia un senso (cosa che può benissimo valere dal punto di vista meramente matematico, mentre facilmente non ha senso da quello biologico) ipotizzare un individuo come ciò che può essere rappresentato dalla successione:

ACGTCACACGTACAGATACGATGC

(ovviamente: è troppo misero questo "dettato" perché ne possa uscire un organismo, fosse anche il più piccolo dei virus)

Supponiamo inoltre un altro individuo, dato dalla successione:

ACGTCACATGTACAGATACGATGC

Ho evidenziato in blu il punto in cui alla C ho sostituito una T; i due individui sono quindi diversi. Vediamo ora come dare non dico un senso biologico, ma almeno una maggiore intuitività, al discorso generale.

La popolazione colorata

Consideriamo, in modo del tutto arbitrario, il mapping seguente, fra le basi del DNA e i numeri esadecimali:

ProgressivoSequenza BasiCodice Colore HTML
1AA0
2AC1
3AG2
4AT3
5CA4
6CC5
7CG6
8CT7
9GA8
10GC9
11GTA
12GTB
13TAC
14TCD
15TGE
16TTF

A questo punto siamo pronti per realizzare una lunga successione di basi (come le due elencate sopra) e, senza nulla aggiungere a livello informativo, ma solo cercando una rappresentazione grafica del tutto aleatoria e ipotetica, immaginare di rappresentare la successione in questo modo:

  • consideriamo di prendere le basi a coppie e di convertirle in esadecimali
  • per ogni dozzina di basi, corrispondenti a 6 esadecimali, quello che abbiamo scrivendoli in sequenza è un codice colore HTML, che possiamo usare per la nostra rappresentazione.

Ovviamente: non c'è nessuna attinenza profonda, fra i due concetti. Si tratta semplicemente di un modo come un altro per visualizzare uno strano oggetto (animale?) come una serie di quadratini colorati.

Ad esempio, a che cosa corrisponde ACGTCACACGTACAGATACGATGC?

Applicando il nostro bizzarro algoritmo dovremmo prendere le prime due lettere (AC e vedere in tabella a che cosa corrispondono: in particolare corrispondono a 1; le successive GT corrispondono a B, ecc.)

Applicando a tutta la stringa otteniamo:

ACGTCACACGTACAGATACGATGC \rightarrow 1B446C 48C639

e, in particolare, questi due ulteriori codici sono codici colore esadecimali che corrispondono a questi due quadratini:

Vediamo ora che cosa è successo per effetto della variazione casuale che ha prodotto ACGTCACATGTACAGATACGATGC; semplicemente la modifica a portato al mapping differente in

ACGTCACATGTACAGATACGATGC \rightarrow 1B44EC 48C639

che, a sua volta, rappresentato in quadratini colorati, diventa:

Quindi il quadratino verde rimane uguale mentre quello blu diventa leggermente più chiaro.

Abbiamo ora tutte le "basi" (chiedo scusa per il gioco di parole...) per procedere con il far effettivamente evolvere una nostra artificiale forma di vita nel corso delle ere, per verificare, retrospettivamente, quanto possiamo essere accurati nel determinare effettivamente l'albero filogenetico dell'evoluzione relativo.

Ma di questo tratteremo in un prossimo articolo.