La rilevanza dei caratteri diagnostici nella determinazione

La prima versione di Arcadia, strutturata a Categorie-Gruppi-Proprietà, non permetteva di distinguere il "peso" relativo dei vari caratteri nella determinazione dei taxon. E' tuttavia sensato porsi la domanda: "Ma tutti i caratteri devono avere lo stesso peso nel determinare il riconoscimento di un taxon?" Facilmente ci si convince che no, che, in alcuni casi, alcuni caratteri possono essere più rilevanti di altri. Estremizzando: la distribuzione geografica di una specie, a parte il caso degli endemismi, è un carattere molto meno rilevante, nella diagnosi, della sua morfologia; e fra gli stessi caratteri morfologici, ce ne sono sicuramente di più stabili e quindi affidabili e di più variabili a livello intraspecifico, quindi non altrettanto utili per il riconoscimento. Il seguito dell'articolo spiega in che modo e per quali aspetti è stata implementata in Arcadia la Rilevanza dei caratteri.

 

Rilevanza a livello di Proprietà o di Gruppo

La prima domanda da porsi è: a quale livello occorre impostare il concetto della Rilevanza dei caratteri? Si sarebbe tentati di mettere in relazione la Rilevanza con le Proprietà. In realtà questa prima ipotesi non è la migliore (almeno per quanto riguarda la terminologia di Arcadia).

Di fatto sarebbe piuttosto antiintuitivo immaginare che, se un soggetto avesse "12 antennomeri" questo fatto potrebbe dare una Rilevanza del carattere pari a 10 mentre se ne avesse 11, questo potrebbe dare una rilevanza differente. Piuttosto sembra più corretto immaginare che il numero di antennomeri (nel nostro esempio) possa avere una rilevanza (espressa come 10, 20, o qualsiasi altra) e che questa rilevanza possa essere maggiore o minore rispetto ad altri caratteri come il colore (non il Colore bianco o il Colore Rosso in sé e così via), la forma, ecc.

Quindi il termine a cui applicare la Rilevanza è più correttamente il Gruppo, cioè l'insieme delle Proprietà valutabili mutuamente esclusive e attinenti a un unico aspetto della descrizione del taxon.

 

In che modo esprimere la Rilevanza dei caratteri

Il modo più immediato e significativo per esprimere la rilevanza è tramite un indice numerico. Questo numero viene utilizzato nel calcolo della probabilità di correlazione (vedi sotto per maggiori dettagli). Detto questo, non è evidente quale possa essere la scelta migliore per questi indici numerici, dato che, in ultima analisi, si tratta di indici che non possono rappresentare valori assoluti di correlazione, ma solo probabilità che una determinazione sia più accurata di un'altra.

In questo senso sarebbero possibili approcci fra loro molto differenti: si potrebbe pensare di graduare una scala con pochi valori fissi, come, ad esempio:

  • 1 = Poco rilevante, 2 = Molto Rilevante, 3 = Fondamentale nella determinazione
  • 1 = Poco rilevante, 2 = Rilevante, 8 = Molto rilevante, 16 = Fondamentale nella determinazione
  • ecc.

In Arcadia è stata impostata una scala di numeri interi da 1 a 100. Questa scelta lascia aperta ogni possibilità di gestione, all'interno dei vincoli matematici dati dall'algoritmo di calcolo sotto rappresentato.

 

Rappresentazione della Rilevanza

La Rilevanza nella determinazione viene presentata all'utente in tre punti:

  1. Nella visione tabellare della chiave, a fianco a ogni Gruppo, viene indicato il peso che l'Editor ha attribuito al Gruppo stesso.
  2. Nella Determinazione del taxon, sopra ogni riquadro che racchiude le Proprietà riferite a uno stesso gruppo, oltre al nome del gruppo viene anche indicato "(Rilevanza: x)";
  3. Sempre nella Determinazione del taxon, una volta che sia stata selezionata una Chiave, il pulsante Schema permette di avere uno schema navigabile della Chiave stessa che, oltre a esporre link per accedere rapidamente ai gruppi e alle proprietà, riporta la Rilevanza per ogni gruppo indicato.

 

Utilizzo della Rilevanza nel calcolo della correlazione

Il calcolo della probabilità di correlazione è stato modificato, rendendo questo calcolo una sorta di media pesata. Più in particolare, il calcolo avviene in questi passaggi:

  1. Vengono estratti tutti i Taxon non esclusi dalle Proprietà selezionate. (Rispetto al non esclusi vs inclusi vedi qui).
  2. Dato l'insieme P delle Proprietà selezionate, siano P_i gli insiemi ottenuti togliendo, di volta in volta, un elemento da P; quindi se P=\{p_1, p_2, ..., p_n\} allora P_1=\{p_2, ..., p_n\}, P_2=\{p_1, p_3..., p_n\} e così via.
  3. Per ogni insieme di Proprietà P consideriamo l'insieme dei Taxon estratti; all'insieme di Proprietà P corrisponderà l'insieme dei taxon estratti T, vale a dire T=T(P) a P_i corrisponderà T_i=T_i(P) e così via...
  4. Ricordiamo però che ad ogni Proprietà p_i è associato un gruppo g_i, al quale, a sua volta, è associato un indice di rilevanza: r_i.
  5. Contiamo quindi, considerando i taxon associati a P come ai vari P_i, il numero di occorrenze di ogni taxon t_j per un indice j distinto da i. Sia m_j la molteplicità del taxon t_j all'interno dell'insieme complessivo dei taxon estratti da P e dai vari P_i; detto in altri termini: dato l'insieme P delle Proprietà selezionate, se valuto quante volte compare il taxon t_j in P e in tutti i P_i, questo numero sarà m_j
  6. Prima dell'introduzione del concetto di Rilevanza del gruppo, la formula che portava a calcolare la correlazione poteva essere espressa come: c_j=\sum_j{m_j}; con l'introduzione della Rilevanza, la formula diventa c_j=\sum_j{m_j r_j}. Questo significa: la probabilità di correlazione del taxon t_j rispetto all'insieme di Proprietà selezionate P è data da c_j.

 

Normalizzazione dei valori

Dato che l'informazione estratta dal calcolo è di tipo statistico e comparativo (cioè "un valore è più strettamente correlato di un altro", non "taxon è esattamente 4,7 volte più correlato di un altro"...), il valore ottenuto di per sé dice poco. In un caso potrei ottenere 15, nell'altro 750, e così via. Per permettere una facile interpretazione dei dati estratti, questi valori vengono normalizzati, cioè ricalcolati in funzione di un valore massimo fissato. In particolare, la regola applicata è la seguente:

  • Se l'insieme T (dei taxon che corrispondono a tutte le scelte impostate) è vuoto, allora, per rappresentare il fatto che il match è solo parziale ("Nessun taxon corrisponde a tutte le scelte"), viene posto il punteggio c_j massimo uguale a 80 e gli altri vengono calcolati in modo proporzionale.
  • Se l'insieme T non è vuoto, per identificare che almeno un taxon corrisponde completamente alle scelte, viene posto il punteggio c_j massimo uguale a 100 e gli altri vengono calcolati in modo proporzionale.