La metodologia del donatore
Le funzioni di Concord nell'approccio di correzione
tramite donatore sono uguali a quelle di RIDA (Ricostruzione delle Informazioni
con Donazione Automatica) Esso realizza la correzione di un file di dati
di qualsiasi tipo tramite la tecnica del donatore. Verranno di seguito
descritti i principi su cui la tecnica si basa, nonché brevemente
i passi che l’utente deve eseguire per rendere operativo il sistema.
Rappresentazione
dei dati.
Sia data una matrice di dati X, formata da n unità
e k variabili di tipo qualsiasi. Le unità rappresentano i vettori-riga,
le variabili i vettori-colonna. Le variabili sono di tipo qualsiasi.
Dal punto di vista della archiviazione elettronica
della informazione, la matrice dei dati X è contenuta in un file,
costituito da un insieme di record, ognuno rappresentante una unità,
e contenente un numero di campi pari al numero di variabili (da ora in
poi useremo il termine record o unità come sinonimi).. Un insieme
di campi (al limite anche uno solo) consente di identificare in modo univoco
il record-unità ed è detto chiave
o identificativo del record.
Dividiamo in due gruppi le variabili:
-
variabili affette da errore (in numero di h<k);
-
variabili esatte (in numero di k-h).
Supponiamo di sottoporre ad un processo di controllo
ogni record, in modo che ognuno degli h campi corrispondenti alle variabili
affette da errore contenga o un flag di errore o un valore esatto. Il file
risulta diviso in due:
-
insieme dei record totalmente esatti;
-
insieme dei record che presentano almeno un flag di errore.
Costruzione
della metrica delle distanze.
Proponiamoci ora di misurare la distanza tra due
unità, rispetto alle variabili esatte. A questo scopo è necessario
introdurre una metrica per ogni tipologia di variabile (si veda Abbate,
1996 a questo proposito).Sia quindi d la distanza tra due unità,
misurata rispetto ad una variabile :
a) Variabile qualitativa
sconnessa.
Si pone d=0 se le unità presentano la stessa
modalità, d=1 se la modalità è diversa.
Formalmente: X1 = X2Þd=0, X1 ¹X2Þd=1
b) Variabile ordinata con m
modalità.
Si pone d=0 se sulle due unità è stata
rilevata la stessa modalità, d=1 se le modalità sono adiacenti,
d=2 se tra di esse ce n’è una sola, e così via fino a d=m-1,
se le due modalità sono agli estremi opposti. Per rendere d variabile
tra 0 ed 1, essa viene divisa per il suo massimo m-1.
Formalmente: X1 = X2Þd=0, X1 =r, X2=s (r¹ s)Þ
d=
c) Variabile qualitativa telescopica.
Tali variabili sono rappresentabili tramite un insieme
di gruppi primari di livello 1, contenenti ognuno più sottogruppi
di livello 2. Ogni sottogruppo di livello 2 contiene più
sottogruppi di livello 3 e così via fino ad un sottogruppo
di livello j, contenente modalità non ulteriormente scomponibili
in sottogruppi, che sono al livello più basso j+1. Una modalità
siffatta può essere codificata con g gruppi di bit, ognuno dei quali
è dimensionato in modo da poter rappresentare tutti i sottogruppi
relativi a quel livello. Poniamo d=0 se le due unità presentano
stessa modalità, d=1 se le due modalità diverse sono nello
stesso sottogruppo di livello j, d=2 se esse sono in gruppi differenti
di livello j, ma nello stesso sottogruppo di livello j-1, d=3 se sono in
gruppi differenti di livello j-1, ma nello stesso sottogruppo di livello
j-2 e così via fino ad un massimo di d=j+1 se le due modalità
sono in gruppi primari diversi di livello 1. Rendiamo la distanza variabile
tra 0 ed 1 dividendola per il suo massimo pari a j+1.
Sia r il livello più alto a partire dal quale
si riscontra una differenza tra X1 ed X2, r assume quindi valori tra 1
e j+1.
Formalmente: X1 = X2Þd=0, X1 ¹X2Þd=
In Concord (RIDA) questo tipo di distanza è utilizzato
nel caso particolare che sia sufficiente una sola cifra per rappresentare
ogni livello. Date quindi due generiche modalità di una variabile
di tipo telescopico, esse distano 0 se tutte le cifre sono uguali, 1 se
solo l’ultima è diversa, 2 se sono diverse soltanto l’ultima e la
penultima e così via;
d) Variabile quantitativa.
Sia X1 il valore assunto dalla variabile X nella
prima unità, X2 nella seconda. Poniamo d=½ X1- X2½.
La distanza può essere resa variabile tra 0 e 1 dividendola per
il suo massimo, pari alla differenza tra i valori massimo (Xmax) e minimo
(Xmin) della variabile X presenti nel file.
Formalmente: X1 = X2Þd=0, X1 ¹X2Þd=
Nella versione attuale, il valore assoluto della differenza
tra X1 e X2 è diviso per X1+1, misurando uno scostamento relativo
rispetto ad X1 ( la scelta di X1+1 serve per evitare un denominatore degenere,
nel caso che sia X1=0). E’ evidente che la scelta di una distanza siffatta
privilegia l’importanza della variabile quantitativa, in particolare se
il valore di X2 risultasse molto distante da quello di X1.
Formalizzazione
della funzione di distanza mista ponderata.
Assegnata una matrice di dati, presentante k-h variabili
non affette da errore, definiamo distanza mista ponderata D tra due generiche
unità una espressione del tipo:
,
dove Di è la distanza tra le due unità rispetto alla variabile
i, misurata con una delle espressioni di cui sopra e Wi è un numero
reale positivo che rappresenta l’importanza assegnata alla variabile i
nel calcolo della distanza. Le r variabili sono scelte tra le k-h quelle
non affette da errore. L’attuale versione accetta solo numeri naturali
per Wi.
Chiamiamo variabili di
accoppiamento o di matching le r variabili scelte per il calcolo
della distanza.
Scelta
dell’unità donatrice.
Data un’unità affetta da errore nella variabile
k si vuole trovare l’unità esatta posta alla distanza minima. Essa
è detta unità donatrice,
perché il valore della variabile k relativo ad essa è "donato"
all’unità affetta da errore. L’insieme della unità tra le
quali è scelta l’unità donatrice è detto serbatoio
dei donatori. Il serbatoio dei donatori può essere costruito
in due modi:
-
selezionando le unità esatte rispetto alla sola variabile k;
-
selezionando le unità esatte rispetto a tutte le variabili.
Nel primo caso si usa un diverso serbatoio per ogni
variabile da errata, nel secondo caso si utilizza un serbatoio unico per
tutte le variabili affette da errore. La prima procedura è utile
quando si desidera disporre di serbatoi di donatori relativamente numerosi
per ogni variabile da correggere.
Questa scelta deve essere effettuata e realizzata
prima di utilizzare Concord.
La scelta dell’unità donatrice è ulteriormente
affinabile scegliendo, nell’insieme delle variabili non affette da errore
e non usate come variabili di accoppiamento, delle variabili dette di strato.
Dopo aver formato il serbatoio dei donatori in uno dei due modi di
cui sopra, si seleziona l’unità donatrice tra quelle che inoltre,
rispetto alle variabili di strato, presentano le stesse modalità
dell’unità affetta da errore. L’uso di variabili di strato implica
l’accettazione della possibilità di non avere donatori idonei per
quell’unità.
Funzione
di distanza mista ponderata corretta.
Possiamo introdurre un perfezionamento alla distanza
mista ponderata sopra introdotta, per penalizzare l’unità del serbatoio
che è già stata utilizzata nella donazione. Ridefiniamo la
distanza D come:
,
dove k è il numero di volte per cui l’unità è stata
precedentemente utilizzata, p è un fattore di penalità. Questa
espressione più completa è adottata da RIDA, che richiede
che p sia un numero intero.
Ponderazione
delle variabili di matching.
Sono molte le tecniche possibili di ponderazione
delle variabili di matching. Le applicazioni finora realizzate nell’interno
dell’istituto hanno utilizzato il criterio del
(si veda [1]). Esso si applica nel seguente modo:
-
si misura la connessione tra la variabile affetta da errore e quelle esatte
tramite l’indice
. Il valore
dell’indice dipende dal numero di celle della tabella di contingenza. Poiché
bisogna confrontare il valore dei
ottenuti, per renderli confrontabili occorre o riclassificare in modo opportuno
almeno la variabile da correggere, se di tipo quantitativo, in modo da
ottenere tabelle di contingenza di dimensioni omogenee, oppure dividere
direttamente il valore del
per il numero di gradi di libertà, che è pari al prodotto
tra il numero delle righe e delle colonne della tabella di contingenza
diminuiti entrambi di uno;
-
l’utilizzatore del metodo deve esaminare criticamente i valori di

così ottenuti, eventualmente divisi per il numero dei gradi di libertà:
le variabili non affette da errore che presentano il valore più
alto sono le migliori candidate ad essere variabili di strato, quelle con
valore immediatamente inferiore possono diventare variabili di matching.
L’utilizzatore del metodo deve usare i valori come supporto a una decisione
che tiene anche conto della sua conoscenza dell’indagine.
La scelta delle variabili di strato deve tener conto
anche del fatto che all’aumentare del loro numero, aumenterà la
selettività nell’ambito del serbatoio dei donatori, ma aumenterà
anche la probabilità di non trovare il donatore. Nelle applicazioni
finora realizzate è stata sempre impiegata una sola variabile di
strato.
Modalità
di utilizzo.
L’utente deve preparare 3 file.
1)
File contenente i record errati.
In esso le variabili affette
da errore debbono contenere un carattere di
errore ripetuto per tutta la lunghezza del campo.
2)
File contenente i record esatti,
costituenti il serbatoio
dei potenziali donatori.
3)
File dei parametri.
Viene generato automaticamente da Concord dopo aver
definito le variabili da correggere con il carattere
di errore, particolarmente importante perché solo i campi in cui
esso è presente sono soggetti a correzione, le variabili
di strato e di matching. Per ogni variabile
occorre specificare la posizione iniziale, la lunghezza, il tipo (obbligatorio
per le variabili di matching, al fine della scelta della funzione di distanza
da adottare) e il peso. Le variabili quantitative possono essere riclassificate,
specificando l’estremo superiore di ogni classe. Si possono poi inserire
i parametri U,R,L.
Essi sono, rispettivamente, il numero massimo di volte che la stessa unità
può essere utilizzata come donatrice, il fattore moltiplicativo
che penalizza l’uso ripetuto dello stesso donatore e la massima distanza
a cui può essere considerato un donatore. Vale la stessa avvertenza
formulata a proposito dell’uso degli strati: l’uso dei parametri U e L
implica la possibilità di non riuscire a trovare il donatore. I
parametri U, R, L possono mancare: questo implica che non si pone alcun
limite alla possibilità di riutilizzare lo stesso donatore ed esso
può essere scelto anche molto distante rispetto all’unità
donatrice.
Dopo la corretta esecuzione dei vari passi, l’utente
dovrà provvedere a fondere in un file unico il file dei record esatti,
quello dei corretti e quello eventuale degli incorretti.
Se è stato prodotto il file dei record incorretti,
nel file unico creato dall’utente i record non corretti conterranno ancora
il carattere di errore: essi debbono essere corretti con una tecnica alternativa.