La metodologia del donatore

    Le funzioni di Concord nell'approccio di correzione tramite donatore sono uguali a quelle di RIDA (Ricostruzione delle Informazioni con Donazione Automatica) Esso realizza la correzione di un file di dati di qualsiasi tipo tramite la tecnica del donatore. Verranno di seguito descritti i principi su cui la tecnica si basa, nonché brevemente i passi che l’utente deve eseguire per rendere operativo il sistema.

Rappresentazione dei dati.
    Sia data una matrice di dati X, formata da n unità e k variabili di tipo qualsiasi. Le unità rappresentano i vettori-riga, le variabili i vettori-colonna. Le variabili sono di tipo qualsiasi.

    Dal punto di vista della archiviazione elettronica della informazione, la matrice dei dati X è contenuta in un file, costituito da un insieme di record, ognuno rappresentante una unità, e contenente un numero di campi pari al numero di variabili (da ora in poi useremo il termine record o unità come sinonimi).. Un insieme di campi (al limite anche uno solo) consente di identificare in modo univoco il record-unità ed è detto chiave o identificativo del record.

    Dividiamo in due gruppi le variabili:

  1. variabili affette da errore (in numero di h<k);
  2. variabili esatte (in numero di k-h).
    Supponiamo di sottoporre ad un processo di controllo ogni record, in modo che ognuno degli h campi corrispondenti alle variabili affette da errore contenga o un flag di errore o un valore esatto. Il file risulta diviso in due: Costruzione della metrica delle distanze.
    Proponiamoci ora di misurare la distanza tra due unità, rispetto alle variabili esatte. A questo scopo è necessario introdurre una metrica per ogni tipologia di variabile (si veda Abbate, 1996 a questo proposito).Sia quindi d la distanza tra due unità, misurata rispetto ad una variabile :
    a) Variabile qualitativa sconnessa.
    Si pone d=0 se le unità presentano la stessa modalità, d=1 se la modalità è diversa.
Formalmente: X1 = X2Þd=0, X1 ¹X2Þd=1
    b) Variabile ordinata con m modalità.
    Si pone d=0 se sulle due unità è stata rilevata la stessa modalità, d=1 se le modalità sono adiacenti, d=2 se tra di esse ce n’è una sola, e così via fino a d=m-1, se le due modalità sono agli estremi opposti. Per rendere d variabile tra 0 ed 1, essa viene divisa per il suo massimo m-1.
Formalmente: X1 = X2Þd=0, X1 =r, X2=s (r¹ s)Þ d=
    c) Variabile qualitativa telescopica.
    Tali variabili sono rappresentabili tramite un insieme di gruppi primari di livello 1, contenenti ognuno più sottogruppi di livello 2. Ogni sottogruppo di livello 2 contiene più sottogruppi di livello 3 e così via fino ad un sottogruppo di livello j, contenente modalità non ulteriormente scomponibili in sottogruppi, che sono al livello più basso j+1. Una modalità siffatta può essere codificata con g gruppi di bit, ognuno dei quali è dimensionato in modo da poter rappresentare tutti i sottogruppi relativi a quel livello. Poniamo d=0 se le due unità presentano stessa modalità, d=1 se le due modalità diverse sono nello stesso sottogruppo di livello j, d=2 se esse sono in gruppi differenti di livello j, ma nello stesso sottogruppo di livello j-1, d=3 se sono in gruppi differenti di livello j-1, ma nello stesso sottogruppo di livello j-2 e così via fino ad un massimo di d=j+1 se le due modalità sono in gruppi primari diversi di livello 1. Rendiamo la distanza variabile tra 0 ed 1 dividendola per il suo massimo pari a j+1.
    Sia r il livello più alto a partire dal quale si riscontra una differenza tra X1 ed X2, r assume quindi valori tra 1 e j+1.
Formalmente: X1 = X2Þd=0, X1 ¹X2Þd=
    In Concord (RIDA) questo tipo di distanza è utilizzato nel caso particolare che sia sufficiente una sola cifra per rappresentare ogni livello. Date quindi due generiche modalità di una variabile di tipo telescopico, esse distano 0 se tutte le cifre sono uguali, 1 se solo l’ultima è diversa, 2 se sono diverse soltanto l’ultima e la penultima e così via;

    d) Variabile quantitativa.
    Sia X1 il valore assunto dalla variabile X nella prima unità, X2 nella seconda. Poniamo d=½ X1- X2½. La distanza può essere resa variabile tra 0 e 1 dividendola per il suo massimo, pari alla differenza tra i valori massimo (Xmax) e minimo (Xmin) della variabile X presenti nel file.

Formalmente: X1 = X2Þd=0, X1 ¹X2Þd=
    Nella versione attuale, il valore assoluto della differenza tra X1 e X2 è diviso per X1+1, misurando uno scostamento relativo rispetto ad X1 ( la scelta di X1+1 serve per evitare un denominatore degenere, nel caso che sia X1=0). E’ evidente che la scelta di una distanza siffatta privilegia l’importanza della variabile quantitativa, in particolare se il valore di X2 risultasse molto distante da quello di X1.

Formalizzazione della funzione di distanza mista ponderata.
    Assegnata una matrice di dati, presentante k-h variabili non affette da errore, definiamo distanza mista ponderata D tra due generiche unità una espressione del tipo:

,
dove Di è la distanza tra le due unità rispetto alla variabile i, misurata con una delle espressioni di cui sopra e Wi è un numero reale positivo che rappresenta l’importanza assegnata alla variabile i nel calcolo della distanza. Le r variabili sono scelte tra le k-h quelle non affette da errore. L’attuale versione accetta solo numeri naturali per Wi.
    Chiamiamo variabili di accoppiamento o di matching le r variabili scelte per il calcolo della distanza.

Scelta dell’unità donatrice.
    Data un’unità affetta da errore nella variabile k si vuole trovare l’unità esatta posta alla distanza minima. Essa è detta unità donatrice, perché il valore della variabile k relativo ad essa è "donato" all’unità affetta da errore. L’insieme della unità tra le quali è scelta l’unità donatrice è detto serbatoio dei donatori. Il serbatoio dei donatori può essere costruito in due modi:

  1. selezionando le unità esatte rispetto alla sola variabile k;
  2. selezionando le unità esatte rispetto a tutte le variabili.
    Nel primo caso si usa un diverso serbatoio per ogni variabile da errata, nel secondo caso si utilizza un serbatoio unico per tutte le variabili affette da errore. La prima procedura è utile quando si desidera disporre di serbatoi di donatori relativamente numerosi per ogni variabile da correggere.
    Questa scelta deve essere effettuata e realizzata prima di utilizzare Concord.
 
    La scelta dell’unità donatrice è ulteriormente affinabile scegliendo, nell’insieme delle variabili non affette da errore e non usate come variabili di accoppiamento, delle variabili dette di strato. Dopo aver formato il serbatoio dei donatori in uno dei due modi di cui sopra, si seleziona l’unità donatrice tra quelle che inoltre, rispetto alle variabili di strato, presentano le stesse modalità dell’unità affetta da errore. L’uso di variabili di strato implica l’accettazione della possibilità di non avere donatori idonei per quell’unità.

Funzione di distanza mista ponderata corretta.
    Possiamo introdurre un perfezionamento alla distanza mista ponderata sopra introdotta, per penalizzare l’unità del serbatoio che è già stata utilizzata nella donazione. Ridefiniamo la distanza D come:

,
dove k è il numero di volte per cui l’unità è stata precedentemente utilizzata, p è un fattore di penalità. Questa espressione più completa è adottata da RIDA, che richiede che p sia un numero intero.

Ponderazione delle variabili di matching.
    Sono molte le tecniche possibili di ponderazione delle variabili di matching. Le applicazioni finora realizzate nell’interno dell’istituto hanno utilizzato il criterio del  (si veda [1]). Esso si applica nel seguente modo:

  1. si misura la connessione tra la variabile affetta da errore e quelle esatte tramite l’indice. Il valore dell’indice dipende dal numero di celle della tabella di contingenza. Poiché bisogna confrontare il valore dei  ottenuti, per renderli confrontabili occorre o riclassificare in modo opportuno almeno la variabile da correggere, se di tipo quantitativo, in modo da ottenere tabelle di contingenza di dimensioni omogenee, oppure dividere direttamente il valore del  per il numero di gradi di libertà, che è pari al prodotto tra il numero delle righe e delle colonne della tabella di contingenza diminuiti entrambi di uno;
  2. l’utilizzatore del metodo deve esaminare criticamente i valori di 
così ottenuti, eventualmente divisi per il numero dei gradi di libertà: le variabili non affette da errore che presentano il valore più alto sono le migliori candidate ad essere variabili di strato, quelle con valore immediatamente inferiore possono diventare variabili di matching. L’utilizzatore del metodo deve usare i valori come supporto a una decisione che tiene anche conto della sua conoscenza dell’indagine.

    La scelta delle variabili di strato deve tener conto anche del fatto che all’aumentare del loro numero, aumenterà la selettività nell’ambito del serbatoio dei donatori, ma aumenterà anche la probabilità di non trovare il donatore. Nelle applicazioni finora realizzate è stata sempre impiegata una sola variabile di strato.

Modalità di utilizzo.
    L’utente deve preparare 3 file.
    1) File contenente i record errati.
        In esso le variabili affette da errore debbono contenere un carattere di errore ripetuto per tutta la lunghezza del campo.
    2) File contenente i record esatti,
        costituenti il serbatoio dei potenziali donatori.
    3) File dei parametri.
    Viene generato automaticamente da Concord dopo aver definito le variabili da correggere con il carattere di errore, particolarmente importante perché solo i campi in cui esso è presente sono soggetti a correzione, le variabili di strato e di matching. Per ogni variabile occorre specificare la posizione iniziale, la lunghezza, il tipo (obbligatorio per le variabili di matching, al fine della scelta della funzione di distanza da adottare) e il peso. Le variabili quantitative possono essere riclassificate, specificando l’estremo superiore di ogni classe. Si possono poi inserire i parametri U,R,L. Essi sono, rispettivamente, il numero massimo di volte che la stessa unità può essere utilizzata come donatrice, il fattore moltiplicativo che penalizza l’uso ripetuto dello stesso donatore e la massima distanza a cui può essere considerato un donatore. Vale la stessa avvertenza formulata a proposito dell’uso degli strati: l’uso dei parametri U e L implica la possibilità di non riuscire a trovare il donatore. I parametri U, R, L possono mancare: questo implica che non si pone alcun limite alla possibilità di riutilizzare lo stesso donatore ed esso può essere scelto anche molto distante rispetto all’unità donatrice.

    Dopo la corretta esecuzione dei vari passi, l’utente dovrà provvedere a fondere in un file unico il file dei record esatti, quello dei corretti e quello eventuale degli incorretti.

    Se è stato prodotto il file dei record incorretti, nel file unico creato dall’utente i record non corretti conterranno ancora il carattere di errore: essi debbono essere corretti con una tecnica alternativa.