Approccio
deterministico
Fase
di controllo dei record
La fase di applicazione delle regole di dominio,
di compilazione e di compatibilità ai dati grezzi non può
che essere compiuta in modo deterministico: per ogni record, o per gruppi
di record, vengono applicate tali regole che, se verificate, segnalano
sicuramente la presenza di errori.
Ad esempio:
SE (sesso = maschio
E professione = casalinga) ALLORA sussiste
incompatibilità x
Una regola di questo tipo non individua, di per sé, l'errore che
ne causa l'attivazione: infatti, l'errore (inteso come valore non vero,
cioè non rispondente alla modalità del carattere che l'unità
effettivamente possiede) può celarsi in una o nell'altra delle variabili,
o in entrambe.
Fase
di localizzazione degli errori
E' in questa fase che diviene decisivo il tipo di
approccio adottato. Nell'approccio deterministico, ad ogni situazione
di incompatibilità segue, contestualmente, l'indicazione delle variabili
che debbono considerarsi errate, e, in quanto tali, da imputare. Nell'esempio
considerato avremo, per ipotesi:
SE (sesso = maschio
E professione = casalinga) ALLORA
sesso ¬ femmina
il che significa che, se in un record è attivata la condizione di
incompatibilità "maschio/casalinga", la regola indica l'azione da
effettuare per correggere l'errore, che consiste nell'imputare la modalità
femmina
alla variabile sesso.
Generalizzando, una volta attivate, mediante le
regole di compatibilità, una o più condizioni di errore in
un dato record, sono determinate a priori le azioni da intraprendere per
riportare il medesimo record in una situazione di correttezza.
Le procedure deterministiche sono generalmente costituite
da regole di imputazione deterministica (R.I.D.) del tipo:
SE [condizione di errore] ALLORA
[azione di correzione]
La condizione di errore della regola esprime le relazioni
intercorrenti tra le variabili implicate; l'azione di correzione riguarda
delle variabili che possono essere o meno incluse nella parte "SE".
Un record, durante l'esecuzione della procedura di
correzione, potrà causare l'attivazione di alcune di queste regole
(quelle in corrispondenza delle quali è verificata la parte SE):
in tal caso saranno modificate le variabili indicate nella parte ALLORA
assegnando loro valori predefiniti o scelti in altro modo
Nel caso delle variabili quantitative, non si tratta
solo di individuare le variabili errate, cioè quelle che determinano
l'attivazione di incompatibilità, ma anche di determinare, per ogni
variabile, dei limiti al di là dei quali i valori riscontrati possono
essere considerati come outlier, cioè valori che contraddicono
la tendenza generale, a livello trasversale (relativamente all'insieme
delle unità rispondente in una stessa ripetizione dell'indagine)
oppure a livello longitudinale (relativamente alle risposte fornite dalle
unità in ripetizioni differenti della stessa indagine).
Sulla base dell'andamento effettivo di una data variabile,
viene determinato l'intervallo di accettazione: se in un record il valore
della variabile cade al di fuori di tale intervallo, la variabile è
considerata errata, e candidata all'imputazione.
Fase
di correzione degli errori (imputazione delle variabili errate)
Una volta individuate le variabili contenenti gli
errori che hanno causato l'attivazione delle incompatibilità, oppure
i cui valori sono stati giudicati outlier, occorre procedere alla fase
di imputazione di tali variabili, onde rimuovere gli errori, cercando di
ripristinare i valori veri.
Un metodo di imputazione è deterministico
quando il nuovo valore di una variabile è stabilito con certezza
sulla base di un'indicazione diretta di tale valore, oppure di vincoli
logici, o mediante calcolo. Tra i vari metodi deterministici citiamo:
-
imputazione da valore prefissato:
nell'esempio di R.I.D. citato in precedenza, nella parte ALLORA della regola
non solo si definiva la variabile "sesso" come la variabile errata da correggere,
ma veniva anche indicato il valore da assegnare a tale variabile, cioè
"femmina";
-
imputazione "logica" (da vincoli logici):
l'imputazione, in tal caso, è determinata da vincoli tali da restringere
ad un valore unico quello da assegnare alla variabile errata. L'esempio
precedente è anche un caso di imputazione logica: il valore "femmina"
è l'unico in grado di disattivare la condizione della parte SE.
Un ulteriore esempio, per le variabili quantitative: se una regola di compatibilità
stabilisce che le spese devono essere inferiori al reddito, e se quest'ultimo
è pari a zero, allora l'unico valore imputabile alla variabile "spese"
è proprio zero;
-
imputazione da serie storica: per variabili
che tendono ad essere stabili nel tempo, in caso di imputazione viene riproposto
il valore disponibile nel periodo immediatamente precedente. Come variante,
tale valore viene "aggiustato" per tenere conto del trend della serie storica
relativa alla variabile;
-
imputazione del valor medio: alla variabile
viene imputato il valor medio calcolato sui dati disponibili, o in un opportuno
strato di questi (è un metodo che può essere utilizzato solo
per le variabili quantitative). Lo svantaggio è che in tal modo
viene introdotta una seria distorsione nella distribuzione della variabile,
creando un picco artificiale in corrispondenza del suo valor medio;
-
imputazione sequenziale da donatore "hot deck":
in una data variabile il valore errato viene sostituito dal valore corrispondente
della ultima unità rispondente. Con questo metodo è estremamente
importante l'ordinamento cui è sottoposto il file oggetto della
correzione: le variabili di ordinamento sono quelle rispetto alle quali
è assicurata la minima distanza tra il record ricevente e
quello donatore. Un possibile aspetto negativo di tale metodo è
nel fatto che uno stesso donatore può essere utilizzato più
volte, tante quanto la dimensione di un insieme di record adiacenti che
necessitano di correzione: ciò può creare picchi artificiali
nei valori della variabile;
-
imputazione dal più vicino donatore:
la differenza col metodo precedente consiste nel fatto che il donatore
è scelto in modo tale da una qualche misura della distanza tra esso
ed il ricevente è minimizzata. In genere, la distanza scelta non
è di tipo spaziale, ma una misura multivariata basata sui dati disponibili:
per tale ragione, il metodo è più appropriato per le variabili
quantitative. Tra i vantaggi, citiamo quello relativo al mantenimento ottimale
delle distribuzioni multivariate originali. Lo svantaggio è comune
al metodo precedente: uno stesso donatore può essere utilizzato
più volte; esiste però la possibilità di limitare
questo svantaggio, ponendo un tetto al numero di volte che uno stesso record
può essere utilizzato come donatore, oppure introducendo nella funzione
di distanza una funzione di penalizzazione che tiene conto del numero di
volte che un dato record è già stato utilizzato come donatore;
-
imputazione da regressione: per l'imputazione
di una data variabile viene utilizzato il valore fornito da una funzione
di regressione che fa uso di una o più variabili ausiliarie. La
variabile da imputare deve essere quantitativa, mentre le variabili indipendenti
possono essere continue o discrete. Il metodo assicura buoni risultati
sotto due condizioni: (i) alta correlazione tra variabile da imputare e
variabili ausiliarie e (ii) disponibilità di valori corretti delle
variabili ausiliarie per tutti i (o per gran parte dei) record. Un caso
particolare è dato dall'imputazione da rapporto (ratio) in
cui viene considerata la relazione tra la variabile da imputare ed una
variabile ausiliaria con essa altamente correlata: in tal caso entrambe
devono essere di tipo continuo. Questo metodo si rivela adeguato nei casi
in cui la variabile da imputare è affetta da un errore di tipo stocastico,
oppure sistematico ma il cui andamento è legato alla variabile ausiliaria.
I limiti fondamentali di cui soffrono i metodi deterministici
risiedono nel fatto che essi spesso riducono la variabilità della
variabile imputata, e talvolta introducono distorsioni. Per queste ragioni
sono state introdotte delle tecniche di imputazione stocastica, molte delle
quali rappresentano varianti dei metodi deterministici, ideate per mantenere
le distribuzioni e la variabilità dei dati.
Un
modello generale di imputazione
Molti dei metodi di imputazione possono essere visti
come casi particolari della stima di un modello di regressione:
in cui
rappresenta il
valore imputato per la k-esima unità con un valore mancante,
è il valore delle variabili ausiliarie
e
sono
i coefficienti della regressione di y su x per i rispondenti,
mentre
costituisce un residuo
corrispondente ad uno schema probabilistico associato al particolare metodo
di imputazione prescelto. Alcuni casi particolari:
i.
; in questo caso
costituisce il valore stimato con modello di regressione;
ii. se
e xj
è una variabile dummy che denota la classe allora l弾quazione
equivale all段mputazione con media della classe, ossia
,
di cui l'imputazione mediante media globale può essere vista come
un caso particolare in cui non si utilizzano informazioni ausiliarie;
iii. se alla media della classe in ii. si aggiunge una componente casuale
individuale
si è
ricondotti all段mputazione stocastica all'interno di classi, che equivale
all誕dattamento ai dati di un modello ANOVA con effetti casuali, in cui
il residuo è costituito dallo scarto per ciascun rispondente dalla
media della classe, ossia
.
Le imputazioni con metodo hot-deck (sequenziale o gerarchico, all'interno
di classi) possono essere rappresentate come casi particolari di questo
tipo di imputazione.
La distinzione essenziale tra metodi deterministici
e metodi stocastici di imputazione dipende dall誕vere posto
oppure no. La scelta tra un metodo di imputazione deterministica ed uno
stocastico può essere fatta sulla base degli obiettivi che l'analisi
dei dati dell'indagine si prefigge. Così per la stima della media
della popolazione sulla base di valori osservati e valori imputati è
preferibile utilizzare un metodo di imputazione deterministica in quanto,
pur potendo effettuare una scelta controllata della componente casuale
in una imputazione stocastica, ciononostante ne consegue una certa perdita
di precisione delle stime.
Per contro, ai fini della stima della variabilità
e della distribuzione della variabile di studio un段mputazione deterministica
può condurre a risultati di modesta qualità. Un semplice
esempio è rappresentato dall段mputazione mediante valore medio.
La sostituzione in tutte le MR del valore medio dei rispondenti (eventualmente
all段nterno di classi di imputazione) crea picchi artificiali nella distribuzione
delle risposte in corrispondenza del valore medio delle classi, riducendo
la variabilità della variabile di studio, soprattutto per la parte
di variabilità all段nterno delle classi. In tali casi, l置so
di un metodo di imputazione stocastica, di tipo hot-deck ad es.,
consegue migliori risultati. Esistono poi particolari proposte metodologiche
(imputazione multipla, ad es.) che cercano, oltre che ricostruire le MR
garantendo la variabilità dei valori dei rispondenti, di ottenere
una stima di una componente aggiuntiva della variabilità totale,
legata al processo stesso di ricostruzione.
Qualora si opti per una imputazione stocastica si
pone il problema della scelta di una opportuna distribuzione da cui estrarre
la componente stocastica. Una scelta naturale con una imputazione mediante
modello (di regressione) è quella di una distribuzione dei residui
normale con media zero e varianza uguale alla varianza residua della regressione
sui rispondenti.
Possibili alternative sono rappresentate dalla scelta
casuale dalla distribuzione empirica dei residui dei rispondenti o la scelta
di un residuo a partire da unità rispondenti considerate "vicine"
all'unità con valore mancante sulla base di variabili ausiliarie.
Ciò è, ad esempio, quello che si verifica con una imputazione
con donatore (hot-deck o nearest-neighbour), in cui all置nità
con MR è assegnato un valore da un sottoinsieme di unità
rispondenti considerate "vicine".
Vantaggi
e svantaggi dell'approccio deterministico
Molto schematicamente, possiamo ascrivere ai vantaggi
del metodo deterministico:
-
la completa applicabilità: una procedura deterministica è
sempre applicabile ai dati una volta tradotte le regole di imputazione
deterministica in istruzioni di un programma;
-
l'efficienza elaborativa: il tempo necessario per eseguire il programma
che traduce la procedura deterministica è lineare rispetto al numero
di regole e al numero di record;
-
l'orientabilità degli effetti: lo statistico può orientare
i risultati dell'applicazione della procedura deterministica definendo
opportunamente la parte imputazione di ogni regole, e la sequenza di queste
nel piano.
Quest'ultimo elemento è di una certa importanza:
ad esempio, sulla base della fiducia che lo statistico nutre rispetto alla
correttezza delle variabili, egli può implicitamente stabilire una
gerarchia tra queste, orientando la modifica verso quelle che egli ritiene
meno affidabili. In realtà, questo è un risultato che si
può ottenere, utilizzando opportuni pesi, anche nel caso delle procedure
non deterministiche.
Tra gli svantaggi ed i limiti del deterministico citiamo:
-
la mancata garanzia di correttezza dei record alla fine della fase di correzione
e la conseguente necessità di cicli di controllo e correzione;
-
la mancata garanzia di minimizzazione dei cambiamenti della distribuzione
originale, ovvero non è assicurato il risultato che in ogni record
errato il numero di variabili modificate per riportarlo ad una situazione
di correttezza sia il minimo possibile;
-
l'introduzione di distorsioni nelle distribuzioni e la perdita di variabilità.
In caso di errori sistematici, l'approccio deterministico
si rivela, nella maggior parte dei casi, il più adatto, soprattutto
nel passo di localizzazione degli errori. L'applicazione del probabilistico,
al contrario, rischia di introdurre nuove distorsioni nei dati, qualora
non si pesino opportunamente le variabili per tener conto della sistematicità
di tali errori.