Metodologia dell'imputazione probabilistica
L'approccio per l'imputazione probabilistica in CONCORD
si basa sulle funzioni di SCIA (Sistema
di Controllo e Imputazione Automatica) sistema per
l'editing e l'imputazione automatica di variabili qualitative.
Opera esclusivamente su variabili di tipo qualitativo,
o quantitative rapportabili a qualitative perché suddivisibili in
classi o con dominio poco numeroso (ad esempio l'età) e consente
l'individuazione e la correzione automatica degli errori di tipo casuale
presenti nei dati con un metodo interamente basato sulla metodologia
di Fellegi-Holt.
Per eseguire i processi di controllo e di imputazione
dei valori delle variabili devono essere specificate le elaborazioni da
effettuare sui dati e le modalità con cui esse devono essere realizzate
riassumibili in 5 passi principali:
-
definizione delle variabili,
cioè dei campi del tracciato record dell'indagine con nome, posizione
e lunghezza;
-
definizione delle regole formali (o strutturali),
cioè di quelle regole che derivano direttamente dalla struttura
del questionario (in particolare, dalle istruzioni di compilazione del
questionario stesso). Esse esprimono condizioni di incompatibilità
fra variabili, specificano cioè situazioni di non correttezza dei
record. In particolare, esse indicano quando la presenza o l誕ssenza di
risposta per una variabile o una lista di variabili risulta incompatibile
con i valori assunti da variabili precedenti. Esse vengono inserite direttamente
in forma normale;
-
definizione delle regole sostanziali,
cioè
di quelle regole che derivano dalle conoscenze a priori sulle relazioni
esistenti fra le variabili rilevate. Come le regole formali anch弾sse esprimono
condizioni di incompatibilità fra variabili, specificano cioè
situazioni di non correttezza dei record e vengono inserite direttamente
in forma normale;
-
creazione dell'insieme completo:
questo passo è eseguito dopo aver inserito le regole originali.
E' dalle caratteristiche di questo insieme (completezza, non contraddittorietà,
ecc.) che dipende in massima parte la qualità dei risultati finali.
-
specificazione dei parametri,
mediante i quali vengono definite modalità generali per la fase
di imputazione. Concord prevede che siano specificati:
Una volta inserito l'insieme delle regole formali e
sostanziali (insieme
iniziale delle regole) prima dell弾secuzione
della fase di controllo dei dati ed imputazione, il sistema prevede che
vengano effettuate alcune elaborazioni distinte:
1.
Controllo delle regole e generazione dell段nsieme minimale di edit
La generazione dell'insieme minimale viene effettuata al fine di :
-
eliminare eventuali regole ridondanti, ossia regole che esprimono
condizioni già implicate in altre regole;
-
segnalare regole direttamente contraddittorie;
-
aggregare regole che si possono combinare fra loro.
L'insieme minimale è quindi di dimensioni
non superiori a quelle dell'insieme originale ed è sufficiente per
il controllo dei dati. Il suo utilizzo ai fini dell段mputazione, però,
non garantisce né la correttezza dei risultati finali, né
la minimalità nel numero di correzioni che verranno effettuate sui
dati: solo l段nsieme completo fornisce questo tipo di garanzie. Inoltre,
i tempi di elaborazione per l'imputazione di ogni record possono essere
elevati, in quanto il sistema può dover effettuare un gran numero
di tentativi prima di individuare la soluzione per la correzione del record.
Maggiore è il rapporto fra il numero di edit
impliciti ed il numero di edit originali, maggiore è la frequenza
con cui tali inconvenienti si verificano. Nel caso in cui tale rapporto
è molto basso, l'applicazione ai dati dell'insieme minimale dà
risultati soddisfacenti: per questo motivo si può decidere di generare
ed applicare ai dati solo l'insieme minimale, senza porsi il problema della
generabilità dell'insieme completo ed, eventualmente, della suddivisione
dell'insieme originale degli edit.
Le necessità di cui ai punti a, b e c fanno
sì che l'insieme minimale venga sempre generato, anche nel caso
in cui sia possibile generare l段nsieme completo. Il ricorso all'insieme
minimale per la localizzazione degli errori o la loro imputazione è
perseguito nel caso in cui risulti impossibile o eccessivamente onerosa
la generazione dell段nsieme completo. Concord genera nella cartella di
progetto il file "regole_da_minset" con il set minimale di regole che serve
al riciclo del passaggio di controllo delle regole e generazione dell段nsieme
minimale di edit per verificare eventuali ulteriori accorpamenti.
2.
Generazione dell段nsieme completo di edit
Con la generazione dell段nsieme completo di edit
il sistema individua tutti gli edit implicitamente contenuti nell'insieme
iniziale di regole (edit espliciti), combinando fra loro gli edit
originali secondo la metodologia di Fellegi-Holt.
Il procedimento di generazione consiste nel tentare di combinare gli
edit assumendo come campo generatore via via tutte le variabili coinvolte:
se questo procedimento produce nuovi edit, esso va ripetuto anche combinando
gli edit nuovi con quelli preesistenti, e così via fino a quando
nessun nuovo edit viene prodotto.
La generazione dell段nsieme completo garantisce la creazione di un
insieme di edit non contraddittorio, e la correttezza della correzione
dei dati rispetto a tali regole.
3.
Eventuale suddivisione dell'insieme originale di regole
Nel caso in cui non sia stato possibile generare
l'insieme completo di edit a causa dell'eccessiva complessità ed
onerosità dell'operazione, occorre procedere a ridurre tale complessità
suddividendo l'insieme iniziale di regole in due o più sottogruppi:
tali sottogruppi saranno poi sottoposti, separatamente al processo di generazione
dell'insieme completo. Poiché, lo ricordiamo, ad ogni insieme di
regole corrisponde un processo di elaborazione dei dati (editing e imputazione),
l'operazione di suddivisione dell'insieme originale di edit comporta la
generazione di due o più distinti processi di elaborazione. Se gli
insiemi di regole generati sono disgiunti, l'ordine di esecuzione è
ininfluente. Se invece gli insiemi di regole generati contengono variabili
comuni, durante l'esecuzione di uno dei processi di elaborazione sarà
necessario tenere fisse tutte le variabili imputate dal/dai processi precedentemente
eseguiti. Naturalmente la suddivisione sarà tanto migliore quanto
minore è il numero di variabili comuni: il risultato ottimale è
quello in cui i vari sottoinsiemi di regole risultano completamente disgiunti
Controllo dei dati:
Il problema dell'individuazione dei record errati consiste
nel localizzare, usando la funzione di check, le unità statistiche
in cui le variabili rilevate assumono valori tali da attivare uno o più
edit del piano di incompatibilità.
Correzione dei dati:
Identificati i record che violano uno o più edit,
per ognuno di essi il sistema, tramite la funzione di imputazione, deve
individuare l'insieme di variabili da modificare e l'insieme dei valori
da assegnare ad esse in modo tale che siano garantite le seguenti proprietà:
-
il numero di correzioni per ogni record sia minimo;
-
restino invariate le distribuzioni originali dei dati;
-
il record risultante soddisfi tutti gli edit.
Il problema di cui al punto i) viene risolto in Concord
implementando l'algoritmo proposto da Fellegi-Holt: "l'insieme minimo
di variabili da imputare viene determinato attraverso l'identificazione
di quelle variabili che coprono tutti gli edit attivati dal record errato".
L'utente può comunque impedire o rendere meno probabile l'inserimento
di una o più variabili nell'insieme minimale, assegnando a ciascuna
di esse un grado di fissità (da 1 a 9) dipendente dalla probabilità
di errore prevista per tali variabili.
Per quanto riguarda i problemi di cui ai punti ii)
e iii), essi trovano soluzione all'interno degli algoritmi implementati
in Concord per l'imputazione dei dati.
In particolare, sono possibili tre possibili strategie
di correzione:
1. imputazione congiunta;
2. imputazione sequenziale
;
3. imputazione basata sulle distribuzioni
marginali o imputazione forzata.
Le prime due sono strategie di correzione del tipo "da
donatore", mentre la terza tecnica è basata sull'analisi e sull'utilizzo
delle distribuzioni marginali semplici rilevate nell'indagine per le variabili
dell'insieme minimale.
Per quanto riguarda la correzione dei dati, in Concord
è presente una procedura generale di imputazione che, implementando
al suo interno (sequenzialmente) le suddette strategie di correzione, ha
una struttura indipendente dalle caratteristiche delle strategie stesse.
Le caratteristiche delle diverse tecniche di imputazione agiscono infatti
solo all'interno di alcune delle fasi componenti la procedura di correzione
stessa.
Tale procedura generale è costuita da due
fasi principali:
-
costruzione di un "serbatoio" di record
donatori, costruzione dipendente dalle specifiche assegnate dall'utente
tramite i parametri e selezione del
record errato;
-
scelta del donatore e correzione dei record, le cui modalità dipendono
dal tipo di algoritmo di correzione utilizzato.
Si tenga presente che, mentre il meccanismo di costruzione
del serbatoio può essere controllato dall'utente (appunto attraverso
i parametri), la particolare strategia di imputazione che il sistema adotterà
per l'effettiva correzione di un certo record dipende quasi esclusivamente
da criteri ed elaborazioni interni al sistema stesso.
Come già detto, in CONCORD sono implementate
due metodologie di imputazione da donatore:
· imputazione
congiunta;
· imputazione
sequenziale.
La prima tecnica, in particolare, prevede le due seguenti
versioni:
-
imputazione congiunta ristretta,
in
cui, dato un certo record errato, vengono selezionati come possibili donatori
quei record che possiedono, per le variabili di
accoppiamento, valori identici a quelli contenuti nel record
errato;
-
imputazione congiunta allargata,in
cui, dato un certo record errato, vengono selezionati come possibili donatori
quei record che possiedono, per le variabili di
accoppiamento, valori contenuti nei corrispondenti intervalli
(range) opportunamente determinati.
Nel caso di imputazione sequenziale si procede
ad imputare una variabile alla volta: per ciascuna variabile appartenente
all段nsieme minimo viene calcolato il range dei valori ammissibili;
per ciascuna di esse viene quindi cercato nel serbatoio e, se esiste, selezionato
un record donatore con valore compreso nel corrispondente range.
Riassumiamo quindi le varie fasi di cui si compone
il processo di correzione dei dati con tecniche da donatore:
-
Inviduazione dell段nsieme minimale.In
questa fase, dato il record errato r, viene determinato il minimo numero
di variabili da correggere tra quelle presenti in tutti gli edit attivati
da r.
-
Controllo delle variabili marginali.Prima
di procedere alla ricerca del donatore, il sistema verifica la presenza
di qualcuna delle variabili dell'insieme minimale all'interno della lista
di variabili specificata come marginali. In caso positivo, tali variabili
vengono corrette direttamente col metodo dell'imputazione forzata, e si
procede alla ricerca del donatore per la correzione delle variabili residue
dell'insieme minimale.
-
Selezione del donatore. In questa
fase, a seconda della strategia di imputazione adottata, viene selezionato
dal serbatoio il record donatore d.
Nel caso in cui, per un certo record errato r, non sia
stato possibile individuare un donatore adatto con nessuna delle tecniche
da donatore disponibili in CONCORD,
il sistema corregge automaticamente le variabili dell'insieme minimale
utilizzando le corrispondenti distribuzioni marginali semplici (correzione
forzata). La correzione di tali variabili avviene sequenzialmente.
Per la correzione di una o più variabili
l'utente può anche decidere di non tentare affatto la correzione
basata sulle tecniche da donatore, può cioè richiedere al
sistema di sottoporre direttamente tali variabili al metodo dell'imputazione
forzata specificandole come marginali.
La tecnica di correzione forzata è basata
su un algoritmo random di estrazione del valore da assegnare alla variabile
errata (selezionato tra i valori ammissibili), estrazione guidata da una
funzione di probabilità definita sulla base della distribuzione
di frequenze che la variabile stessa assume nel file dei dati originari.
Gli eventuali pesi da assegnare alle modalità
delle variabili da correggere mediante imputazione forzata devono essere
specificati.
L置so di regole di tipo deterministico è
previsto solo nel caso si debbano correggere errori di tipo sistematico:
questo tipo di errori derivano, generalmente, da problemi strutturali nel
questionario, nell'organizzazione della rilevazione, nella registrazione
dei dati. La presenza di errori sistematici nei dati viene generalmente
verificata attraverso un'analisi delle imputazioni probabilistiche effettuate
dal sistema, analisi condotta possibilmente in fase di test del piano di
incompatibilità.
Questa analisi viene condotta sulla base dei report che CONCORD
produce automaticamente al termine del processo di correzione.
La
metodologia Fellegi-Holt per il controllo e la correzione delle variabili
qualitative
Tre sono i criteri fondamentali per l'imputazione delle variabili qualitative
alla base della metodologia proposta da Fellegi
e Holt:
1. in ogni record i dati devono soddisfare tutte le regole
di validità e incompatibilità, cambiando il meno possibile
il valore dei campi;
2. le regole di imputazione devono essere derivate dalle regole di
controllo, senza esplicita specificazione;
3. le distribuzioni di frequenza marginali e congiunte devono essere
mantenute il più possibile.
Edit in forma normale
Distinguiamo gli edit logici, riguardanti le variabili qualitative,
dagli edit aritmetici, riguardanti le variabili quantitative.
DEFINIZIONE: un edit
logico esprime una condizione di inaccettabilità
su una data combinazione di valori di due o più variabili
Un edit può essere formalizzato come l'applicazione di una funzione
f a sottoinsiemi dei domini di n variabili:
dove:
: sottoinsieme del dominio
della variabile i-esima
f : funzione logica che connette i vari
mediante gli operatori logici di intersezione (Ç
) e unione (È )
Un record a è errato se:
a Î
Applicando ripetutamente alla f la legge distributiva
otteniamo:
=
(
Ç
Ç
... Ç
) È (
Ç
Ç
... Ç
) È ... È
(
Ç
Ç
... Ç
)
Possiamo dire che un record è errato se appartiene ad almeno uno
dei termini a secondo membro. Definiamo come "edit in forma normale" ognuno
di tali termini.
DEFINIZIONE: un edit
in forma normale è un edit logico in cui l'unico
operatore ammesso è quello di intersezione
In simboli:
Ogni edit logico, di qualsiasi forma, può sempre essere tradotto
in una serie di edit in forma normale. Consideriamo, ad esempio, la seguente
regola (di compatibilità):
"Se una persona ha età inferiore a
16 anni, oppure frequenta una scuola elementare, allora non può
essere capo-famiglia, ed il suo stato civile deve essere celibe o nubile"
Questa regola può essere convertita in una
serie di edit in forma normale attraverso i seguenti passi:
1. formalizzazione:
[ (Età <
16) È (Scuola Elementare)]®[
(Ø Capo-famiglia)
Ç
(Celibe/Nubile) ]
2. traduzione in regola di incompatibilità:
[ (Età <
16) È (Scuola Elementare)]ÇØ[
(Ø Capo-famiglia)
Ç
(Celibe/Nubile) ] = errore
3. semplificazione:
[ (Età <
16) È (Scuola Elementare)]Ç[
(Capo-famiglia)
È (Ø
Celibe/Nubile) ] = errore
4. applicazione della legge distributiva:
[ (Età <
16) Ç (Capo-famiglia)]È
[ (Età <
16) Ç (Ø
Celibe/Nubile)] È
[ (Scuola Elementare) Ç
(Capo-famiglia)] È
[ (Scuola Elementare) Ç
(Ø Celibe/Nubile)]
= errore
I quattro termini nell'ultima espressione sono altrettanti edit in forma
normale.
L'insieme completo degli edit
DEFINIZIONE: gli edit in forma normale
specificati direttamente dallo statistico sono detti edit
espliciti.
Un record che non attiva alcun edit esplicito si dice corretto, e non
necessita di alcuna modifica. Al contrario, un record che attiva almeno
un edit esplicito si dice errato, e necessita della modifica di almeno
una variabile.
Mentre gli edit espliciti sono necessari e
sufficienti per determinare la correttezza di un record, essi non sono
sufficienti per una sua ottimale correzione.
DEFINIZIONE: chiamiamo edit
implicito un edit logicamente contenuto negli edit espliciti.
La funzione degli edit impliciti, considerati congiuntamente con gli
edit espliciti, è quella di permettere la correzione ottimale di
un record errato.
DEFINIZIONE: l'insieme
completo degli edit è dato dall'unione degli edit
espliciti e di quelli impliciti.
Per eseguire in modo ottimale il passo
di scelta delle variabili da imputare, e di determinazione del range di
valori imputabili, è necessario preventivamente generare
l'insieme completo di edit.
Consideriamo il seguente esempio.
Supponiamo che un record contenga tre variabili, di cui siano definiti
i seguenti domini:
| VARIABILI |
DOMINI |
| ETA' |
0-14, 15-99 |
| STATO CIVILE (STACIV) |
celibe, coniugato, separato,divorziato,vedovo |
| RELAZIONE COL CAPO FAMIGLIA (RELCF) |
capofamiglia, coniuge, altro |
Siano stati definiti i seguenti edit in forma normale espliciti, esprimenti
condizioni di incompatibilità:
I. (ETA' = 0-14) Ç (STACIV = coniugato,
separato,divorziato,vedovo)
II. (STACIV = celibe, separato, divorziato, vedovo) Ç
(RELCF = coniuge)
Possiamo riscriverli come condizioni di compatibilità nel seguente
modo:
(ETA' = 0-14) ® (STACIV = celibe)
(STACIV = celibe, separato, divorziato, vedovo) ®
(RELCF ¹ coniuge)
Poichè la conseguenza della prima implicazione è contenuta
nella premessa della seconda, possiamo derivare che
(ETA' = 0-14) ® (RELCF ¹
coniuge)
relazione che, opportunamente ritradotta in forma normale, diventa:
III. (ETA' = 0-14) Ç (RELCF = coniuge)
Questo terzo edit era implicitamente contenuto nei primi due.
Supponiamo ora di considerare il seguente record:
(ETA' = 0-14) Ç (STACIV = coniugato)
Ç
(RELCF = coniuge)
Questo record attiva gli edit I e III.
Per correggere il record, ricerchiamo l'insieme minimo di variabili
che copra tutti gli edit attivati (espliciti e impliciti)
dal record in questione. Nel nostro caso verifichiamo che la variabile
ETA' è presente sia nel primo che nel terzo edit attivato. Per disattivare
tali edit è sufficiente assegnare a ETA' un valore interno all'intersezione
dei complementi dei valori che compaiono negli edit attivati o attivabili:
(Ø 0-14) Ç
(Ø 0-14) = 15-99
Assegnando il valore 15-99 alla variabile ETA', il record può
dirsi corretto, in quanto non attiva alcun edit: nel far ciò abbiamo
tenuto conto del principio del minimo cambiamento, in quanto abbiamo modificato
una sola variabile.
Se in questo processo di ricerca dell'insieme minimale di variabili
da imputare non avessimo tenuto conto dell'edit implicito, avremmo considerato
il solo edit I: per disattivarlo, avremmo potuto scegliere di imputare
sia ETA' che STACIV. Se avessimo scelto STACIV, che compare anche nell'edit
II, avremmo constatato che l'intersezione del complemento dei relativi
valori è l'insieme vuoto Æ :
Ø (coniugato, separato,divorziato,vedovo)
ÇØ
(celibe, separato, divorziato, vedovo) =
= celibe Ç coniugato = Æ
L'impossibilità di trovare dei valori imputabili a STACIV tali
da correggere il record deriva dal fatto che STACIV non è contenuto
nell'edit III, implicito, attivato dai valori delle variabili ETA' e RELCF.
La conseguenza di carattere generale è che la
non considerazione degli edit impliciti non permette di definire sempre
insiemi minimi di variabili da imputare che siano in grado di riportare
il record in una situazione di correttezza.
LEMMA: dati s edit 
e n variabili, per ogni arbitraria variabile i, un edit
si dice generato dagli s edit se e solo se
In altri termini, fissata una variabile i (detta generante), il
corrispondente
sarà
ottenuto come unione degli
,
mentre ogni altro
sarà
ottenuto come intersezione degli
.
DEFINIZIONE: Un edit generato si diceedit
implicito essenzialmente nuovo se e solo se:
1.
coincide
col dominio della variabile i;
2. ogni
è non
vuoto ed è un sottoinsieme proprio del dominio della variabile i;
Consideriamo il seguente esempio. Siano dati gli edit:
I. (ETA' = 0-14) Ç
(RELCF = qualsiasi)
Ç (STACIV ¹
celibe)
II. (ETA'=qualsiasi) Ç
(RELCF = coniuge)
Ç (STACIV = celibe,
separato, divorziato, vedovo)
Se fissiamo ETA' come variabile generante otteniamo:
(ETA'=qualsiasi) Ç (RELCF = coniuge)
Ç
(STACIV = separato, divorziato, vedovo)
che è ridondante rispetto al secondo edit.
Fissando invece RELCF otteniamo:
(ETA'=0-14) Ç (RELCF = qualsiasi)
Ç
(STACIV = separato, divorziato, vedovo)
che è ridondante rispetto al primo edit.
Infine, scegliendo STACIV come variabile generante:
(ETA'=0-14) Ç (RELCF = coniuge)
Ç
(STACIV = qualsiasi)
che è un edit implicito essenzialmente nuovo.
DEFINIZIONE : Un edit generato da due o
più edit tra loro contraddittori (inconsistenti) è detto
edit
degenere
Consideriamo il seguente esempio:
I. (ETA' = 0-14) Ç
(STACIV ¹ celibe)
II. (ETA' = 15-99) Ç
(STACIV ¹ celibe)
Assumendo ETA' come campo generante, otteniamo l'edit esplicito
III. (ETA' = qualsiasi valore) Ç
(STACIV ¹ celibe) = (STACIV ¹
celibe)
che ci dice che sono errati tutti i valori di STACIV diversi da celibe,
il che chiaramente contraddice la definizione del dominio della variabile
STACIV. L'edit III è un edit degenere, ed in quanto tale può
essere generato solo da edit tra loro contraddittori.
I seguenti teoremi e corollari assicurano che, avendo
a disposizione l'insieme completo di edit, un qualsiasi record errato è
sempre correggibile, e lo è in modo ottimale.
Sia W l'insieme completo di edit, e sia
un
sottoinsieme tale da coinvolgere le prime k variabili (con l'esclusione,
quindi, di tutti gli edit in cui compaiano le variabili k+1, k+2, ... ,
n).
TEOREMA 1:
se
gli
sono possibili valori
per le prime k-1 variabili, e se questi valori soddisfano tutti gli edit
in
, allora esiste un qualche
valore
tale da soddisfare
tutti gli edit in
.
La ripetuta applicazione del teorema 1 permette di conseguire il seguente
COROLLARIO 1: se un record ha n
variabili, di cui le prime k-1 hanno valori
(i=1,2,...,k-1) tali che tutti gli edit in
sono soddisfatti, allora esistono valori
(i=k,k+1,...,n) tali da soddisfare tutti gli edit in W
.
Ed inoltre:
COROLLARIO 2: se un record ha n
variabili, di cui un sottoinsieme s ha la proprietà che almeno uno
dei valori
(iÎ
s) compare in ogni edit attivato dal record, allora esistono dei valori
(iÎ s) tali che, assieme agli
(iÏ
s) fanno si che il record soddisfi tutti gli edit.
Metodi di imputazione
La metodologia prevede, per ogni record errato:
1. l'identificazione dell'insieme
minimo di variabili da modificare;
2. per ogni variabile rientrante nell'insieme minimo, la determinazione
dell'insieme di valori attribuibili, e imputazione di
uno tra questi.
Per quanto riguarda il punto 1, ricordiamo che l'insieme minimo di variabili
da imputare è costituito da quell'insieme di variabili che "coprono"
tutti gli edit attivati dal record e che risulta essere di dimensione minima.
Per quanto concerne il punto 2, sono proposti due metodi, entrambi
di tipo hot deck, consistenti nell'imputare
in una variabile del record corrente (ricevente) il valore della stessa
variabile in un record (donatore) scelto tra quelli esatti. I metodi in
questione sono:
· metodo
dell'imputazione sequenziale;
· metodo dell'imputazione
congiunta.
METODO 1: Imputazione
sequenziale
Consideriamo un record errato di cui sia già stato identificato
un insieme minimo di k variabili da imputare. Il metodo consiste nell'imputare
dapprima la k-esima variabile, e poi, sequenzialmente, le variabili k-1,k-2,...,1.
Consideriamo tutti gli M edit in cui
· è
presente la variabile k;
· non sono presenti
le variabili 1,2,...,k-1.
Tra questi, consideriamo solo gli M' edit in cui non
sono presenti gli edit sicuramente disattivati dai valori correnti delle
variabili k+1, k+2, ... , n: gli M' edit sono quelli che possono essere
attivati o meno in funzione dei valori della sola variabile k. Se vogliamo
che il record soddisfi tali edit, il valore da assegnare alla variabile
k deve soddisfare la condizione:
cioè deve appartenere all'insieme intersezione dei complementi dei
valori indicati per la variabile k in tutti gli M' edit: tale insieme non
è mai vuoto per il teorema 1.
Lo stesso procedimento viene iterato per le variabili
k-1, k-2, ...1, fino all'esaurimento dell'insieme minimo di variabili da
imputare.
Consideriamo il seguente esempio, con 5 variabili:
| VARIABILI |
DOMINI |
| SESSO |
maschio, femmina |
| ETA |
0-14,15-16,17-99 |
| STATO CIVILE (STACIV) |
celibe, coniugato, separato, divorziato,
vedovo |
| RELAZIONE COL CAPOFAMIGLIA (RELCF) |
moglie, marito, figlio, altro |
| LIVELLO D'ISTRUZIONE (ISTRUZ) |
nessuno,elementare, secondario,
post-secondario |
L'insieme (completo) degli edit è il seguente:
: (SESSO=maschio) Ç
(RELCF=moglie)
: (ETA'=0-14) Ç
(STACIV¹ celibe)
: (STACIV¹
coniugato) Ç (RELCF=moglie,marito)
: (ETA'=0-14) Ç
(RELCF=moglie,marito)
: (ETA'=0-16) Ç
(ISTRUZ=post-secondaria)
Sia dato il seguente record:
| VARIABILE |
VALORE |
| SESSO |
maschio |
| ETA |
12 |
| STACIV |
coniugato |
| RELCF |
moglie |
| ISTRUZ |
elementare |
Il record attiva gli edit
,
,
.
Nessuna singola variabile "copre" i tre edit. Tre coppie di variabili coprono
gli edit attivati: (SESSO, ETA'), (ETA', RELCF) e (STACIV, RELCF). Supponiamo
di scegliere la coppia (SESSO, ETA'): la dimensione s dell'insieme è
pari a 2.
Sia ETA' la variabile k-esima (k=2). Consideriamo
tutti gli edit che contengono ETA' ma non SESSO (la variabile k-1=1):
: (ETA'=0-14) Ç
(STACIV¹ celibe)
: (ETA'=0-14) Ç
(RELCF=moglie,marito)
: (ETA'=0-16) Ç
(ISTRUZ=post-secondaria)
L'edit
è sempre soddisfatto per qualsiasi valore di ETA' dal momento che
nel record il valore di ISTRUZ è "elementare".
Per calcolare i valori imputabili ad ETA' dobbiamo quindi considerare solo
e
:
Î
Ç
º
Ç
= (15-99)
cercheremo quindi un record donatore con un valore di ETA' compreso tra
15 e 99: supponiamo 22.
Passiamo ora variabile SESSO (k-1=1). Solo l'edit
la contiene, quindi:
Î
º
= femmina
Essendo unico, il valore "femmina" è direttamente
imputato alla variabile SESSO. Il record corretto sarà quindi il
seguente:
| VARIABILE |
VALORE |
| SESSO |
femmina |
| ETA |
22 |
| STACIV |
coniugato |
| RELCF |
moglie |
| ISTRUZ |
elementare |
METODO 2: Imputazione
congiunta.
Per un dato record errato siano state definite le
k variabili da imputare. Si considerino gli M'' edit con le k variabili
(r=1,2,...,M'')
dove
(i=k+1,k+2,...,n).
Sono gli edit in cui sono presenti le k variabili, e dove le variabili
k+1, k+2, ..., n hanno nel record valori interni agli
:
sono cioè gli edit attivabili o meno in funzione dei valori che
si danno alle k variabili.
Si considerino gli insiemi
(i=k+1, k+2, ... ,n)
Se scegliamo un qualsiasi record, tra quelli esatti,
i cui valori delle variabili k+1, k+2, ... ,n siano interni agli insiemi
così definiti, i valori di tale record nelle variabili 1,2,...,k
sono attribuibili in blocco al record errato corrente, in quanto costituiscono
una combinazione che sicuramente garantisce che tutti gli M'' edit siano
soddisfatti (cioè disattivati). Per tale motivo non c'è alcun
bisogno di calcolare l'insieme dei valori attribuibili alle k variabili
dell'insieme minimo.
Riprendiamo in considerazione l'esempio visto per
l'imputazione sequenziale: siano ancora SESSO ed ETA' le variabili dell'insieme
minimo: queste due variabili sono presenti negli edit
,
,
ed
. Quest'ultimo è
soddisfatto comunque per il valore di ISTRUZ. Restano:
: (SESSO=maschio) Ç
(RELCF=moglie)
: (ETA'=0-14) Ç
(STACIV¹ celibe)
: (ETA'=0-14) Ç
(RELCF=moglie,marito)
E' questo l'insieme M'' di edit.
Si determinano gli insiemi di valori per le variabili
k+1, k+2, ..., n, cioè per STACIV (3), RELCF (4) e ISTRUZ (5):
= coniugato, separato,
divorziato, vedovo
= moglie Ç
(moglie, marito) = moglie
= qualsiasi valore
A questo punto, tra i record esatti viene ricercato
un donatore che abbia i valori di STACIV e RELCF interni agli insiemi così
determinati, ed i relativi valori di SESSO ed ETA' vengono attribuiti al
record errato corrente.