Metodologia dell'imputazione probabilistica
    L'approccio per l'imputazione probabilistica in CONCORD si basa sulle funzioni di SCIA (Sistema di Controllo e Imputazione Automatica) sistema per l'editing e l'imputazione automatica di variabili qualitative.
    Opera esclusivamente su variabili di tipo qualitativo, o quantitative rapportabili a qualitative perché suddivisibili in classi o con dominio poco numeroso (ad esempio l'età) e consente l'individuazione e la correzione automatica degli errori di tipo casuale presenti nei dati con un metodo interamente basato sulla metodologia di Fellegi-Holt.

    Per eseguire i processi di controllo e di imputazione dei valori delle variabili devono essere specificate le elaborazioni da effettuare sui dati e le modalità con cui esse devono essere realizzate riassumibili in 5 passi principali:

  1. definizione delle variabili, cioè dei campi del tracciato record dell'indagine con nome, posizione e lunghezza;
  2. definizione delle regole formali (o strutturali), cioè di quelle regole che derivano direttamente dalla struttura del questionario (in particolare, dalle istruzioni di compilazione del questionario stesso). Esse esprimono condizioni di incompatibilità fra variabili, specificano cioè situazioni di non correttezza dei record. In particolare, esse indicano quando la presenza o l誕ssenza di risposta per una variabile o una lista di variabili risulta incompatibile con i valori assunti da variabili precedenti. Esse vengono inserite direttamente in forma normale;
  3. definizione delle regole sostanziali, cioè di quelle regole che derivano dalle conoscenze a priori sulle relazioni esistenti fra le variabili rilevate. Come le regole formali anch弾sse esprimono condizioni di incompatibilità fra variabili, specificano cioè situazioni di non correttezza dei record e vengono inserite direttamente in forma normale;
  4. creazione dell'insieme completo: questo passo è eseguito dopo aver inserito le regole originali. E' dalle caratteristiche di questo insieme (completezza, non contraddittorietà, ecc.) che dipende in massima parte la qualità dei risultati finali.
  5. specificazione dei parametri, mediante i quali vengono definite modalità generali per la fase di imputazione. Concord prevede che siano specificati:
    Una volta inserito l'insieme delle regole formali e sostanziali (insieme iniziale delle regole) prima dell弾secuzione della fase di controllo dei dati ed imputazione, il sistema prevede che vengano effettuate alcune elaborazioni distinte: 1. Controllo delle regole e generazione dell段nsieme minimale di edit
La generazione dell'insieme minimale viene effettuata al fine di :
    1. eliminare eventuali regole ridondanti, ossia regole che esprimono condizioni già implicate in altre regole;
    2. segnalare regole direttamente contraddittorie;
    3. aggregare regole che si possono combinare fra loro.
    L'insieme minimale è quindi di dimensioni non superiori a quelle dell'insieme originale ed è sufficiente per il controllo dei dati. Il suo utilizzo ai fini dell段mputazione, però, non garantisce né la correttezza dei risultati finali, né la minimalità nel numero di correzioni che verranno effettuate sui dati: solo l段nsieme completo fornisce questo tipo di garanzie. Inoltre, i tempi di elaborazione per l'imputazione di ogni record possono essere elevati, in quanto il sistema può dover effettuare un gran numero di tentativi prima di individuare la soluzione per la correzione del record.
    Maggiore è il rapporto fra il numero di edit impliciti ed il numero di edit originali, maggiore è la frequenza con cui tali inconvenienti si verificano. Nel caso in cui tale rapporto è molto basso, l'applicazione ai dati dell'insieme minimale dà risultati soddisfacenti: per questo motivo si può decidere di generare ed applicare ai dati solo l'insieme minimale, senza porsi il problema della generabilità dell'insieme completo ed, eventualmente, della suddivisione dell'insieme originale degli edit.
    Le necessità di cui ai punti a, b e c fanno sì che l'insieme minimale venga sempre generato, anche nel caso in cui sia possibile generare l段nsieme completo. Il ricorso all'insieme minimale per la localizzazione degli errori o la loro imputazione è perseguito nel caso in cui risulti impossibile o eccessivamente onerosa la generazione dell段nsieme completo. Concord genera nella cartella di progetto il file "regole_da_minset" con il set minimale di regole che serve al riciclo del passaggio di controllo delle regole e generazione dell段nsieme minimale di edit per verificare eventuali ulteriori accorpamenti.

2. Generazione dell段nsieme completo di edit
    Con la generazione dell段nsieme completo di edit il sistema individua tutti gli edit implicitamente contenuti nell'insieme iniziale di regole (edit espliciti), combinando fra loro gli edit originali secondo la metodologia di Fellegi-Holt.
Il procedimento di generazione consiste nel tentare di combinare gli edit assumendo come campo generatore via via tutte le variabili coinvolte: se questo procedimento produce nuovi edit, esso va ripetuto anche combinando gli edit nuovi con quelli preesistenti, e così via fino a quando nessun nuovo edit viene prodotto.
La generazione dell段nsieme completo garantisce la creazione di un insieme di edit non contraddittorio, e la correttezza della correzione dei dati rispetto a tali regole.

3. Eventuale suddivisione dell'insieme originale di regole
    Nel caso in cui non sia stato possibile generare l'insieme completo di edit a causa dell'eccessiva complessità ed onerosità dell'operazione, occorre procedere a ridurre tale complessità suddividendo l'insieme iniziale di regole in due o più sottogruppi: tali sottogruppi saranno poi sottoposti, separatamente al processo di generazione dell'insieme completo. Poiché, lo ricordiamo, ad ogni insieme di regole corrisponde un processo di elaborazione dei dati (editing e imputazione), l'operazione di suddivisione dell'insieme originale di edit comporta la generazione di due o più distinti processi di elaborazione. Se gli insiemi di regole generati sono disgiunti, l'ordine di esecuzione è ininfluente. Se invece gli insiemi di regole generati contengono variabili comuni, durante l'esecuzione di uno dei processi di elaborazione sarà necessario tenere fisse tutte le variabili imputate dal/dai processi precedentemente eseguiti. Naturalmente la suddivisione sarà tanto migliore quanto minore è il numero di variabili comuni: il risultato ottimale è quello in cui i vari sottoinsiemi di regole risultano completamente disgiunti

Controllo dei dati:
    Il problema dell'individuazione dei record errati consiste nel localizzare, usando la funzione di check, le unità statistiche in cui le variabili rilevate assumono valori tali da attivare uno o più edit del piano di incompatibilità.

Correzione dei dati:

    Identificati i record che violano uno o più edit, per ognuno di essi il sistema, tramite la funzione di imputazione, deve individuare l'insieme di variabili da modificare e l'insieme dei valori da assegnare ad esse in modo tale che siano garantite le seguenti proprietà:
  1. il numero di correzioni per ogni record sia minimo;
  2. restino invariate le distribuzioni originali dei dati;
  3. il record risultante soddisfi tutti gli edit.
    Il problema di cui al punto i) viene risolto in Concord implementando l'algoritmo proposto da Fellegi-Holt: "l'insieme minimo di variabili da imputare viene determinato attraverso l'identificazione di quelle variabili che coprono tutti gli edit attivati dal record errato". L'utente può comunque impedire o rendere meno probabile l'inserimento di una o più variabili nell'insieme minimale, assegnando a ciascuna di esse un grado di fissità (da 1 a 9) dipendente dalla probabilità di errore prevista per tali variabili.

    Per quanto riguarda i problemi di cui ai punti ii) e iii), essi trovano soluzione all'interno degli algoritmi implementati in Concord per l'imputazione dei dati.

    In particolare, sono possibili tre possibili strategie di correzione:

1. imputazione congiunta;
2. imputazione sequenziale ;
3. imputazione basata sulle distribuzioni marginali o imputazione forzata.
    Le prime due sono strategie di correzione del tipo "da donatore", mentre la terza tecnica è basata sull'analisi e sull'utilizzo delle distribuzioni marginali semplici rilevate nell'indagine per le variabili dell'insieme minimale.
    Per quanto riguarda la correzione dei dati, in Concord è presente una procedura generale di imputazione che, implementando al suo interno (sequenzialmente) le suddette strategie di correzione, ha una struttura indipendente dalle caratteristiche delle strategie stesse. Le caratteristiche delle diverse tecniche di imputazione agiscono infatti solo all'interno di alcune delle fasi componenti la procedura di correzione stessa.
    Tale procedura generale è costuita da due fasi principali:     Si tenga presente che, mentre il meccanismo di costruzione del serbatoio può essere controllato dall'utente (appunto attraverso i parametri), la particolare strategia di imputazione che il sistema adotterà per l'effettiva correzione di un certo record dipende quasi esclusivamente da criteri ed elaborazioni interni al sistema stesso.
    Come già detto, in CONCORD sono implementate due metodologie di imputazione da donatore:
· imputazione congiunta;
· imputazione sequenziale.
    La prima tecnica, in particolare, prevede le due seguenti versioni:
  1. imputazione congiunta ristretta, in cui, dato un certo record errato, vengono selezionati come possibili donatori quei record che possiedono, per le variabili di accoppiamento, valori identici a quelli contenuti nel record errato;
  2. imputazione congiunta allargata,in cui, dato un certo record errato, vengono selezionati come possibili donatori quei record che possiedono, per le variabili di accoppiamento, valori contenuti nei corrispondenti intervalli (range) opportunamente determinati.
    Nel caso di imputazione sequenziale si procede ad imputare una variabile alla volta: per ciascuna variabile appartenente all段nsieme minimo viene calcolato il range dei valori ammissibili; per ciascuna di esse viene quindi cercato nel serbatoio e, se esiste, selezionato un record donatore con valore compreso nel corrispondente range.
    Riassumiamo quindi le varie fasi di cui si compone il processo di correzione dei dati con tecniche da donatore:
  1. Inviduazione dell段nsieme minimale.In questa fase, dato il record errato r, viene determinato il minimo numero di variabili da correggere tra quelle presenti in tutti gli edit attivati da r.
  2. Controllo delle variabili marginali.Prima di procedere alla ricerca del donatore, il sistema verifica la presenza di qualcuna delle variabili dell'insieme minimale all'interno della lista di variabili specificata come marginali. In caso positivo, tali variabili vengono corrette direttamente col metodo dell'imputazione forzata, e si procede alla ricerca del donatore per la correzione delle variabili residue dell'insieme minimale.
  3. Selezione del donatore. In questa fase, a seconda della strategia di imputazione adottata, viene selezionato dal serbatoio il record donatore d.
    Nel caso in cui, per un certo record errato r, non sia stato possibile individuare un donatore adatto con nessuna delle tecniche da donatore disponibili in CONCORD, il sistema corregge automaticamente le variabili dell'insieme minimale utilizzando le corrispondenti distribuzioni marginali semplici (correzione forzata). La correzione di tali variabili avviene sequenzialmente.
    Per la correzione di una o più variabili l'utente può anche decidere di non tentare affatto la correzione basata sulle tecniche da donatore, può cioè richiedere al sistema di sottoporre direttamente tali variabili al metodo dell'imputazione forzata specificandole come marginali.
    La tecnica di correzione forzata è basata su un algoritmo random di estrazione del valore da assegnare alla variabile errata (selezionato tra i valori ammissibili), estrazione guidata da una funzione di probabilità definita sulla base della distribuzione di frequenze che la variabile stessa assume nel file dei dati originari.
    Gli eventuali pesi da assegnare alle modalità delle variabili da correggere mediante imputazione forzata devono essere specificati.
    L置so di regole di tipo deterministico è previsto solo nel caso si debbano correggere errori di tipo sistematico: questo tipo di errori derivano, generalmente, da problemi strutturali nel questionario, nell'organizzazione della rilevazione, nella registrazione dei dati. La presenza di errori sistematici nei dati viene generalmente verificata attraverso un'analisi delle imputazioni probabilistiche effettuate dal sistema, analisi condotta possibilmente in fase di test del piano di incompatibilità.
Questa analisi viene condotta sulla base dei report che CONCORD produce automaticamente al termine del processo di correzione.
La metodologia Fellegi-Holt per il controllo e la correzione delle variabili qualitative
Tre sono i criteri fondamentali per l'imputazione delle variabili qualitative alla base della metodologia proposta da Fellegi e Holt:
1. in ogni record i dati devono soddisfare tutte le regole di validità e incompatibilità, cambiando il meno possibile il valore dei campi;
2. le regole di imputazione devono essere derivate dalle regole di controllo, senza esplicita specificazione;
3. le distribuzioni di frequenza marginali e congiunte devono essere mantenute il più possibile.
Edit in forma normale
Distinguiamo gli edit logici, riguardanti le variabili qualitative, dagli edit aritmetici, riguardanti le variabili quantitative.

DEFINIZIONE: un edit logico esprime una condizione di inaccettabilità su una data combinazione di valori di due o più variabili
Un edit può essere formalizzato come l'applicazione di una funzione f a sottoinsiemi dei domini di n variabili:

dove:
: sottoinsieme del dominio della variabile i-esima
f : funzione logica che connette i vari  mediante gli operatori logici di intersezione (Ç ) e unione (È )
    Un record a è errato se:
a Î
    Applicando ripetutamente alla f la legge distributiva otteniamo:
=
( ÇÇ ... Ç ) È (ÇÇ ... Ç ) È ... È ( ÇÇ ... Ç )
Possiamo dire che un record è errato se appartiene ad almeno uno dei termini a secondo membro. Definiamo come "edit in forma normale" ognuno di tali termini.

DEFINIZIONE: un edit in forma normale è un edit logico in cui l'unico operatore ammesso è quello di intersezione
In simboli:

Ogni edit logico, di qualsiasi forma, può sempre essere tradotto in una serie di edit in forma normale. Consideriamo, ad esempio, la seguente regola (di compatibilità):
"Se una persona ha età inferiore a 16 anni, oppure frequenta una scuola elementare, allora non può essere capo-famiglia, ed il suo stato civile deve essere celibe o nubile"
    Questa regola può essere convertita in una serie di edit in forma normale attraverso i seguenti passi:

1. formalizzazione:

[ (Età < 16) È (Scuola Elementare)]®[ (Ø Capo-famiglia) Ç (Celibe/Nubile) ]
2. traduzione in regola di incompatibilità:
[ (Età < 16) È (Scuola Elementare)]ÇØ[ (Ø Capo-famiglia) Ç (Celibe/Nubile) ] = errore
3. semplificazione:
[ (Età < 16) È (Scuola Elementare)]Ç[ (Capo-famiglia) È (Ø Celibe/Nubile) ] = errore
4. applicazione della legge distributiva:
[ (Età < 16) Ç (Capo-famiglia)
[ (Età < 16) Ç (Ø Celibe/Nubile)] È
[ (Scuola Elementare) Ç (Capo-famiglia)] È
[ (Scuola Elementare) Ç (Ø Celibe/Nubile)] = errore
I quattro termini nell'ultima espressione sono altrettanti edit in forma normale.

L'insieme completo degli edit
DEFINIZIONE: gli edit in forma normale specificati direttamente dallo statistico sono detti edit espliciti.
Un record che non attiva alcun edit esplicito si dice corretto, e non necessita di alcuna modifica. Al contrario, un record che attiva almeno un edit esplicito si dice errato, e necessita della modifica di almeno una variabile.

Mentre gli edit espliciti sono necessari e sufficienti per determinare la correttezza di un record, essi non sono sufficienti per una sua ottimale correzione.

DEFINIZIONE: chiamiamo edit implicito un edit logicamente contenuto negli edit espliciti.
La funzione degli edit impliciti, considerati congiuntamente con gli edit espliciti, è quella di permettere la correzione ottimale di un record errato.

DEFINIZIONE: l'insieme completo degli edit è dato dall'unione degli edit espliciti e di quelli impliciti.
Per eseguire in modo ottimale il passo di scelta delle variabili da imputare, e di determinazione del range di valori imputabili, è necessario preventivamente generare l'insieme completo di edit.

Consideriamo il seguente esempio.
Supponiamo che un record contenga tre variabili, di cui siano definiti i seguenti domini:
 
VARIABILI DOMINI
ETA' 0-14, 15-99
STATO CIVILE (STACIV) celibe, coniugato, separato,divorziato,vedovo
RELAZIONE COL CAPO FAMIGLIA (RELCF) capofamiglia, coniuge, altro

Siano stati definiti i seguenti edit in forma normale espliciti, esprimenti condizioni di incompatibilità:
I. (ETA' = 0-14) Ç (STACIV = coniugato, separato,divorziato,vedovo)
II. (STACIV = celibe, separato, divorziato, vedovo) Ç (RELCF = coniuge)

Possiamo riscriverli come condizioni di compatibilità nel seguente modo:
(ETA' = 0-14) ® (STACIV = celibe)
(STACIV = celibe, separato, divorziato, vedovo) ® (RELCF ¹ coniuge)

Poichè la conseguenza della prima implicazione è contenuta nella premessa della seconda, possiamo derivare che
(ETA' = 0-14) ® (RELCF ¹ coniuge)

relazione che, opportunamente ritradotta in forma normale, diventa:
III. (ETA' = 0-14) Ç (RELCF = coniuge)

Questo terzo edit era implicitamente contenuto nei primi due.

Supponiamo ora di considerare il seguente record:
(ETA' = 0-14) Ç (STACIV = coniugato) Ç (RELCF = coniuge)

Questo record attiva gli edit I e III.
Per correggere il record, ricerchiamo l'insieme minimo di variabili che copra tutti gli edit attivati (espliciti e impliciti) dal record in questione. Nel nostro caso verifichiamo che la variabile ETA' è presente sia nel primo che nel terzo edit attivato. Per disattivare tali edit è sufficiente assegnare a ETA' un valore interno all'intersezione dei complementi dei valori che compaiono negli edit attivati o attivabili:

(Ø 0-14) Ç (Ø 0-14) = 15-99

Assegnando il valore 15-99 alla variabile ETA', il record può dirsi corretto, in quanto non attiva alcun edit: nel far ciò abbiamo tenuto conto del principio del minimo cambiamento, in quanto abbiamo modificato una sola variabile.

Se in questo processo di ricerca dell'insieme minimale di variabili da imputare non avessimo tenuto conto dell'edit implicito, avremmo considerato il solo edit I: per disattivarlo, avremmo potuto scegliere di imputare sia ETA' che STACIV. Se avessimo scelto STACIV, che compare anche nell'edit II, avremmo constatato che l'intersezione del complemento dei relativi valori è l'insieme vuoto Æ :

Ø (coniugato, separato,divorziato,vedovo) ÇØ (celibe, separato, divorziato, vedovo) =
= celibe Ç coniugato = Æ

L'impossibilità di trovare dei valori imputabili a STACIV tali da correggere il record deriva dal fatto che STACIV non è contenuto nell'edit III, implicito, attivato dai valori delle variabili ETA' e RELCF. La conseguenza di carattere generale è che la non considerazione degli edit impliciti non permette di definire sempre insiemi minimi di variabili da imputare che siano in grado di riportare il record in una situazione di correttezza.

LEMMA: dati s edit  e n variabili, per ogni arbitraria variabile i, un edit  si dice generato dagli s edit se e solo se

In altri termini, fissata una variabile i (detta generante), il corrispondente  sarà ottenuto come unione degli , mentre ogni altro  sarà ottenuto come intersezione degli .

DEFINIZIONE: Un edit generato si diceedit implicito essenzialmente nuovo se e solo se:

1.  coincide col dominio della variabile i;
2. ogni  è non vuoto ed è un sottoinsieme proprio del dominio della variabile i;
Consideriamo il seguente esempio. Siano dati gli edit:
        I. (ETA' = 0-14) Ç (RELCF = qualsiasi) Ç (STACIV ¹ celibe)
        II. (ETA'=qualsiasi) Ç (RELCF = coniuge) Ç (STACIV = celibe, separato, divorziato, vedovo)

Se fissiamo ETA' come variabile generante otteniamo:

(ETA'=qualsiasi) Ç (RELCF = coniuge) Ç (STACIV = separato, divorziato, vedovo)
che è ridondante rispetto al secondo edit.

Fissando invece RELCF otteniamo:

(ETA'=0-14) Ç (RELCF = qualsiasi) Ç (STACIV = separato, divorziato, vedovo)
che è ridondante rispetto al primo edit.

Infine, scegliendo STACIV come variabile generante:

(ETA'=0-14) Ç (RELCF = coniuge) Ç (STACIV = qualsiasi)
che è un edit implicito essenzialmente nuovo.

DEFINIZIONE : Un edit generato da due o più edit tra loro contraddittori (inconsistenti) è detto edit degenere
Consideriamo il seguente esempio:
      I.   (ETA' = 0-14) Ç (STACIV ¹ celibe)
      II.  (ETA' = 15-99) Ç (STACIV ¹ celibe)
Assumendo ETA' come campo generante, otteniamo l'edit esplicito
      III. (ETA' = qualsiasi valore) Ç (STACIV ¹ celibe) = (STACIV ¹ celibe)
che ci dice che sono errati tutti i valori di STACIV diversi da celibe, il che chiaramente contraddice la definizione del dominio della variabile STACIV. L'edit III è un edit degenere, ed in quanto tale può essere generato solo da edit tra loro contraddittori.

I seguenti teoremi e corollari assicurano che, avendo a disposizione l'insieme completo di edit, un qualsiasi record errato è sempre correggibile, e lo è in modo ottimale.
Sia W l'insieme completo di edit, e sia un sottoinsieme tale da coinvolgere le prime k variabili (con l'esclusione, quindi, di tutti gli edit in cui compaiano le variabili k+1, k+2, ... , n).
TEOREMA 1: se gli  sono possibili valori per le prime k-1 variabili, e se questi valori soddisfano tutti gli edit in , allora esiste un qualche valore  tale da soddisfare tutti gli edit in .
La ripetuta applicazione del teorema 1 permette di conseguire il seguente
COROLLARIO 1: se un record ha n variabili, di cui le prime k-1 hanno valori  (i=1,2,...,k-1) tali che tutti gli edit in  sono soddisfatti, allora esistono valori  (i=k,k+1,...,n) tali da soddisfare tutti gli edit in W .

Ed inoltre:
COROLLARIO 2: se un record ha n variabili, di cui un sottoinsieme s ha la proprietà che almeno uno dei valori  (iÎ s) compare in ogni edit attivato dal record, allora esistono dei valori  (iÎ s) tali che, assieme agli (iÏ s) fanno si che il record soddisfi tutti gli edit.

Metodi di imputazione
La metodologia prevede, per ogni record errato:

1. l'identificazione dell'insieme minimo di variabili da modificare;
2. per ogni variabile rientrante nell'insieme minimo, la determinazione dell'insieme di valori attribuibili, e imputazione di uno tra questi.
Per quanto riguarda il punto 1, ricordiamo che l'insieme minimo di variabili da imputare è costituito da quell'insieme di variabili che "coprono" tutti gli edit attivati dal record e che risulta essere di dimensione minima.
Per quanto concerne il punto 2, sono proposti due metodi, entrambi di tipo hot deck, consistenti nell'imputare in una variabile del record corrente (ricevente) il valore della stessa variabile in un record (donatore) scelto tra quelli esatti. I metodi in questione sono:
· metodo dell'imputazione sequenziale;
· metodo dell'imputazione congiunta.
METODO 1: Imputazione sequenziale
Consideriamo un record errato di cui sia già stato identificato un insieme minimo di k variabili da imputare. Il metodo consiste nell'imputare dapprima la k-esima variabile, e poi, sequenzialmente, le variabili k-1,k-2,...,1.
Consideriamo tutti gli M edit in cui
· è presente la variabile k;
· non sono presenti le variabili 1,2,...,k-1.
    Tra questi, consideriamo solo gli M' edit in cui non sono presenti gli edit sicuramente disattivati dai valori correnti delle variabili k+1, k+2, ... , n: gli M' edit sono quelli che possono essere attivati o meno in funzione dei valori della sola variabile k. Se vogliamo che il record soddisfi tali edit, il valore da assegnare alla variabile k deve soddisfare la condizione:
cioè deve appartenere all'insieme intersezione dei complementi dei valori indicati per la variabile k in tutti gli M' edit: tale insieme non è mai vuoto per il teorema 1.
    Lo stesso procedimento viene iterato per le variabili k-1, k-2, ...1, fino all'esaurimento dell'insieme minimo di variabili da imputare.
    Consideriamo il seguente esempio, con 5 variabili:
 
VARIABILI DOMINI
SESSO maschio, femmina
ETA 0-14,15-16,17-99
STATO CIVILE (STACIV) celibe, coniugato, separato, divorziato, vedovo
RELAZIONE COL CAPOFAMIGLIA (RELCF) moglie, marito, figlio, altro
LIVELLO D'ISTRUZIONE (ISTRUZ) nessuno,elementare, secondario, post-secondario

    L'insieme (completo) degli edit è il seguente:
: (SESSO=maschio) Ç (RELCF=moglie)
: (ETA'=0-14) Ç (STACIV¹ celibe)
: (STACIV¹ coniugato) Ç (RELCF=moglie,marito)
: (ETA'=0-14) Ç (RELCF=moglie,marito)
: (ETA'=0-16) Ç (ISTRUZ=post-secondaria)

    Sia dato il seguente record:
 
VARIABILE VALORE
SESSO maschio
ETA 12
STACIV coniugato
RELCF moglie
ISTRUZ elementare
    Il record attiva gli edit . Nessuna singola variabile "copre" i tre edit. Tre coppie di variabili coprono gli edit attivati: (SESSO, ETA'), (ETA', RELCF) e (STACIV, RELCF). Supponiamo di scegliere la coppia (SESSO, ETA'): la dimensione s dell'insieme è pari a 2.

    Sia ETA' la variabile k-esima (k=2). Consideriamo tutti gli edit che contengono ETA' ma non SESSO (la variabile k-1=1):
: (ETA'=0-14) Ç (STACIV¹ celibe)
: (ETA'=0-14) Ç (RELCF=moglie,marito)
: (ETA'=0-16) Ç (ISTRUZ=post-secondaria)

    L'edit  è sempre soddisfatto per qualsiasi valore di ETA' dal momento che nel record il valore di ISTRUZ è "elementare".   Per calcolare i valori imputabili ad ETA' dobbiamo quindi considerare solo :

ÎÇºÇ = (15-99)
cercheremo quindi un record donatore con un valore di ETA' compreso tra 15 e 99: supponiamo 22.

    Passiamo ora variabile SESSO (k-1=1). Solo l'edit  la contiene, quindi:

κ = femmina
    Essendo unico, il valore "femmina" è direttamente imputato alla variabile SESSO. Il record corretto sarà quindi il seguente:
 
VARIABILE VALORE
SESSO femmina
ETA 22
STACIV coniugato
RELCF moglie
ISTRUZ elementare

METODO 2: Imputazione congiunta.
    Per un dato record errato siano state definite le k variabili da imputare. Si considerino gli M'' edit con le k variabili

(r=1,2,...,M'')
dove  (i=k+1,k+2,...,n). Sono gli edit in cui sono presenti le k variabili, e dove le variabili k+1, k+2, ..., n hanno nel record valori interni agli : sono cioè gli edit attivabili o meno in funzione dei valori che si danno alle k variabili.
    Si considerino gli insiemi
(i=k+1, k+2, ... ,n)
    Se scegliamo un qualsiasi record, tra quelli esatti, i cui valori delle variabili k+1, k+2, ... ,n siano interni agli insiemi così definiti, i valori di tale record nelle variabili 1,2,...,k sono attribuibili in blocco al record errato corrente, in quanto costituiscono una combinazione che sicuramente garantisce che tutti gli M'' edit siano soddisfatti (cioè disattivati). Per tale motivo non c'è alcun bisogno di calcolare l'insieme dei valori attribuibili alle k variabili dell'insieme minimo.
    Riprendiamo in considerazione l'esempio visto per l'imputazione sequenziale: siano ancora SESSO ed ETA' le variabili dell'insieme minimo: queste due variabili sono presenti negli edit  ed . Quest'ultimo è soddisfatto comunque per il valore di ISTRUZ. Restano:
: (SESSO=maschio) Ç (RELCF=moglie)
: (ETA'=0-14) Ç (STACIV¹ celibe)
: (ETA'=0-14) Ç (RELCF=moglie,marito)
    E' questo l'insieme M'' di edit.
    Si determinano gli insiemi di valori per le variabili k+1, k+2, ..., n, cioè per STACIV (3), RELCF (4) e ISTRUZ (5):
= coniugato, separato, divorziato, vedovo
= moglie Ç (moglie, marito) = moglie
= qualsiasi valore
    A questo punto, tra i record esatti viene ricercato un donatore che abbia i valori di STACIV e RELCF interni agli insiemi così determinati, ed i relativi valori di SESSO ed ETA' vengono attribuiti al record errato corrente.