Approccio deterministico

Fase di controllo dei record
    La fase di applicazione delle regole di dominio, di compilazione e di compatibilità ai dati grezzi non può che essere compiuta in modo deterministico: per ogni record, o per gruppi di record, vengono applicate tali regole che, se verificate, segnalano sicuramente la presenza di errori.
    Ad esempio:

SE (sesso = maschio E professione = casalinga) ALLORA sussiste incompatibilità x
Una regola di questo tipo non individua, di per sé, l'errore che ne causa l'attivazione: infatti, l'errore (inteso come valore non vero, cioè non rispondente alla modalità del carattere che l'unità effettivamente possiede) può celarsi in una o nell'altra delle variabili, o in entrambe.

Fase di localizzazione degli errori
    E' in questa fase che diviene decisivo il tipo di approccio adottato. Nell'approccio deterministico, ad ogni situazione di incompatibilità segue, contestualmente, l'indicazione delle variabili che debbono considerarsi errate, e, in quanto tali, da imputare. Nell'esempio considerato avremo, per ipotesi:

SE (sesso = maschio E professione = casalinga) ALLORA sesso ¬ femmina
il che significa che, se in un record è attivata la condizione di incompatibilità "maschio/casalinga", la regola indica l'azione da effettuare per correggere l'errore, che consiste nell'imputare la modalità femmina alla variabile sesso.
    Generalizzando, una volta attivate, mediante le regole di compatibilità, una o più condizioni di errore in un dato record, sono determinate a priori le azioni da intraprendere per riportare il medesimo record in una situazione di correttezza.

    Le procedure deterministiche sono generalmente costituite da regole di imputazione deterministica (R.I.D.) del tipo:

SE [condizione di errore] ALLORA [azione di correzione]
    La condizione di errore della regola esprime le relazioni intercorrenti tra le variabili implicate; l'azione di correzione riguarda delle variabili che possono essere o meno incluse nella parte "SE".

    Un record, durante l'esecuzione della procedura di correzione, potrà causare l'attivazione di alcune di queste regole (quelle in corrispondenza delle quali è verificata la parte SE): in tal caso saranno modificate le variabili indicate nella parte ALLORA assegnando loro valori predefiniti o scelti in altro modo

    Nel caso delle variabili quantitative, non si tratta solo di individuare le variabili errate, cioè quelle che determinano l'attivazione di incompatibilità, ma anche di determinare, per ogni variabile, dei limiti al di là dei quali i valori riscontrati possono essere considerati come outlier, cioè valori che contraddicono la tendenza generale, a livello trasversale (relativamente all'insieme delle unità rispondente in una stessa ripetizione dell'indagine) oppure a livello longitudinale (relativamente alle risposte fornite dalle unità in ripetizioni differenti della stessa indagine).

    Sulla base dell'andamento effettivo di una data variabile, viene determinato l'intervallo di accettazione: se in un record il valore della variabile cade al di fuori di tale intervallo, la variabile è considerata errata, e candidata all'imputazione.

Fase di correzione degli errori (imputazione delle variabili errate)
    Una volta individuate le variabili contenenti gli errori che hanno causato l'attivazione delle incompatibilità, oppure i cui valori sono stati giudicati outlier, occorre procedere alla fase di imputazione di tali variabili, onde rimuovere gli errori, cercando di ripristinare i valori veri.

    Un metodo di imputazione è deterministico quando il nuovo valore di una variabile è stabilito con certezza sulla base di un'indicazione diretta di tale valore, oppure di vincoli logici, o mediante calcolo. Tra i vari metodi deterministici citiamo:

    I limiti fondamentali di cui soffrono i metodi deterministici risiedono nel fatto che essi spesso riducono la variabilità della variabile imputata, e talvolta introducono distorsioni. Per queste ragioni sono state introdotte delle tecniche di imputazione stocastica, molte delle quali rappresentano varianti dei metodi deterministici, ideate per mantenere le distribuzioni e la variabilità dei dati.

Un modello generale di imputazione
    Molti dei metodi di imputazione possono essere visti come casi particolari della stima di un modello di regressione:

in cui  rappresenta il valore imputato per la k-esima unità con un valore mancante, è il valore delle variabili ausiliariesono i coefficienti della regressione di y su x per i rispondenti, mentre costituisce un residuo corrispondente ad uno schema probabilistico associato al particolare metodo di imputazione prescelto. Alcuni casi particolari: i. ; in questo caso  costituisce il valore stimato con modello di regressione;
ii. se  e xj è una variabile dummy che denota la classe allora l弾quazione equivale all段mputazione con media della classe, ossia , di cui l'imputazione mediante media globale può essere vista come un caso particolare in cui non si utilizzano informazioni ausiliarie;
iii. se alla media della classe in ii. si aggiunge una componente casuale individuale  si è ricondotti all段mputazione stocastica all'interno di classi, che equivale all誕dattamento ai dati di un modello ANOVA con effetti casuali, in cui il residuo è costituito dallo scarto per ciascun rispondente dalla media della classe, ossia. Le imputazioni con metodo hot-deck (sequenziale o gerarchico, all'interno di classi) possono essere rappresentate come casi particolari di questo tipo di imputazione.
    La distinzione essenziale tra metodi deterministici e metodi stocastici di imputazione dipende dall誕vere posto  oppure no. La scelta tra un metodo di imputazione deterministica ed uno stocastico può essere fatta sulla base degli obiettivi che l'analisi dei dati dell'indagine si prefigge. Così per la stima della media della popolazione sulla base di valori osservati e valori imputati è preferibile utilizzare un metodo di imputazione deterministica in quanto, pur potendo effettuare una scelta controllata della componente casuale in una imputazione stocastica, ciononostante ne consegue una certa perdita di precisione delle stime.
    Per contro, ai fini della stima della variabilità e della distribuzione della variabile di studio un段mputazione deterministica può condurre a risultati di modesta qualità. Un semplice esempio è rappresentato dall段mputazione mediante valore medio. La sostituzione in tutte le MR del valore medio dei rispondenti (eventualmente all段nterno di classi di imputazione) crea picchi artificiali nella distribuzione delle risposte in corrispondenza del valore medio delle classi, riducendo la variabilità della variabile di studio, soprattutto per la parte di variabilità all段nterno delle classi. In tali casi, l置so di un metodo di imputazione stocastica, di tipo hot-deck ad es., consegue migliori risultati. Esistono poi particolari proposte metodologiche (imputazione multipla, ad es.) che cercano, oltre che ricostruire le MR garantendo la variabilità dei valori dei rispondenti, di ottenere una stima di una componente aggiuntiva della variabilità totale, legata al processo stesso di ricostruzione.
    Qualora si opti per una imputazione stocastica si pone il problema della scelta di una opportuna distribuzione da cui estrarre la componente stocastica. Una scelta naturale con una imputazione mediante modello (di regressione) è quella di una distribuzione dei residui normale con media zero e varianza uguale alla varianza residua della regressione sui rispondenti.
    Possibili alternative sono rappresentate dalla scelta casuale dalla distribuzione empirica dei residui dei rispondenti o la scelta di un residuo a partire da unità rispondenti considerate "vicine" all'unità con valore mancante sulla base di variabili ausiliarie. Ciò è, ad esempio, quello che si verifica con una imputazione con donatore (hot-deck o nearest-neighbour), in cui all置nità con MR è assegnato un valore da un sottoinsieme di unità rispondenti considerate "vicine".

Vantaggi e svantaggi dell'approccio deterministico
    Molto schematicamente, possiamo ascrivere ai vantaggi del metodo deterministico:

    Quest'ultimo elemento è di una certa importanza: ad esempio, sulla base della fiducia che lo statistico nutre rispetto alla correttezza delle variabili, egli può implicitamente stabilire una gerarchia tra queste, orientando la modifica verso quelle che egli ritiene meno affidabili. In realtà, questo è un risultato che si può ottenere, utilizzando opportuni pesi, anche nel caso delle procedure non deterministiche.

Tra gli svantaggi ed i limiti del deterministico citiamo:

    In caso di errori sistematici, l'approccio deterministico si rivela, nella maggior parte dei casi, il più adatto, soprattutto nel passo di localizzazione degli errori. L'applicazione del probabilistico, al contrario, rischia di introdurre nuove distorsioni nei dati, qualora non si pesino opportunamente le variabili per tener conto della sistematicità di tali errori.