Correzione probabilistica dei dati

La fase di correzione dei dati, o imputazione, trasforma i record errati output della fase di controllo o check in record corretti utilizzando l'algoritmo del minimo cambiamento, base della metodologia di Fellegi-holt.

Per ogni record errato, tramite l'insieme completo "MAXICE.dat" vengono verificate le regole di incompatibilità, e si cerca il numero minimo di variabili che, modificate con i valori presi da un serbatoio di donatori, tentando di prendere sempre il record esatto più somigliante, rendono il record errato in esame corretto.

Il tempo necessario alla correzione dei record dipende dalla grandezza dell'insieme completo, dal tipo di imputazione prescelto, e ovviamente dal numero dei record errati.

I file utilizzati dal programma 'genimpn2' sono:

PARM.dat con i parametri di imputazione prescelti;
TABVARF.dat con i domini in classi per ogni variabile;
VARFIX.dat con le variabili definite fisse;
MAXICE.dat insieme completo in forma binaria;
SYSCHK.dat dal check con contatori esatti/errati;
ESATTI.dat dal check record esatti;
ERRATI.dat dal check record errati;
CORRETTI.dat record errati corretti;
INCORRETTI.dat eventuali record non correggibili perché fissati in modo errato;
SYSIMP.dat messaggi;
STATIS.dat statistiche di correzione;
FREQUEN output del check con frequenze dei dati grezzi per le variabili da correggere con forzature;
PESI eventuale diversa distribuzione delle frequenze per alcuni domini per le variabili da correggere con forzature;