Strumenti

Individuazione e trattamento degli errori

Metodologie e tecniche per l'individuazione e la correzione degli errori non campionari

Gli errori non campionari sono quelli che si riferiscono direttamente ai dati elementari manifestandosi come differenze tra valori "veri" e valori "osservati" di una variabile di interesse. Essi possono essere generati in ciascuna delle fasi del processo di produzione dell'informazione statistica e possono provocare distorsioni nelle distribuzioni delle variabili investigate, nelle stime finali dei dati (totali, medie, ecc.) e in tutte le analisi statistiche effettuate sui dati non corretti.

Un primo importante criterio di classificazione degli errori non campionari distingue tra errori sistematici ed errori casuali (o stocastici o non sistematici).
Si dicono sistematici quegli errori la cui origine è da attribuirsi a difetti strutturali o organizzativi del processo di produzione dell'informazione statistica, alla struttura del modello, o al sistema di registrazione adottati, e si manifestano nella maggior parte delle osservazioni come deviazioni "in una stessa direzione" dal valore vero di una o più variabili rilevate.
Si dicono casuali o stocastici quegli errori la cui origine è da attribuirsi a fattori aleatori non direttamente individuabili; nel caso di variabili quantitative, per questo tipo di errori si ipotizza spesso una distribuzione normale a media nulla, mentre nel caso di variabili qualitative si suppone che i valori errati non alterino la distribuzione di frequenze relativa ai dati corretti.

Tra gli errori non campionari sono facilmente individuabili quelli segnalati da valori fuori dominio, valori anomali, incompatibilità tra risposte, mancate risposte parziali:

  • il valore di una variabile, rilavato su una data unità della popolazione, si dice fuori dominio quando non appartiene ad un insieme predefinito di valori ammissibili. Questo errore è tipico delle qualitative;
  • si dice che una data unità statistica è anomala (outlier) quando essa presenta catteristiche significativamente diverse da quelle della maggior parte delle altre unità. Spesso, in presenza di variabili quantitative, la formalizzazione del concetto di outlier sfrutta la natura metrica dello spazio delle variabili per definire la distanza di un' osservazione dal resto della popolazione;
  • si dice che in una unità rispondente sono presenti incompatibilità se i valori di una o più variabili in essa rilevate contraddicono predefinite regole di natura logica e/o relazioni di tipo matematico (solo nel caso di variabili quantitative);
  • si dice che una unità presenta una mancata risposta parziale (MRP) quando per quella unità sono mancanti i valori di un sottoinsieme di variabili richieste. Si distinguono dalle MRP le mancate risposte totali (MRT), che hanno luogo quando non si conosce nessuno dei valori delle variabili rilevate. Il problema delle MRT viene affrontato nell'ambito delle tecniche di stima basate sulla teoria dei campioni.

La fase di controllo dei dati di un'indagine statistica consiste nella individuazione ed eliminazione degli errori non campionari. Questa operazione viene effettuata mediante le cosiddette procedure di controllo e correzione: tali procedure consistono in due fasi principali, la fase di individuazione e quella di correzione degli errori. In realtà, date le diverse tipologie di errore non campionario che possono simultaneamente contaminare un insieme di dati, diverse sono le metodologie e le tecniche che possono essere utilizzate in modo integrato all'interno della procedura complessiva di controllo e correzione.

A. Individuazione degli errori

Le metodologie per l'individuazione degli errori si distinguono in tre classi principali:
1. tecniche di individuazione degli errori sistematici
2. tecniche di individuazione dei valori anomali o delle unità influenti
3. tecniche di individuazione degli errori casuali

1. Errori sistematici

Non esistono metodi generali per l'individuazione degli errori sistematici. Spesso l'approccio al problema è basato sull'impiego di tecniche di analisi grafica volte all'individuazione di gruppi di osservazioni con "caratteristiche simili" che manifestano deviazioni dai (presunti) valori veri riconducibili ad una comune causa di errore.

2. Individuazione dei valori anomali (outlier) o delle unità influenti

Le tecniche di individuazione dei valori anomali (outlier) o delle unità influenti sono basate sull'utilizzo di controlli (i cosiddetti controlli statistici) volti alla localizzazione di quelle osservazioni il cui comportamento anomalo, rispetto al resto delle unità osservate, o è originato da informazioni errate, oppure è il risultato della naturale variabilità del fenomeno indagato. Tipicamente, la localizzazione degli outlier avviene mediante determinazione di regioni di accettazione sulle distribuzioni di una o più variabili di interesse (o di loro opportune trasformazioni), al di fuori delle quali una unità statistica è da considerare anomala e quindi da sottoporre a controllo ed, eventualmente, a correzione.

Le tecniche di individuazione dei valori anomali possono essere multivariate o univariate, parametriche o non parametriche (a seconda che prevedano o meno assunzioni distribuzionali sulla popolazione investigata), selettive o meno (a seconda che tengano conto o meno della rilevanza dei fenomeni osservati in termini di influenza sulle stime finali). A questa classe di tecniche si possono ricondurre le metodologie del macroediting, dell'editing selettivo, del significance editing e dell'editing grafico.

3. Individuazione degli errori casuali

Le tecniche di individuazione degli errori casuali sono basate sull'utilizzo dei cosiddetti controlli di consistenza: tali controlli (anche detti regole di incompatibilità o edit) consentono di verificare che prefissate combinazioni di valori assunti dalle variabili rilevate in una stessa unità soddisfino alcuni vincoli di coerenza, che possono essere di tipo statistico, matematico o logico.

Gli edit vengono comunemente utilizzati per la costruzione dei cosiddetti piani di compatibilità: si definisce piano di compatibilità un insieme di vincoli non ridondanti e non contraddittori che devono essere contemporaneamente soddisfatti da ogni unità statistica affinché l'informazione corrispondente possa essere considerata corretta.

L'applicazione dei controlli di consistenza può essere effettuata secondo diversi approcci ed utilizzando diverse metodologie. La distinzione classicamente adottata dei metodi di individuazione (o localizzazione) degli errori casuali separa le tecniche di tipo deterministico da quelle di tipo probabilistico.

  • Approccio deterministico
    Nell'approccio deterministico, per ogni record, o per gruppi di record, l'individuazione degli errori avviene mediante applicazione di regole del tipo "SE condizione di errore ALLORA azione di correzione". In questo tipo di approccio, pertanto, ad ogni situazione di incompatibilità/incoerenza segue, contestualmente, l'indicazione della/e variabile/i che debbono essere considerate errate, e, in quanto tali, devono essere modificate.
  • Approccio probabilistico
    Al contrario, nell'approccio probabilistico non è necessario definire a priori, per ogni situazione di errore, l'elenco delle azioni da intraprendere per individuare/eliminare gli errori: l'esperto statistico deve limitarsi a definire le situazioni di errore, demandando ad un prefissato algoritmo il compito di riportare il record ad una situazione di correttezza. In questo contesto, le tecniche più note ed applicate hanno il loro punto di riferimento nella cosiddetta metodologia Fellegi-Holt, un algoritmo che provvede a determinare, per ogni unità statistica e per ogni situazione di errore, il minimo numero di variabili da modificare in modo da eliminare gli errori individuati e, soprattutto, di non introdurne altri nell'unità stessa. Un altro approccio probabilistico di sempre maggiore utilizzo è la metodologia di individuazione degli errori di tipo data-driven, in cui la correzione delle situazioni errate è completamente "guidata" dai dati disponibili: in estrema sintesi, per un certo record errato, l'individuazione del sottoinsieme di variabili da correggere è contestuale all'individuazione dei nuovi valori da assegnare loro sulla base della "somiglianza" tra il record errato e uno dei record esatti (cioè che non violano alcuna regola di coerenza). Tale somiglianza è espressa in termini di accoppiamento tra i valori delle variabili osservate e viene misurata da una opportuna funzione di distanza. Una caratteristica peculiare di tale approccio è l'eliminazione della rigidità della sequenza localizzazione errore - attribuzione valore, caratteristica sia dell'approccio deterministico sia di quello probabilistico di Fellegi-Holt.

In Istat l'applicazione di alcune tecniche di localizzazione degli errori è facilitata dalla disponibilità di software generalizzati, come lo strumento CONCORD, in cui è disponibile da un lato il modulo GRANADA (Gestione delle Regole e Analisi dei Dati) per l'individuazione di unità errate rispetto a qualsivoglia insieme di regole di coerenza, dall'altro il software SCIA (Sistema di Controllo e Imputazione Automatica) per l'applicazione della metodologia Fellegi-Holt per l'individuazione degli errori casuali in dati categorici. Per l'applicazione della stessa metodologia a dati numerici continui ci si avvale invece del software GEIS (Generalised Editing and Imputation System), in cui è anche disponibile una tecnica di individuazione dei valori anomali nota come algoritmo di Hidiroglou e Berthelot. La metodologia data-driven per dati misti è invece disponibile nel software CANCEIS (CANadian CEnsus Imputation System). Programmi ad hoc vengono invece utilizzati per l'individuazione degli errori secondo l'approccio deterministico.

B. Correzione degli errori

Qualunque sia la tecnica utilizzata, al termine della fase di individuazione degli errori si pone la necessità di sostituire i valori classificati come inaccettabili con valori vicini a quelli veri e di integrare le eventuali informazioni mancanti. Per semplicità, i valori errati possono essere assimilati a informazione parzialmente mancante, in modo da poter essere considerate congiuntamente le tecniche di correzione e quelle di imputazione.

L'imputazione rappresenta la procedura comunemente usata per le mancate risposte parziali. L'uso dell'imputazione è giustificata da una serie di motivi sia operativi sia teorici. In primo luogo, normalmente i dati rilasciati dall'Istat necessitano di essere completi (e coerenti) a livello elementare. È evidente che la garanzia della coerenza dei risultati finali si ha soltanto se i metodi d'imputazione tengono conto dei vincoli di coerenza stessi. Allo stesso modo, le relazioni tra le variabili sono preservate se i modelli di imputazione le usano per predire i valori imputati. Inoltre, l'imputazione consente di applicare all'insieme finale di micro dati tecniche di analisi statistica classiche altrimenti non applicabili. Con l'imputazione, sotto opportune assunzioni, si mira a ridurre le distorsioni che potrebbero avere origine dalla presenza nei dati di valori mancanti.

Il ricorso all'imputazione può presentare alcuni rischi: ad esempio, se il metodo non è appropriato o non sfrutta in modo corretto le informazioni disponibili, è possibile non solo che non vengano eliminate le distorsioni dovute alla presenza di mancate risposte, ma anzi che se ne introducano di ulteriori. Inoltre, è possibile che gli analisti trattino i dati imputati come se essi fossero effettivamente osservati, trascurando in tal modo un'importante componente della variabilità delle stime finali (appunto la varianza da imputazione) in fase di valutazione della precisione delle stime stesse.

L'uso delle tecniche di imputazione è basato, implicitamente o esplicitamente, sull'assunzione che le unità non rispondenti abbiano un comportamento analogo a quelle rispondenti, e che quindi i valori mancanti possano essere predetti sfruttando la sola informazione osservata. Questo equivale a ipotizzare che i valori mancanti siano "missing at random" (MAR, Little e Rubin, 1987), cioè che la probabilità di avere una mancata risposta su una certa variabile Y in una certa unità i non dipende dal valore di Y ma solo dai valori assunti in i da altre variabili (covariate) esplicative di Y. Al fine di ricondursi a questa condizione, l'applicazione delle tecniche di imputazione avviene all'interno delle cosiddette celle (o classi) di imputazione, ottenute operando opportune stratificazioni utilizzando le diverse modalità di prefissate covariate X1, X2… Xn.

In termini generali, i metodi di imputazione possono essere ricondotti al seguente modello generale di regressione:
yi= bo+∑jbj zij+ ei

dove:
-yi rappresenta il valore predetto di y nell'unità i,
- zij è il valore in i della j-esima variabile esplicativa di Y,
- bo e bj sono i coefficienti della regressione di y su x stimati sulle unità rispondenti,
- ei costituisce un residuo aleatorio corrispondente ad un prefissato modello probabilistico.

La distinzione classica tra metodi deterministici e metodi stocastici dipende dal fatto che sia ei=0 oppure no. In altre parole, distinguiamo tra:

  • metodi deterministici, nei quali imputazioni ripetute per unità aventi le stesse caratteristiche producono sempre stessi valori imputati;
  • metodi stocastici, nei quali imputazioni ripetute per unità aventi le stesse caratteristiche possono produrre differenti valori imputati in accordo con lo uno schema probabilistico associato alla componente ek.

In pratica ogni metodo deterministico ha la sua controparte stocastica e viceversa.

Le tecniche di imputazione possono essere parametriche o non parametriche, a seconda che presuppongano o meno ipotesi distribuzionali sulle variabili oggetto di ricostruzione.

Fra i metodi di imputazione maggiormente utilizzati (sia nelle versioni deterministiche, sia in quelle stocastiche) vanno annoverati l'imputazione con valore medio per classi, l'imputazione con regressione o con diversi tipi di rapporti (trasversali o longitudinali), l'imputazione con donatore (casuale o di minima distanza) per classi.

Una classe di metodi a parte è rappresentata dai metodi deduttivi, nei quali il valore imputato è direttamente ottenuto da informazioni note oppure è ricavato sulla base di regole fissate a priori.

Nuove tecniche di imputazione non parametriche sono in fase di studio in Istat: fra queste, tecniche che utilizzano modelli come reti neurali, reti bayesiane, alberi di regressione.

Fra le tecniche di imputazione che consentono di misurare direttamente la componente di varianza delle stime dovuta a imputazione, in Istat sono oggetto di valutazione le cosiddette tecniche di imputazione multipla.

Tecniche di imputazione indiretta possono essere considerate le metodologie afferenti al matching statistico.

In Istat l'applicazione di alcune tecniche di imputazione è facilitata dalla loro disponibilità all'interno di alcuni software generalizzati: l'imputazione con donatore di minima distanza per dati categorici è disponibile in CONCORD sia attraverso SCIA, sia mediante il modulo RIDA (Ricostruzione dell'Informazione con Donatore Automatica), quest'ultimo utilizzabile anche per dati numerici continui. Insieme con tecniche di tipo rapporto, la stessa tecnica per soli dati numerici continui è implementata in GEIS, in cui con opportuni parametri è applicabile anche il metodo dell'imputazione con donatore casuale.