Ricerca
strumenti

Metodi e software del processo statistico

Individuazione e trattamento degli errori di misura e delle mancate risposte parziali

Le mancate risposte parziali (MRP) e gli errori di misura sono particolari errori non campionari che vengono individuati e trattati nella fase di controllo e correzione dei dati.

Per errore di misura si intende qui una discrepanza tra valore “vero” e valore “osservato” di una variabile in un’unità, dovuta a qualsiasi difetto del processo di misurazione (rilevazione, codifica, registrazione, ecc.). Mancate risposte ed errori di misura possono compromettere seriamente l’accuratezza delle stime di interesse e dovrebbero essere prevenuti con opportuni accorgimenti nel processo di misurazione. Anche dopo l’adozione di tali accorgimenti è tuttavia inevitabile che una frazione dei dati registrati sia caratterizzata dalla presenza di errori e mancate risposte che richiedono quindi l’utilizzo di appositi metodi di controllo e correzione.

Nell’ambito del GSBPM si distinguono due sottoprocessi: 5.3 “Review and validate” e 5.4 “Edit and impute”, che attengono rispettivamente al processo di verifica della validità dell’informazione a disposizione e al complesso di attività volte alla localizzazione degli errori e alla sostituzione dei valori ritenuti errati con valori plausibili (imputazione). Non sempre, nei reali contesti operativi, questi due sottoprocessi sono nettamente distinti.

Individuazione degli errori di misura

I metodi di individuazione degli errori possono essere classificati a secondo delle tipologie di errore per cui sono impiegati. Un primo importante criterio di classificazione degli errori distingue errori sistematici ed errori casuali (o stocastici o non sistematici). Si dicono sistematici quegli errori la cui origine è da attribuirsi a difetti strutturali o organizzativi del processo di produzione dell’informazione statistica, alla struttura del modello, o al sistema di registrazione adottati, e si manifestano nella maggior parte dei casi come deviazioni “in una stessa direzione” dal valore vero di una o più variabili rilevate. Gli errori sistematici vengono generalmente trattati con regole deterministiche basate sulla conoscenza del meccanismo che ha generato l’errore. Tra gli errori sistematici, particolarmente comuni sono gli errori di unità misura per le variabili quantitative.

Si dicono casuali quegli errori la cui origine è da attribuirsi a fattori aleatori non direttamente individuabili. A differenza degli errori sistematici, per gli errori casuali l’approccio deterministico è sconsigliabile.

Una importante classe di errori è quella degli errori che si manifestano determinando valori di alcune variabili fuori dominio, cioè non appartenenti ad un insieme predefinito di valori ammissibili. Simili a questi errori sono quelli che determinano incoerenze nei dati, cioè che possono essere rilevati con l’applicazione di regole di compatibilità (edit) tra le variabili. Gli errori ritenuti poco influenti che determinano incompatibilità tra gli item osservati sono generalmente “localizzati” usando metodi automatici basati su principi “generali”. Un approccio particolarmente diffuso in quest’ambito è basato sul principio del minimo cambiamento, secondo il quale per ciascun record con errori, deve essere cambiato il numero minimo di variabili che consenta di rendere il record compatibile rispetto agli edit. Sulla base di questo principio è stata sviluppata la metodologia Fellegi-Holt inizialmente limitata alle variabili categoriche e successivamente estesa a quelle numeriche.

Un’altra classe importante di errori include quelli che si manifestano con la presenza di dati anomali (outlier), cioè unità con caratteristiche significativamente diverse da quelle della maggior parte delle altre unità. Le tecniche di individuazione degli outlier utilizzano di solito, implicitamente o esplicitamente, un modello per i dati “corretti”, e cercano di identificare le unità che si discostano dal modello. I metodi di ricerca degli outlier sono anche spesso utilizzate in procedure di editing selettivo finalizzate all’identificazione degli errori influenti. Il concetto di errore influente, pur essendo collegato a quello di outlier, ne è concettualmente distinto. Mentre la definizione di outlier è legato esclusivamente al modello assunto (almeno implicitamente) per i dati, quello di errore influente dipende anche strettamente dalla stima di interesse. In particolare valori anomali possono non dipendere da errori influenti, e viceversa, errori influenti possono non determinare valori anomali.

Correzione degli errori e imputazione delle mancate risposte parziali

Qualunque sia la tecnica utilizzata, al termine della fase di individuazione degli errori si pone la necessità di sostituire (imputare) i valori classificati come inaccettabili con valori vicini a quelli veri e di integrare le eventuali informazioni mancanti. L’imputazione rappresenta inoltre la procedura comunemente usata per le mancate risposte parziali. L’uso dell’imputazione è giustificata da una serie di motivi sia operativi sia teorici. In primo luogo, normalmente i dati rilasciati dall’Istat necessitano di essere completi (e coerenti) a livello elementare. Inoltre, l’imputazione consente di applicare all’insieme finale di microdati completi metodi e software standard di analisi statistica.

I metodi di imputazione sono numerosi e implementati in numerosi pacchetti statistici sia di proprietà esclusiva sia liberi. Tra le possibili classificazioni, una particolarmente usata distingue tra metodi parametrici che si basano su ipotesi distribuzionali esplicite (ad esempio imputazione per regressione) e metodi non parametrici che evitano assunzioni distribuzionali (hot-deck imputationdonatore di minima distanza, ecc.). Inoltre i metodi di imputazione possono essere divisi in metodi deterministici, che a seguito di applicazioni ripetute producono gli stessi risultati, e metodi stocastici, caratterizzati da una certa variabilità degli output.

La scelta del metodo di imputazione dipende dagli obiettivi delle analisi che devono essere effettuate sui dati “completati”. Ad esempio, se l’interesse dell’analista è rivolto alla stima di quantità lineari come medie o totali può essere opportuno utilizzare un metodo di imputazione deterministico, mentre se sono di interesse anche altre caratteristiche distribuzionali dei dati (come ad esempio momenti di ordine superiore al primo), un metodo di imputazione stocastico di norma è preferibile.

Ti è stata utile questa pagina?

    Gli aggiornamenti di Istat ogni settimana