Strumenti

Generalised Editing and Imputation System

Download del software

A. Requisiti hardware e software per il download Software

Dimensione minima hardware
- 64 Mb di memoria RAM
- 6 Mb su disco C:\

Software necessari
- software per espandere un file compresso: WINZIP, ZipGenius…
- SAS SYSTEM v.9 per Microsoft Windows

B. Reperimento del software

Per il reperimento del software è possibile consultare il sito web di Statistics Canada.

Informazioni generali sul software

BANFF/GEIS sono due software generalizzati per il controllo e la correzione dei dati (imputazione) per le variabili numeriche, continue e non-negative.

Essi sono stati sviluppati da Statistics Canada.

La principale differenza fra i due software risiede nell'ambiente in cui essi lavorano.
GEIS è sviluppato in ambiente UNIX, utilizza Database Oracle ed eseguibili in C.
BANFF invece è sviluppato in ambiente SAS ed è strutturato secondo la filosofia SAS delle procedure (proc).
Non ci sono invece grandi differenze per quanto riguarda la loro funzionalità metodologica. Per il controllo degli errori nei dati si avvale di regole di consistenza (edit rules) che devono essere espresse in forma lineare.

GEIS/BANFF ha una struttura modulare: ogni modulo corrisponde ad una particolare sotto-funzione della struttura generale di un processo di controllo e correzione dati di variabili quantitative:

  • definizione dei dati;
  • definizione delle regole di consistenza;
  • verifica della coerenza delle regole di consistenza;
  • localizzazione degli errori;
  • identificazione dei valori anomali;
  • imputazione.

La localizzazione degli errori è fatta tramite l'algoritmo di Chernikova basato sul paradigma di Fellegi-Holt, ovvero sul criterio del minimo cambiamento.
In generale il paradigma di Fellegi-Holt è ritenuto appropriato per trattare errori di tipo stocastico. Per ogni record che fallisce almeno una regola di consistenza, l'algoritmo identifica il minimo numero di campi da cambiare (imputare) affinchè il record passi tutte le regole.

Per quanto riguarda l'imputazione, GEIS/BANFF implementa diversi metodi:

  • Imputazione deduttiva
    Verifica se esiste uno ed un solo valore che, una volta assegnato al campo da imputare, fa si che il record soddisfi tutte le regole di consistenza.
  • Donatore di minima distanza
    Viene scelta l'osservazione più vicina all'unità da imputare tra i potenziali donatori, i.e. unità che soddisfano tutte le regole. È importante sottolineare che un potenziale donatore sarà scelto effettivamente come donatore, se il valore imputato farà si che il ricevente passi tutti i vincoli. In altri termini i record imputati tramite il donatore di minima distanza soddisferanno un insieme di regole determinate dall'utilizzatore del software. L'imputazione è congiunta, ovvero una volta che un donatore è stato scelto, tutti i campi da imputare del ricevente saranno riempiti con i valori del donatore stesso.
  • Stimatori
    GEIS/BANFF implementa una serie metodi chiamati in senso lato stimatori. Tali metodi vanno dalla sostituzione dei valori mancanti con la media calcolata sui valori osservati, alla predizione dei valori mancanti tramite la regressione.

I software GEIS/BANFF danno inoltre la possibilità di effettuare altre analisi che possono essere utili per capire e studiare l'impatto del piano di controllo e correzione sui dati (ad esempio, lista delle regole ridondanti, frequenza di fallimento degli edit per record ecc.).

Documentazione

  • Fellegi, I.P. and D. Holt - (1976), "A systematic approach to automatic edit and imputation", Journal of the American Statistical Association 71, 17-35
  • Kovar J.G., MacMillian J.H., and Whitridge P. - (1988), "Overview and strategy for the generalized edit and imputation system", Report, Methodology Branch - April 1988 (updated February 1991), Statistics Canada
  • Cotton C. - (1991), "Functional description of the generalized edit and imputation system", Business Survey Methods Division - July 25, Statistics Canada
  • Bankier M., Filion J.M., Luc M., Nadeau C. - (1994), "Imputing Numeric and Qualitative Variables Simultaneously", Proceedings of the Section on Survey Research Methods, American Statistical Association, pp. 242-247
  • Barcaroli G., Luzi O. - (1995), "GEIS - Sistema Generalizzato per l'Editing e l'Imputazione di Variabili Quantitative: una Sperimentazione", Quaderni di Ricerca Istat, n.1
  • Guarnera U., Luzi O. - (2004), "Editing and Imputation Methods in the Istat Survey on Structure and Production of Agricultural Firms", Atti del Convegno "L'informazione statistica e le politiche agricole", ISPA 2004, Università di Cassino, 6 maggio 2004
  • Guarnera U., Luzi O. - (2005), "Valutazione del trattamento degli errori di misura e di risposta nell'indagine SPA", Convegno AGRI@STAT "Verso un nuovo sistema di statistiche agricole", Firenze, 30-31 maggio 2005

per informazioni:
Metodi per il trattamento degli errori non campionari
Orietta Luzi
email luzi@istat.it
Marco Di Zio
email dizio@istat.it