• Ascolta questa pagina usando ReadSpeaker
  • Condividi
  • Lascia un feedback

Descrizione

Banff è un software generalizzato per il controllo e la correzione dei dati (imputazione) per le variabili numeriche e continue.
Banff è stato sviluppato da Statistics Canada in ambiente SAS ed è strutturato secondo la filosofia SAS delle procedure (proc). Per il controllo degli errori nei dati si avvale di regole di consistenza (edit rules) che devono essere espresse in forma lineare.

Banff ha una struttura modulare: ogni modulo corrisponde ad una particolare sotto-funzione della struttura generale di un processo di controllo e correzione dati di variabili quantitative:

  • definizione dei dati;
  • definizione delle regole di consistenza;
  • verifica della coerenza delle regole di consistenza;
  • localizzazione degli errori;
  • identificazione dei valori anomali;
  • imputazione.

La localizzazione degli errori è fatta tramite l’algoritmo di Chernikova basato sul paradigma di Fellegi-Holt, ovvero sul criterio del minimo cambiamento.
In generale il paradigma di Fellegi-Holt è ritenuto appropriato per trattare errori di tipo stocastico. Per ogni record che fallisce almeno una regola di consistenza, l’algoritmo identifica il minimo numero di campi da cambiare (imputare) affinchè il record passi tutte le regole.
Per quanto riguarda l’imputazione, Banff implementa diversi metodi:

  • Imputazione deduttiva
    Verifica se esiste uno ed un solo valore che, una volta assegnato al campo da imputare, fa si che il record soddisfi tutte le regole di consistenza.
  • Donatore di minima distanza
    Viene scelta l’osservazione più vicina all’unità da imputare tra i potenziali donatori, i.e. unità che soddisfano tutte le regole.
    E’ importante sottolineare che un potenziale donatore sarà scelto effettivamente come donatore, se il valore imputato farà si che il ricevente passi tutti i vincoli.
    In altri termini i record imputati tramite il donatore di minima distanza soddisferanno un insieme di regole determinate dall’utilizzatore del software.
    L’imputazione è congiunta, ovvero una volta che un donatore è stato scelto, tutti i campi da imputare del ricevente saranno riempiti con i valori del donatore stesso.
  • Stimatori
    Banff implementa una serie metodi chiamati in senso lato stimatori.
    Tali metodi vanno dalla sostituzione dei valori mancanti con la media calcolata sui valori osservati, alla predizione dei valori mancanti tramite la regressione.

Il software Banff dà inoltre la possibilità di effettuare altre analisi che possono essere utili per capire e studiare l’impatto del piano di controllo e correzione sui dati (ad esempio: la lista delle regole ridondanti, la frequenza di fallimento degli edit per record, ecc…).

Informazioni

Status: in dismissione
Autore: Statistics Canada
Codifica GSBPM: 5.3 Review and validate
5.4 Edit and impute
Parole chiave: editing per variabili numeriche, localizzazione degli
errori, principio del minimo cambiamento,
donatore di minima distanza

Reperimento software e documentazione

Per il reperimento del software e della documentazione tecnica e metodologica è possibile rivolgersi a Statistics Canada.

Solo per i dipendenti Istat: rivolgersi a Francesco Dell’Orco.

Ultima modifica: 22 dicembre 2016