Ricerca
strumenti

Metodi e software del processo statistico

SeleMix

I contenuti relativi a SeleMix sono riportati nelle seguenti sezioni:

SeleMix è un pacchetto R per il trattamento di dati quantitativi, che si pone l’obiettivo di individuare un insieme di unità affette da errori potenzialmente influenti sulle stime di interesse (editing selettivo).

La metodologia sottostante si basa su particolari modelli a classi latenti noti in letteratura come modelli di contaminazione. Specificamente, si assume che i dati “veri” (cioè non affetti da errori), eventualmente in scala logaritmica, siano realizzazioni indipendenti di una distribuzione Gaussiana multivariata, con vettore delle medie che può a sua volta essere espresso come combinazione lineare di un insieme di covariate non contaminate. La natura “intermittente” del meccanismo di errore è catturata da variabili Bernoulliane che hanno il ruolo di indicatori per l’occorrenza di errore su ciascuna unità. Inoltre l’errore è supposto additivo e associato a un vettore Gaussiano a media nulla e matrice di varianza e covarianza proporzionale alla matrice di varianza e covarianza che caratterizza la distribuzione dei dati senza errori. La modellizzazione esplicita della distribuzione dei dati non contaminati e del meccanismo di errore consentono di ricavare la distribuzione dei dati veri condizionatamente ai dati osservati. Sulla base di quest’ultima distribuzione vengono effettuate le previsioni dei valori veri non osservati, e quindi degli errori. Per ciascuna unità, è calcolato un punteggio (score) in termini della differenza (eventualmente ponderata col peso campionario) tra valore previsto e valore osservato. Tutte le unità sono quindi ordinate (in modo decrescente) in accordo al proprio punteggio. Supponendo che il parametro di interesse sia una media o un totale di popolazione, la selezione delle osservazioni da sottoporre a revisione interattiva è effettuata considerando la stima dell’errore che rimane nei dati al netto delle unità revisionate. Il numero di unità selezionate secondo tale criterio dipende inoltre da una soglia specificata dall’utente che è legata all’accuratezza della stima che si vuole ottenere.

Sono descritte di seguito le principali funzioni del pacchetto SeleMix:

  • ml.est: effettua le stime di massima verosimiglianza dei parametri del modello di contaminazione mediante algoritmo ECM e fornisce i valori previsti dei dati “veri” per tutte le unità che sono state usate per la stima. Ritorna anche, per ciascuna unità, le probabilità a posteriori di occorrenza dell’errore e i flag di classificazione outlier – non outlier calcolati in base ad una soglia per la probabilità di errore specificata dall’utente.
    Richiede la specificazione del tipo di modello assunto per i dati veri (normale o lognormale) e alcuni parametri tecnici per l’algoritmo ECM.
  • pred.y: sulla base di un insieme di parametri del modello di contaminazione, e di un insieme di dati osservati, calcola i valori previsti dei corrispondenti dati veri. Sono ammessi anche valori mancanti per le variabili risposta, ma non per le covariate.
  • sel.edit: effettua l’Editing Selettivo. Sulla base di un insieme di dati osservati e delle corrispondenti previsioni per i dati veri seleziona le unità da sottoporre a editing interattivo. Richiede in input la soglia di accuratezza desiderata e, se presenti, i pesi campionari associati alle unità. Fornisce il punteggio per ciascuna unità e il rank corrispondente.

Data la possibilità di utilizzare le funzioni del pacchetto anche in presenza di dati incompleti, il software può anche essere usato come strumento di imputazione robusta per dati Gaussiani multivariati.

Status: validato

Autore: Istat

Licenza: EUPL-1.1

Codifica GSBPM:

5.3 Review and validate
5.4 Edit and impute

Linguaggio di programmazione: R

Parole chiave: Modelli a classi latenti, editing selettivo, errore influente

Contatto:

nome: Maria Teresa Buglielli
email: bugliell@istat.it

COPYRIGHT

Copyright 2013 Istat

Concesso in licenza a norma dell’European Union Public Licence (EUPL), versione 1.1 o successive. Non è possibile utilizzare l’opera salvo nel rispetto della Licenza. È possibile ottenere una copia della Licenza al seguente indirizzo: http://ec.europa.eu/idabc/eupl.html. Salvo diversamente indicato dalla legge applicabile o concordato per iscritto, il software distribuito secondo i termini della Licenza è distribuito “TAL QUALE”, SENZA GARANZIE O CONDIZIONI DI ALCUN TIPO, esplicite o implicite. Si veda la Licenza per la lingua specifica che disciplina le autorizzazioni e le limitazioni secondo i termini della Licenza.

DISCLAIMER

L’Istat non si assume la responsabilità per risultati derivanti da un uso dello strumento non coerente con le indicazioni metodologiche contenute nella documentazione disponibile.

DOWNLOAD
Data di rilascio: 12/12/2013

INSTALLAZIONE
Il package scaricato può essere installato da R come segue:
> install.packages(path_to_file, repos = NULL)
dove il character path_to_file identifica il percorso verso il file .zip o .tar.gz scaricato.

DOCUMENTAZIONE TECNICA E METODOLOGICA

Reference manual – SeleMix  v. 0.9.1

Vignettes – SeleMix  v. 0.9.1

ALTRA DOCUMENTAZIONE

Barcaroli, G., and D. Zardetto. 2012. “Use of R in Business Surveys at the Italian National Institute of Statistics: Experiences and Perspectives“. In Proceedings of the 4th International Conference of Establishment Surveys (ICES IV). American Statistical Association, Montréal, 11-14 June 2012.

Ti è stata utile questa pagina?

    Gli aggiornamenti di Istat ogni settimana