UnitMix
I contenuti relativi a UnitMix sono riportati nelle seguenti sezioni:
Nelle indagini statistiche, in particolare quelle economiche, è frequente che alcune unità rilevate riportino i valori in unità di misura diverse da quelle attese — ad esempio, importi in migliaia di euro anziché in euro, o in centesimi anziché in unità. Il package UnitMix per l’ambiente R mette a disposizione alcuni strumenti per individuare e correggere tali errori nel contesto multivariato (più variabili numeriche). UnitMix implementa una metodologia di clustering delle osservazioni basata su modelli statistici. (model-based clustering), in particolare si utilizza una “mistura” di distribuzioni Gaussiane (Gaussian Mixture Models, GMM) con input fornito da utenti (pattern di possibili errori), che consente di identificare gruppi di record che differiscono tra loro per scala o unità di misura.
Il package UnitMix ha tre funzioni principali:
- assign.cluster: esegue il clustering delle osservazioni tramite l’algoritmo EM (Expectation-Maximization), traslando il vettore medio globale in base ai pattern di errore specificati dall’utente;
- cluster.plot: genera dinamicamente grafici a dispersione (scatterplot) a coppie per tutte le variabili, trasformate in scala logaritmica, colorando i punti in base al cluster di appartenenza determinato dalle probabilità a posteriori;
- refine.cluster: effettua un post-processing dei risultati di assign.cluster, valutando la compatibilità di ciascuna osservazione con il cluster assegnato tramite la distanza di Mahalanobis sui dati log-trasformati.
Nella pratica, il metodo assume una distribuzione log-normale multivariata con covarianza condivisa tra i cluster. Si usa il package mvtnorm per il calcolo delle densità della distribuzione normale multivariata.
Principali riferimenti bibliografici
Di Zio, M., Guarnera, U., & Luzi, O. (2005). “Editing systematic unity measure errors through mixture modelling”. Survey Methodology, 31(1), 53–63.
Status: validato
Autore: Istat
Licenza: GPL-3
Codifica GSBPM: 5.4 Edit and impute
Linguaggio di programmazione: R
Parole chiave: errori di unità di misura; mistura gaussiana; algoritmo EM; distanza di Mahalanobis
Contatto: nome: Renato Magistro – email: renato.magistro@istat.it
REQUISITI TECNICI
Il package UnitMix funziona su versioni di R a partire dalla 4.0.0 su qualsiasi sistema operativo (Windows, Mac o Linux). Richiede che venga installato il seguente package aggiuntivo R: mvtnorm.
COPYRIGHT
Copyright 2026 Cristina Faricelli, Renato Magistro
Concesso in licenza a norma della GNU General Public License (GPL) versione 3 o successive. Non è possibile utilizzare l’opera salvo nel rispetto della Licenza. È possibile ottenere una copia della Licenza al seguente indirizzo: http://www.gnu.org/licenses/. Salvo diversamente indicato dalla legge applicabile o concordato per iscritto, il software distribuito secondo i termini della Licenza è distribuito “TAL QUALE”, SENZA GARANZIE O CONDIZIONI DI ALCUN TIPO, esplicite o implicite.
DISCLAIMER
L’Istat non si assume la responsabilità per risultati derivanti da un uso dello strumento non coerente con le indicazioni metodologiche contenute nella documentazione disponibile.
DOWNLOAD
Data di rilascio: 10/03/2026
UnitMix Versione 0.0.1 – Package precompilato: Sistemi Windows
UnitMix Versione 0.0.1 – Sorgenti del package: Sistemi Windows e Unix-like
INSTALLAZIONE
Il package scaricato può essere installato da R come segue:
> install.packages(path_to_file, repos = NULL)
dove il character path_to_file identifica il percorso verso il file .zip o .tar.gz scaricato.
DOCUMENTAZIONE TECNICA E METODOLOGICA
Reference manual – UnitMix v. 0.0.1
https://cran.r-project.org/web/packages/UnitMix/UnitMix.pdf
Di Zio, M., Guarnera, U., & Luzi, O. (2005). “Editing systematic unity measure errors through mixture modelling”. Survey Methodology, 31(1), 53–63. https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2005001/article/8087-eng.pdf
ALTRA DOCUMENTAZIONE