StatMatch
I contenuti relativi a StatMatch sono riportati nelle seguenti sezioni:
StatMatch è un package aggiuntivo per l’ambiente R che rende disponibili agli utenti R alcune funzioni per l’integrazione dei dati attraverso lo statistical matching e, come prodotto secondario, la possibilità di imputare i valori mancanti in un data set.
Il package contiene sia funzioni che implementano metodi di matching che funzioni di supporto al matching (calcolo delle distanze, ecc.). Ci sono ben tre funzioni dedicate all’applicazione di metodi nonparametrici di matching a livello micro:
- NND.hotdeck: selezione del donatore di distanza minima; implementa numerose funzioni di distanza; permette la definizione di classi di donazione. E’ possibile imporre il vincolo di utilizzare il donatore una sola volta (matching constained)
- RNDwNND.hotdeck: selezione casuale del donatore in classi fisse o “mobili”. In quest’ultimo caso si può selezionare un donatore a caso tra i k più vicini; scelta a caso di un donatore con quelli a distanza inferiore di una certa soglia, ecc. La selezione del donatore può avvenire con probabilità variabili specificando la variabile contenente i pesi. Sono implementate diverse funzioni di distanza.
- rankNND.hotdeck: selezione del donatore più vicino basandosi sulla distanza calcolata tra i percentili della distribuzione empirica cumulata della variabile continua presente in entrambi i data set. Nel calcolo della distribuzione empirica cumulata è possibile tener conto di un peso diverso da assegnare alle unità. La distribuzione empirica cumulata può essere calcolata in opportune classi di unità.
Queste funzioni possono essere utilizzate per imputare i valori mancanti in un data set attraverso i corrispondenti metodi hotdeck.
Solo la funzione mixed.mtc permette di implementare metodi di matching a livello parametrico macro o misto. La funzione assume che le variabili X, Y e Z si distribuiscano secondo una distribuzione normale multivariata. La stima dei parametri della normale può essere condotta con metodo della massima verosimiglianza o con un metodo basato sulle stime campionarie delle quantità di interesse (medie e varianze).
Due sono le funzioni dedicate alla applicazione di metodi di matching a livello macro in presenza di dati provenienti da indagini campionarie complesse. Tali funzioni si basano su una serie di calibrazioni dei pesi campionari associati alle unità nei data set di origine, secondo le metodologie suggerite da Renssen (1998). Al momento l’applicazione di tali metodi è limitata al caso in cui Y e Z siano entrambe categoriali e l’obiettivo della stima è la tabella di contingenza Y vs. Z. In particolare la funzione harmonize.x armonizza la distribuzione marginale/congiunta delle prescelte variabili X in modo che essa sia coerente tra i due data set di origine; successivamente la funzione comb.samples procede a stimare la tabella Y vs. Z attraverso le metodologie proposte da Renssen sia in assenza di altri fonti dati che in presenza di una ulteriore fonte dati ausiliaria C in cui siano osservate congiuntamente Y e Z o X, Y e Z.
Infine le funzioni Frechet.bounds.cat e Fbwidths.by.x permettono l’esplorazione dell’incertezza quando tutte le variabili (X, Y e Z) sono categoriali. La prima funzione stima gli intervalli di incertezza per tutte le celle della tabella di contingenza Y vs. Z. La funzione Fbwidths.by.x è utile quando si è in presenza di numerose variabili comuni X e permette di individuare quali sono le variabili maggiormente legate alle variabili di interesse Y e Z e che, in quanto tali, permettono una riduzione dell’ampiezza degli intervalli di incertezza.
Status: validato
Autore: Istat
Codifica GSBPM:
5.1 Integrate data
5.4 Edit and impute
Linguaggio di programmazione: R
Parole chiave: statistical matching, data fusion, imputazione hot deck, analisi incertezza
Contatto:
nome: Marcello D’Orazio
email: madorazi@istat.it
REQUISITI TECNICI
Il package Statmatch funziona su versioni di R a partire 2.7.0 su qualsiasi sistema operativo (Windows, Mac o Linux) . Richiede che vengano installati e quindi caricati i seguenti package aggiuntivi R: proxy, lpSolve, survey, ggplot2. In alcuni casi, si può rendere necessario disporre degli ulteriori package: Hmisc, MASS, mipfp, clue, RANN.
COPYRIGHT
Copyright 2016 Marcello D’Orazio
Concesso in licenza a norma della GNU General Public License (GPL) versione 2 o successive. Non è possibile utilizzare l’opera salvo nel rispetto della Licenza. È possibile ottenere una copia della Licenza al seguente indirizzo: http://www.gnu.org/licenses/. Salvo diversamente indicato dalla legge applicabile o concordato per iscritto, il software distribuito secondo i termini della Licenza è distribuito “TAL QUALE”, SENZA GARANZIE O CONDIZIONI DI ALCUN TIPO, esplicite o implicite.
DISCLAIMER
L’Istat non si assume la responsabilità per risultati derivanti da un uso dello strumento non coerente con le indicazioni metodologiche contenute nella documentazione disponibile.
DOWNLOAD
Data di rilascio: 01/03/2022
INSTALLAZIONE
Il package scaricato può essere installato da R come segue:
> install.packages(path_to_file, repos = NULL)
dove il character path_to_file identifica il percorso verso il file .zip o .tar.gz scaricato.
DOCUMENTAZIONE TECNICA E METODOLOGICA
Reference manual – StatMatch v. 1.4.1
ALTRA DOCUMENTAZIONE