RELAIS

I contenuti relativi a RELAIS sono riportati nelle seguenti sezioni:

RELAIS è un progetto open source avente come obiettivo la definizione di un toolkit per risolvere problemi di record linkage.

Le soluzioni a problemi di record linkage, studiate in letteratura e adottate nella pratica, si rifanno a svariati approcci e metodologie, che coinvolgono soluzioni euristiche, metodi probabilistici, approcci bayesiani, soluzioni basate sulle tecniche di data-mining o machine learning. Tuttavia nessuna delle metodologie o delle tecniche proposte finora per il record linkage ha dimostrato di essere la più efficace o la più efficiente per tutte le diverse applicazioni, anche a causa del fatto che i problemi di record linkage sono fortemente caratterizzati dalla natura dei dati da abbinare e dagli obiettivi dell’abbinamento.

Questa constatazione è alla base della filosofia di RELAIS, che è stato progettato e realizzato con l’intenzione di scomporre l’intero problema di record linkage attraverso l’individuazione delle sue fasi costituenti e di affrontare ciascuna di queste fasi con la tecnica più opportuna, in relazione agli obiettivi dell’applicazione del linkage e alla natura dei dati in esame.

Le principali fasi individuate in un processo di record linkage sono:

Preparazione dei dati di input (pre-processing);
Selezione degli attributi identificativi comuni (variabili di matching);
Scelta della funzione di confronto;
Riduzione dello spazio di ricerca delle coppie candidate all’abbinamento;
Scelta del modello di decisione;
Selezione degli abbinamenti univoci;
Valutazione dei risultati del record linkage.

Per ciascuna delle fasi individuate sono note e largamente utilizzate tecniche diverse. In funzione della particolare applicazione e dei dati in esame, può essere opportuno iterare e/o omettere alcune fasi, così come preferire in ciascuna fase alcune tecniche rispetto ad altre.

Per ciascuna delle fasi individuate, RELAIS mette a a disposizione alcune tra le tecniche e i metodi più diffusi.
In particolare sono disponibili le seguenti funzionalità:

Lettura di insiemi di dati da file in formato testuale.
Metadati per scelta variabili bloccaggio.
Metadati per scelta variabili di matching.
Creazione dello spazio di ricerca del processo di linkage come prodotto cartesiano dei record degli insiemi di dati in input.
Realizzazione del metodo di riduzione dello spazio di ricerca (dato dal prodotto cartesiano dei record di ciascun file coinvolto nel processo di linkage) denominato “blocking” mediante specifica di un’opportuna variabile di bloccaggio.
Realizzazione del metodo di riduzione dello spazio di ricerca denominato “sorted neighborhood method” mediante specifica di un’opportuna variabile di ordinamento e della dimensione della finestra dei confronti.
Realizzazione del metodo di riduzione dello spazio di ricerca denominato “nested blocking” mediante la combinazione dei metodi di riduzione “blocking” e “sorted neighborhood”
Funzioni di distanza.
Modello deterministico esatto.
Modello deterministico con regole e soglie.
Modello probabilistico di Fellegi e Sunter implementato mediante l’algoritmo EM (Expectation-Maximization), sotto l’ipotesi di indipendenza condizionata delle variabili di matching.
Modello probabilistico di Fellegi e Sunter, sotto l’ipotesi di indipendenza condizionata delle variabili, con l’acquisizione delle probabilità marginali da file esterno.
Riduzione da matching N:M a matching 1:1.
Riduzione 1:1 per modello deterministico.
Euristiche non globali per riduzione1:1.
Processamento dei blocchi con one-shot execution.
Gestione ottimizzata output e residui.
Gestione dei back-up.
Gestione ottimizzata per processi di linkage orientati alla deduplicazione.
Processamento in modalità batch

Status: Purtroppo il software non è conforme ai requisiti dell’infrastruttura IT adottata dall’Istat e, di conseguenza, non può essere utilizzato all’interno dell’Istituto. Può invece essere utilizzato liberamente al di fuori dell’Istat

Autore: Istat

Licenza: EUPL-1.1

Codifica GSBPM: 5.1 Integrate data

Linguaggio di programmazione: R, Java

Versione linguistica della GUI: EN

Parole chiave: integrazione dati, record linkage probabilistico, comparazione di stringhe, blocking/sorting/indexing, deduplicazione, open source software

Contatto:

nome: Luca Valentino
email: luvalent@istat.it

REQUISITI TECNICI

Nota: purtroppo il software non è conforme ai requisiti dell’infrastruttura IT adottata dall’Istat e, di conseguenza, non può essere utilizzato all’interno dell’Istituto. Può invece essere utilizzato liberamente al di fuori dell’Istat.

RELAIS 3.1 (REcord Linkage At IStat) richiede l’installazione degli ambienti Java, R e di MySQL. Con riferimento all’ambiente Java si richiede l’installazione di Java SE Development Kit 13 o superiore; con riferimento all’ambiente R è necessaria l’installazione della versione 3.4.0 o superiore, è infine necessario installare i package R ROI, ROI.plugin.clp, slam e RODBC; con riferimento all’ambiente MySQL oltre all’installazione di MySQL Server si richiede l’installazione di MySQL Connector/ODBC versione 5.0 o superiore.

COPYRIGHT

Concesso in licenza a norma dell’European Union Public Licence (EUPL), versione 1.1 o successive. Non è possibile utilizzare l’opera salvo nel rispetto della Licenza. È possibile ottenere una copia della Licenza al seguente indirizzo: http://ec.europa.eu/idabc/eupl.html. Salvo diversamente indicato dalla legge applicabile o concordato per iscritto, il software distribuito secondo i termini della Licenza è distribuito “TAL QUALE”, SENZA GARANZIE O CONDIZIONI DI ALCUN TIPO, esplicite o implicite. Si veda la Licenza per la lingua specifica che disciplina le autorizzazioni e le limitazioni secondo i termini della Licenza.

DISCLAIMER

L’Istat non si assume la responsabilità per risultati derivanti da un uso dello strumento non coerente con le indicazioni metodologiche contenute nella documentazione disponibile.

DOWNLOAD
Data di rilascio: 10/03/2020

RELAIS versione 3.1

DOCUMENTAZIONE TECNICA E METODOLOGICA

Manuale utente – RELAIS v. 3.1

ALTRA DOCUMENTAZIONE

Cibella, N., M. Scannapieco, L. Tosco, T. Tuoto, and L. Valentino. 2012. “Record Linkage with RELAIS: Experiences and Challenges“. Estadistica Española, Volume 54, N. 179/2012: 311-328

Cibella, N., G.L. Fernandez, M. Guigò, F. Hernandez, M. Scannapieco, L. Tosco, and T. Tuoto. 2009. “Sharing Solutions for Record Linkage: the RELAIS Software and the Italian and Spanish Experiences“. In Proceedings of New Techniques and Technologies for Statistics (NTTS) Conference 2009. Eurostat, Brussels, 18-20 February 2009.

Cibella, N., M. Fortini, M. Scannapieco, L. Tosco, and T. Tuoto. 2009. “Theory and practice of developing a record linkage software”. In ESSnet-ISAD Workshop, Insights on Data Integration Methodologies.. Eurostat, Vienna, 29-30 May 2008.

Cibella, N., M. Fortini, M. Scannapieco, L. Tosco, and T. Tuoto. 2007. “RELAIS: Don’t Get Lost in a Record Linkage Project“. In Research Conference of the Federal Committee on Statistical Methodology. FCSM, Arlington, 5-7 November 2007.

Fortini, M., P.D. Falorsi, C. Vaccari, N. Cibella, T. Tuoto, M. Scannapieco, and L. Tosco. 2006. “Towards an Open Source Toolkit for Building Record Linkage Workflows“. In IQIS International workshop. IQIS , Chicago, 30 June 2006.

Metodi e software del processo statistico

RELAIS

Descrizione

Informazioni

Reperimento software e documentazione

Iscriviti alla nostra Newsletter