• Ascolta questa pagina usando ReadSpeaker
  • Condividi
  • Lascia un feedback

Descrizione

RELAIS è un progetto open source avente come obiettivo la definizione di un toolkit per risolvere problemi di record linkage.

Le soluzioni a problemi di record linkage, studiate in letteratura e adottate nella pratica, si rifanno a svariati approcci e metodologie, che coinvolgono soluzioni euristiche, metodi probabilistici, approcci bayesiani, soluzioni basate sulle tecniche di data-mining o machine learning. Tuttavia nessuna delle metodologie o delle tecniche proposte finora per il record linkage ha dimostrato di essere la più efficace o la più efficiente per tutte le diverse applicazioni, anche a causa del fatto che i problemi di record linkage sono fortemente caratterizzati dalla natura dei dati da abbinare e dagli obiettivi dell’abbinamento.

Questa constatazione è alla base della filosofia di RELAIS, che è stato progettato e realizzato con l’intenzione di scomporre l’intero problema di record linkage attraverso l’individuazione delle sue fasi costituenti e di affrontare ciascuna di queste fasi con la tecnica più opportuna, in relazione agli obiettivi dell’applicazione del linkage e alla natura dei dati in esame.

Le principali fasi individuate in un processo di record linkage sono:

–          Preparazione dei dati di input (pre-processing);

–          Selezione degli attributi identificativi comuni (variabili di matching);

–          Scelta della funzione di confronto;

–          Riduzione dello spazio di ricerca delle coppie candidate all’abbinamento;

–          Scelta del modello di decisione;

–          Selezione degli abbinamenti univoci;

–          Valutazione dei risultati del record linkage.

Per ciascuna delle fasi individuate sono note e largamente utilizzate tecniche diverse. In funzione della particolare applicazione e dei dati in esame, può essere opportuno iterare e/o omettere alcune fasi, così come preferire in ciascuna fase alcune tecniche rispetto ad altre.

Per ciascuna delle fasi individuate, RELAIS mette a a disposizione alcune tra le tecniche e i metodi più diffusi.
In particolare sono disponibili le seguenti funzionalità:

  • Lettura di insiemi di dati da file in formato testuale.
  • Metadati per scelta variabili bloccaggio.
  • Metadati per scelta variabili di matching.
  • Creazione dello spazio di ricerca del processo di linkage come prodotto cartesiano dei record degli insiemi di dati in input.
  • Realizzazione del metodo di riduzione dello spazio di ricerca (dato dal prodotto cartesiano dei record di ciascun file coinvolto nel processo di linkage) denominato “blocking” mediante specifica di un’opportuna variabile di bloccaggio.
  • Realizzazione del metodo di riduzione dello spazio di ricerca denominato “sorted neighborhood method” mediante specifica di un’opportuna variabile di ordinamento e della dimensione della finestra dei confronti.
  • Realizzazione del metodo di riduzione dello spazio di ricerca denominato “nested blocking” mediante la combinazione dei metodi di riduzione “blocking” e “sorted neighborhood”
  • Funzioni di distanza.
  • Modello deterministico esatto.
  • Modello deterministico con regole e soglie.
  • Modello probabilistico di Fellegi e Sunter implementato mediante l’algoritmo EM (Expectation-Maximization), sotto l’ipotesi di indipendenza condizionata delle variabili di matching.
  • Modello probabilistico di Fellegi e Sunter, sotto l’ipotesi di indipendenza condizionata delle variabili, con l’acquisizione delle probabilità marginali da file esterno.
  • Riduzione da matching N:M a matching 1:1.
  • Riduzione 1:1 per modello deterministico.
  • Euristiche non globali per riduzione1:1.
  • Processamento dei blocchi con one-shot execution.
  • Gestione ottimizzata output e residui.
  • Gestione dei back-up.
  • Gestione ottimizzata per processi di linkage orientati alla deduplicazione.
  • Processamento in modalità batch

Informazioni

Status: validato
Autore: Istat
Licenza: EUPL-1.1
Codifica GSBPM: 5.1 Integrate data
Linguaggio di programmazione: R, Java
Versione linguistica della GUI: EN
Parole chiave: integrazione dati, record linkage probabilistico, comparazione di stringhe, blocking/sorting/indexing, deduplicazione, open source software
Contatto: nome: Luca Valentino
email: luvalent@istat.it

Reperimento software e documentazione

REQUISITI TECNICI

RELAIS 3.x (REcord Linkage At IStat) richiede l’installazione degli ambienti Java, R e di MySQL. Con riferimento all’ambiente Java si richiede l’installazione di Java 2 Runtime Environment 6.0 o superiore; con riferimento all’ambiente R e’ necessaria l’installazione della versione 2.5.1 o superiore, e’ infine necessario installare i package R lpSolve (versione 5.5 o superiore) e RODBC; con riferimento all’ambiente MySQL oltre all’installazione di MySQL Server si richiede l’installazione di MySQL ODBC 5.x o superiore.

COPYRIGHT

Copyright 2015 Istat

Concesso in licenza a norma dell’European Union Public Licence (EUPL), versione 1.1 o successive. Non è possibile utilizzare l’opera salvo nel rispetto della Licenza. È possibile ottenere una copia della Licenza al seguente indirizzo: http://ec.europa.eu/idabc/eupl.html. Salvo diversamente indicato dalla legge applicabile o concordato per iscritto, il software distribuito secondo i termini della Licenza è distribuito “TAL QUALE”, SENZA GARANZIE O CONDIZIONI DI ALCUN TIPO, esplicite o implicite. Si veda la Licenza per la lingua specifica che disciplina le autorizzazioni e le limitazioni secondo i termini della Licenza.

DISCLAIMER

L’Istat non si assume la responsabilità per risultati derivanti da un uso dello strumento non coerente con le indicazioni metodologiche contenute nella documentazione disponibile.

DOWNLOAD

DOCUMENTAZIONE TECNICA E METODOLOGICA

Manuale utente – RELAIS v. 3.0

ALTRA DOCUMENTAZIONE

Cibella N., G.L. Fernandez,  M. Guigò, F. Hernandez, M. Scannapieco, L. Tosco, T. Tuoto. 2009. Sharing Solutions for Record Linkage: the RELAIS Software and the Italian and Spanish Experiences. In Atti della conferenza NTTS (New Techniques and Technologies for Statistics), Eurostat, Brussels, 18-20 febbraio 2009.

Eurostat. 2009. Theory and practice of developing a record linkage software. In “Insights on Data Integration Methodologies. ESSnet-ISAD workshop, Vienna, 29-30 maggio 2008”. Methodologies and working papers, Eurostat.

Cibella N., M. Fortini, M. Scannapieco, L. Tosco, T. Tuoto. 2007. RELAIS: Don’t Get Lost in a Record Linkage Project. In Atti della Conferenza FCSM 2007, Federal Committee on Statistical Methodology, Arlington, 5–7 novembre 2007.

Fortini M., P.D. Falorsi, C. Vaccari, N. Cibella, T. Tuoto, M. Scannapieco, L. Tosco. 2006. Towards an Open Source Toolkit for Building Record Linkage Workflows. In Atti del workshop internazionale IQIS, Chicago, 30 giugno 2006.

Ultima modifica: 18 gennaio 2018