Strumenti

REcord Linkage At IStat

Download del software

A. Requisiti software

RELAIS 2.x richiede l'installazione degli ambienti Java, R e di mySql. Con riferimento all'ambiente Java si richiede l'installazione di Java 2 Runtime Environment 6.0 o superiore; con riferimento all'ambiente R e' necessaria l'installazione della versione 2.5.1 o superiore, e' infine necessario installare i package R lpSolve (versione 5.5 o superiore) e RODBC; con riferimento all'ambiente mySql oltre all'installazione di mySql Server si richiede l'installazione di mySql ODBC 5.x o superiore. Informazioni più dettagliate sulla procedura di istallazione possono essere reperite nel manuale utente (capitolo 3), e nella seguente presentazione: Install_Relais.ppt .

B. Download del software

Per poter effettuare il download occorre compilare un brevissimo questionario identificativo. L'unico scopo della notifica è tenere traccia delle persone interessate a RELAIS in modo da poterle informare dei nuovi sviluppi del progetto.

Download della versione 2.2 del software RELAIS.

Download della versione 2.1 del software RELAIS.

Download della versione 2.0 del software RELAIS.

Download della versione Beta del software RELAIS.

C. Download del manuale utente

Manuale utente di RELAIS 2.2

Manuale utente di RELAIS 2.1

Manuale utente di RELAIS 2.0

Informazioni generali sul software

RELAIS è un progetto open source avente come obiettivo la definizione di un toolkit per il record linkage (RL).
Il progetto nasce, all'interno della Direzione Centrale per le Tecnologie e il supporto metodologico (DCMT), dalla cooperazione tra professionalità e competenze diverse sia metodologico-statistiche che ingegneristico-informatiche. In particolare, il gruppo è costituito da: Nicoletta Cibella, Marco Fortini, Monica Scannapieco, Laura Tosco, Tiziana Tuoto e Luca Valentino.
La finalità del RL è quella di identificare la stessa entità del mondo reale, che può essere rappresentata da differenti unità in fonti di dati diverse, anche in assenza di un identificativo univoco delle unità. In statistica, vi sono numerosi campi di applicazione del RL:

  • creazione e aggiornamento di liste da usare per il campionamento o come riferimento per il censimento;
  • eliminazione di duplicati da una singola sorgente dati;
  • integrazione di fonti per disporre di basi informative più ricche;
  • misura dell'ammontare di una popolazione secondo modelli di tipo cattura-ricattura;
  • studio delle relazioni tra variabili raccolte in indagini campionarie e/o dati di origine amministrativa;
  • identificazione di eventi multipli attribuibili ad un singolo individuo (ad esempio ricoveri, parti, … );
  • verifica della riservatezza di micro-dati rilasciati per uso pubblico.

Le soluzioni a problemi di RL, studiate in letteratura e adottate nella pratica, si rifanno a svariati approcci e metodologie, che coinvolgono soluzioni euristiche, metodi probabilistici, approcci bayesiani, soluzioni basate sulle tecniche di data-mining o machine learning. Tuttavia nessuna delle metodologie o delle tecniche proposte finora per il RL ha dimostrato di essere la più efficace o la più efficiente per tutte le diverse applicazioni, anche a causa del fatto che i problemi di RL sono fortemente caratterizzati dalla natura dei dati da abbinare e dagli obiettivi dell'abbinamento.

Questa constatazione è alla base della filosofia di RELAIS, che è stato progettato e realizzato con l'intenzione di scomporre l'intero problema di RL attraverso l'individuazione delle sue fasi costituenti e di affrontare ciascuna di queste fasi con la tecnica più opportuna, in relazione agli obiettivi dell'applicazione del linkage e alla natura dei dati in esame. Le principali fasi individuate in un processo di RL sono:

Le principali fasi individuate in un processo di RL sono:

  1. Preparazione dei dati di input (pre-processing);
  2. Selezione degli attributi identificativi comuni (variabili di matching);
  3. Scelta della funzione di confronto;
  4. Riduzione dello spazio di ricerca delle coppie candidate all'abbinamento;
  5. Scelta del modello di decisione;
  6. Selezione degli abbinamenti univoci;
  7. Valutazione dei risultati del record linkage.

Per ciascuna delle fasi individuate sono note e largamente utilizzate tecniche diverse. In funzione della particolare applicazione e dei dati in esame, può essere opportuno iterare e/o omettere alcune fasi, così come preferire in ciascuna fase alcune tecniche rispetto ad altre. RELAIS, già nella sua prima versione rilasciato nel 2008, mirava a rendere fruibili le tecniche di RL ad una platea più ampia dei soli esperti del settore.

Dalla versione 2.0 RELAIS ha un'architettura basata su una base di dati relazionale. In particolare è stato scelto l'ambiente mySql per rispecchiare la filosofia open source. Per quanto riguarda l'ambiente di programmazione si è scelto di implementare RELAIS utilizzando due linguaggi aventi un paradigma di base diverso: Java, linguaggio object-oriented e R, linguaggio funzionale. Questa scelta è maturata a seguito della riflessione per cui il processo di record linkage necessita sia di tecniche prevalentemente orientate alla gestione dei dati, per le quali Java si rivela più appropriato, sia di tecniche orientate al calcolo, per le quali è più appropriato il linguaggio R. Infine la scelta è ricaduta sui linguaggi Java e R in quanto rispecchiano la filosofia open source propria del progetto RELAIS.

Nella versione attuale, RELAIS mette a disposizione alcune tra le tecniche e i metodi più diffusi per ciascuna delle fasi individuate precedentemente. In particolare sono disponibili le seguenti funzionalità:

  1. Lettura di insiemi di dati da file in formato testuale.
  2. Metadati per scelta variabili bloccaggio.
  3. Metadati per scelta variabili di matching.
  4. Creazione dello spazio di ricerca del processo di linkage come prodotto cartesiano dei record degli insiemi di dati in input.
  5. Realizzazione del metodo di riduzione dello spazio di ricerca (dato dal prodotto cartesiano dei record di ciascun file coinvolto nel processo di linkage) denominato "blocking" mediante specifica di un'opportuna variabile di bloccaggio.
  6. Realizzazione del metodo di riduzione dello spazio di ricerca denominato "sorted neighborhood method" mediante specifica di un'opportuna variabile di ordinamento e della dimensione della finestra dei confronti.
  7. Realizzazione del metodo di riduzione dello spazio di ricerca denominato "nested blocking" mediante la combinazione dei metodi di riduzione "blocking" e "sorted neighborhood"
  8. Funzioni di distanza.
  9. Modello deterministico esatto.
  10. Modello deterministico con regole e soglie.
  11. Modello probabilistico di Fellegi e Sunter implementato mediante l'algoritmo EM (Expectation-Maximization), sotto l'ipotesi di indipendenza condizionata delle variabili di matching.
  12. Modello probabilistico di Fellegi e Sunter, sotto l'ipotesi di indipendenza condizionata delle variabili, con l'acquisizione delle probabilità marginali da file esterno.
  13. Riduzione da matching N:M a matching 1:1.
  14. Riduzione 1:1 per modello deterministico.
  15. Euristiche non globali per riduzione1:1.
  16. Processamento dei blocchi con one-shot execution.
  17. Gestione ottimizzata output e residui.
  18. Gestione dei back-up.
  19. Gestione ottimizzata per processi di linkage orientati alla deduplicazione.
  20. Processamento in modalità batch

Documentazione

per informazioni:

Aspetti metodologici
Marco Fortini
email fortini@istat.it
Tiziana Tuoto
email tuoto@istat.it
Nicoletta Cibella
email cibella@istat.it

Aspetti informatici
Monica Scannapieco
email scannapi@istat.it
Laura Tosco
email tosco@istat.it
Luca Valentino
email luvalent@istat.it