RELAIS 2.x richiede l'installazione degli ambienti Java, R e di mySql. Con riferimento all'ambiente Java si richiede l'installazione di Java 2 Runtime Environment 6.0 o superiore; con riferimento all'ambiente R e' necessaria l'installazione della versione 2.5.1 o superiore, e' infine necessario installare i package R lpSolve (versione 5.5 o superiore) e RODBC; con riferimento all'ambiente mySql oltre all'installazione di mySql Server si richiede l'installazione di mySql ODBC 5.x o superiore. Informazioni più dettagliate sulla procedura di istallazione possono essere reperite nel manuale utente (capitolo 3), e nella seguente presentazione: Install_Relais.ppt .
B. Download del software
Per poter effettuare il download occorre compilare un brevissimo questionario identificativo. L'unico scopo della notifica è tenere traccia delle persone interessate a RELAIS in modo da poterle informare dei nuovi sviluppi del progetto.
Download della versione 2.2 del software RELAIS.
Download della versione 2.1 del software RELAIS.
Download della versione 2.0 del software RELAIS.
Download della versione Beta del software RELAIS.
Manuale utente di RELAIS 2.2
Manuale utente di RELAIS 2.1
Manuale utente di RELAIS 2.0
RELAIS è un progetto open source avente come obiettivo la definizione di un toolkit per il record linkage (RL).
Il progetto nasce, all'interno della Direzione Centrale per le Tecnologie e il supporto metodologico (DCMT), dalla cooperazione tra professionalità e competenze diverse sia metodologico-statistiche che ingegneristico-informatiche. In particolare, il gruppo è costituito da: Nicoletta Cibella, Marco Fortini, Monica Scannapieco, Laura Tosco, Tiziana Tuoto e Luca Valentino.
La finalità del RL è quella di identificare la stessa entità del mondo reale, che può essere rappresentata da differenti unità in fonti di dati diverse, anche in assenza di un identificativo univoco delle unità. In statistica, vi sono numerosi campi di applicazione del RL:
Le soluzioni a problemi di RL, studiate in letteratura e adottate nella pratica, si rifanno a svariati approcci e metodologie, che coinvolgono soluzioni euristiche, metodi probabilistici, approcci bayesiani, soluzioni basate sulle tecniche di data-mining o machine learning. Tuttavia nessuna delle metodologie o delle tecniche proposte finora per il RL ha dimostrato di essere la più efficace o la più efficiente per tutte le diverse applicazioni, anche a causa del fatto che i problemi di RL sono fortemente caratterizzati dalla natura dei dati da abbinare e dagli obiettivi dell'abbinamento.
Questa constatazione è alla base della filosofia di RELAIS, che è stato progettato e realizzato con l'intenzione di scomporre l'intero problema di RL attraverso l'individuazione delle sue fasi costituenti e di affrontare ciascuna di queste fasi con la tecnica più opportuna, in relazione agli obiettivi dell'applicazione del linkage e alla natura dei dati in esame. Le principali fasi individuate in un processo di RL sono:
Le principali fasi individuate in un processo di RL sono:
Per ciascuna delle fasi individuate sono note e largamente utilizzate tecniche diverse. In funzione della particolare applicazione e dei dati in esame, può essere opportuno iterare e/o omettere alcune fasi, così come preferire in ciascuna fase alcune tecniche rispetto ad altre. RELAIS, già nella sua prima versione rilasciato nel 2008, mirava a rendere fruibili le tecniche di RL ad una platea più ampia dei soli esperti del settore.
Dalla versione 2.0 RELAIS ha un'architettura basata su una base di dati relazionale. In particolare è stato scelto l'ambiente mySql per rispecchiare la filosofia open source. Per quanto riguarda l'ambiente di programmazione si è scelto di implementare RELAIS utilizzando due linguaggi aventi un paradigma di base diverso: Java, linguaggio object-oriented e R, linguaggio funzionale. Questa scelta è maturata a seguito della riflessione per cui il processo di record linkage necessita sia di tecniche prevalentemente orientate alla gestione dei dati, per le quali Java si rivela più appropriato, sia di tecniche orientate al calcolo, per le quali è più appropriato il linguaggio R. Infine la scelta è ricaduta sui linguaggi Java e R in quanto rispecchiano la filosofia open source propria del progetto RELAIS.
Nella versione attuale, RELAIS mette a disposizione alcune tra le tecniche e i metodi più diffusi per ciascuna delle fasi individuate precedentemente. In particolare sono disponibili le seguenti funzionalità:
per informazioni:
Aspetti informatici
Monica Scannapieco
email scannapi@istat.it
Laura Tosco
email tosco@istat.it
Luca Valentino
email luvalent@istat.it