CIRCE (Comprehensive Istat R Coding Environment)

  • Ascolta questa pagina usando ReadSpeaker
  • Condividi
  • Lascia un feedback

Descrizione

CIRCE, sviluppato in Istat, è un pacchetto software basato su R che ha come scopo l’attribuzione automatica di un codice a partire da un testo.

E’ un prodotto generalizzato, ossia indipendente dalla classificazione considerata e dalla lingua in cui sono espressi i testi. CIRCE sostituisce Actr v3, adottato in Istat sin dal 1998, ma non più manutenuto dall’Istituto canadese e non più compatibile con le nuove piattaforme software (Windows 7, Windows Server 2008) usate in Istat.

CIRCE ricalca l’algoritmo di matching di ACTR v3. Questa scelta è stata dettata dall’esigenza di garantire agli utenti gli stessi livelli di qualità della codifica raggiunti con il precedente sistema ampiamente utilizzato in Istituto.

CIRCE, essendo sviluppato in R, è portabile su diversi ambienti senza necessità di compilazione. Questo ha permesso di realizzare un unico pacchetto di codifica funzionante sia in ambiente Windows che Linux. CIRCE è quindi utilizzabile sia in ambiente pc, attraverso un’interfaccia grafica utente, che in ambiente web, attraverso la “chiamata” ad un web service.

Rientra tra i sistemi basati sui weighting algorithms.

Gestisce applicazioni di:

  • codifica automatica, ossia codifica di interi file (modalità batch);
  • codifica interattiva che, con l’ausilio dell’interfaccia grafica, permette di analizzare interattivamente la codifica dei casi singoli;
  • codifica web, ossia web service per la codifica di singole stringhe. In quest’ultimo caso è attualmente disponibile un web service dedicato alla codifica dell’Ateco accessibile attraverso la pagina: http://www.istat.it/it/strumenti/definizioni-e-classificazioni/ateco-2007.

A prescindere dal tipo di codifica, il confronto tra la risposta da codificare e le voci contenute nel dizionario informatizzato è preceduto dalla fase di standardizzazione dei testi definita parsing. Tale fase è completamente controllata dall’utente che ha il compito di adattarla al particolare contesto applicativo. Lo scopo della fase di parsing è quello di rimuovere differenze grammaticali o sintattiche al fine di rendere uguali due descrizioni diverse, ma dallo stesso contenuto semantico. CIRCE mette a disposizione (ad oggi) un set di 14 diverse funzioni di parsing, tra le quali: la mappatura dei caratteri, l’eliminazione delle parole o delle stringhe ritenute ininfluenti, l’eliminazione dei prefissi e dei suffissi, il trattamento dei sinonimi.

Successiva alla standardizzazione dei testi è la fase di matching. Il testo standardizzato viene confrontato con le descrizioni, anch’esse standardizzate, del dizionario di riferimento. Se il risultato del confronto è un match diretto (direct match) allora il software assegna un codice univoco. In caso contrario, viene utilizzato un algoritmo basato sui pesi delle parole, per individuare il miglior match parziale, fornendo così un indirect match.

Essendo un prodotto sviluppato internamente all’Istituto, offre l’opportunità di modifiche e/o aggiunte di nuove funzionalità, sia relative al set di funzioni di parsing che all’algoritmo di matching.

Informazioni

Status: validato
Autore: Istat
Licenza: EUPL-1.1
Codifica GSBPM: 5.2. Classify and code
Linguaggio di programmazione: R, VB.NET
Versione linguistica della GUI: IT
Parole chiave: codifica automatica, algoritmi codifica pesati
Contatto: nome: Laura Capparucci
email: capparuc@istat.it

Reperimento software e documentazione

REQUISITI TECNICI

– Ambiente R versione 3.1.1 o superiore.

– Windows 7 o superiore.

– Microsoft Framework .net 4 (solo per l’interfaccia utente di tipo grafico).

COPYRIGHT

Copyright 2016 Istat

Concesso in licenza a norma dell’European Union Public Licence (EUPL), versione 1.1 o successive. Non è possibile utilizzare l’opera salvo nel rispetto della Licenza. È possibile ottenere una copia della Licenza al seguente indirizzo: http://ec.europa.eu/idabc/eupl.html. Salvo diversamente indicato dalla legge applicabile o concordato per iscritto, il software distribuito secondo i termini della Licenza è distribuito “TAL QUALE”, SENZA GARANZIE O CONDIZIONI DI ALCUN TIPO, esplicite o implicite. Si veda la Licenza per la lingua specifica che disciplina le autorizzazioni e le limitazioni secondo i termini della Licenza.

DISCLAIMER

L’Istat non si assume la responsabilità per risultati derivanti da un uso dello strumento non coerente con le indicazioni metodologiche contenute nella documentazione disponibile.

DOWNLOAD

DOCUMENTAZIONE TECNICA E METODOLOGICA

Manuale utente – CIRCE v. 1.0

ALTRA DOCUMENTAZIONE

Istat. 2007. Metodi e software per la codifica automatica dei dati. Collana Tecniche e strumenti, n. 4, Istat.

Istat. 2005. La codifica delle variabili testuali nel 14° Censimento Generale della Popolazione. Collana Documenti Istat, n. 1, Istat.

Macchia S., M. D’Orazio. 2001. A system to monitor the quality of automated coding of textual answers to open questions. Research in Official Statistics, 4(2).

De Angelis R., S. Macchia, L. Mazza. 2000. Applicazioni sperimentali della codifica automatica: analisi di qualità e confronto con la codifica manuale. Quaderni di ricerca – Rivista di statistica Ufficiale, 1.

     

 

Ultima modifica: 18 gennaio 2018