Ricerca
strumenti

Metodi e software del processo statistico

Codifica delle risposte testuali

La codifica rappresenta una fase del processo di produzione statistica da includere nell’organizzazione dello stesso quando il questionario di rilevazione contiene variabili testuali, ossia domande la cui risposta è un testo libero. Si tratta generalmente di variabili testuali per le quali esiste una classificazione ufficiale (Attività economica, Professione, Titolo di studio, Comune e/o Stato di nascita o residenza) che permette la comparabilità del dato raccolto a livello nazionale e/o internazionale. Codificare vuol dire associare al testo rilevato un codice univoco sulla base dello schema classificatorio di riferimento. Il livello di dettaglio del codice da attribuire al testo dipende dagli obiettivi dell’indagine e/o dal livello di dettaglio richiesto per la fase di Diffusione. La codifica può essere fatta manualmente o attraverso sistemi automatizzati. Nel primo caso avviene al termine della fase di raccolta, mentre nel secondo caso può avvenire anche durante la fase di raccolta dati (anch’essa assistita da computer): si parla, di codifica assistita se effettuata durante la fase di acquisizione e di codifica automatica se effettuata a posteriori.

In termini di GSBPM, la codifica è un sottoprocesso 5.2 “Classify and code” della Fase 5 “Process” che include tutte quelle attività cui sottoporre i dati per renderli pronti alla successiva fase di analisi (Fase 6 “Analyse“). In realtà, parte delle attività della Fase 5 possono iniziare anche prima che la precedente Fase 4 “Collect” sia terminata, proprio come nel caso della codifica assistita. Questo permette di migliorare la tempestività nel rilascio dei dati.

Nella gestione di un’indagine la fase di codifica delle risposte testuali è molto onerosa e se eseguita manualmente è anche poco standardizzabile in quanto il risultato è fortemente influenzato dal codificatore. Infatti, sebbene gli addetti alla codifica siano formati sui principi e sui criteri con cui è costruita ogni classificazione, l’attribuzione di un codice è sempre soggetta al fattore interpretazione, il che può comportare che, a parità di formazione, due codificatori attribuiscano codici diversi allo stesso testo.

L’adozione di software specifici per la codifica comporta vantaggi non soltanto in termini di risparmio di tempi e risorse da dedicare a quest’attività, ma soprattutto garantisce la standardizzazione del processo il che implica un più elevato livello di qualità del processo stesso. La codifica tramite computer può avvenire secondo due modalità:

  • automatica: il software analizza (in batch) un file contenente l’insieme di risposte testuali raccolte al termine dell’indagine;
  • assistita: il software costituisce un supporto interattivo per il codificatore/rispondente, facilitando la navigazione nella classificazione di riferimento.

Gli obiettivi propri della codifica automatica e della codifica assistita sono diversi: nel caso della codifica automatica la finalità è di individuare ed estrarre dal dizionario una singola descrizione che realizzi il match con quella da codificare; nella codifica assistita può essere opportuno, invece, estrarre dal dizionario un set di descrizioni, anche molto simili tra loro, lasciando poi al codificatore la selezione di quella corretta.

Il punto cardine di qualunque sistema di codifica automatica/assistita è la costruzione della base informativa ovvero del dizionario informatizzato relativo al manuale ufficiale della classificazione di riferimento arricchito, di volta in volta, con i testi rilevati durante le indagini realizzate dall’istituto (e correttamente codificati). Quest’ultimo, però, per essere trattato da un software dovrà essere sottoposto ad una serie di operazioni finalizzate ad includere nei dizionari solo descrizioni che siano sintetiche, analitiche e non ambigue. E’ importante sottolineare, inoltre, che anche la ricchezza di testi del dizionario informatizzato impatta direttamente sul tasso di codifica.

I sistemi di codifica si differenziano secondo gli algoritmi di ricerca utilizzati per realizzare il match tra le descrizioni-risposta e le descrizioni del dizionario. Tali algoritmi sono riconducibili alle seguenti categorie:

  • dictionary algorithms: algoritmi che si avvalgono di parole (o gruppi di parole) particolarmente informative per determinare univocamente l’assegnazione del codice;
  • weighting algorithms: ricerca di match esatti o parziali sulla base di funzioni di similarità tra testi dove alle parole è attribuito un peso, empirico o probabilistico, proporzionale al loro grado d’informatività;
  • sub-strings algorithms: ricerca di match basati sull’accoppiamento di bigrammi o trigrammi di testo.

Inoltre, nel caso di codifica assistita è possibile navigare nel dizionario secondo tre metodi effettuando:

  • la ricerca per ramo: si naviga dentro la struttura gerarchica della classificazione, dal ramo più alto fino a quello più basso (foglia) che rappresenta il codice finale al massimo dettaglio da attribuire al testo da codificare;
  • la ricerca alfabetica: si naviga in tutto il dizionario alla ricerca della stringa identica o più simile a quella da codificare;
  • la ricerca mista: si naviga per ramo e all’interno del ramo selezionato si procede con la ricerca alfabetica.

La scelta del metodo di navigazione è fortemente influenzata dalla tecnica di acquisizione dati utilizzata, in particolare, se si tratta di una tecnica con o senza intervistatore. In quest’ultimo caso, ad esempio nelle interviste via web, occorre predisporre uno strumento di codifica che sia da un lato facilmente utilizzabile dal rispondente e dall’altro garantisca un’elevata qualità del dato codificato.

Sulla qualità della codifica influisce fortemente il contenuto del dizionario informatizzato nonché la fase di addestramento del software. Sarebbe auspicabile che entrambe, ossia l’aggiornamento del dizionario e delle regole software di matching, siano effettuate periodicamente in genere al termine di ogni fase di codifica legata ad una particolare indagine. A tal fine è importante eseguire il controllo sui risultati di un passaggio di codifica automatica/assistita per:

  • verificare la qualità dei casi codificati;
  • utilizzare i casi di errore di codifica e di fallimento per aggiornare l’applicazione;
  • mettere in luce eventuali carenze della Classificazione di riferimento.

Per la valutazione della qualità delle due modalità di codifica, è possibile utilizzare i seguenti indicatori:

Indicatori per la codifica automatica:

  • efficacia/tasso di codifica, ovvero la percentuale di testi codificati sul totale di quelli da codificare;
  • accuratezza, ovvero la percentuale di codici corretti assegnati sul totale dei testi codificati con l’ausilio del computer;
  • efficienza, ovvero il tempo unitario di assegnazione del codice.

Indicatori per la codifica assistita:

  • tempo medio per l’attribuzione del codice;
  • coerenza tra descrizione testuale rilevata in fase d’intervista e codice attribuito.
Ti è stata utile questa pagina?

    Gli aggiornamenti di Istat ogni settimana