Codifica delle risposte testuali

La codifica rappresenta una fase del processo di produzione statistica da includere nell’organizzazione dello stesso quando il questionario di rilevazione contiene variabili testuali, ossia domande la cui risposta è un testo libero. Si tratta generalmente di variabili testuali per le quali esiste una classificazione ufficiale (Attività economica, Professione, Titolo di studio, Comune e/o Stato di nascita o residenza) che permette la comparabilità del dato raccolto a livello nazionale e/o internazionale. Codificare vuol dire associare al testo rilevato un codice univoco sulla base dello schema classificatorio di riferimento. Il livello di dettaglio del codice da attribuire al testo dipende dagli obiettivi dell’indagine e/o dal livello di dettaglio richiesto per la fase di diffusione. La codifica può essere fatta manualmente o attraverso sistemi automatizzati. Nel primo caso avviene al termine della fase di raccolta, mentre nel secondo caso può avvenire anche durante la fase di raccolta dati (anch’essa assistita da computer): si parla, di codifica assistita se effettuata durante la fase di acquisizione e di codifica automatica se effettuata a posteriori.

In termini di GSBPM, la codifica è un sottoprocesso 5.2 “Classify and code” della Fase 5 “Process” che include tutte quelle attività cui sottoporre i dati per renderli pronti alla successiva fase di analisi (Fase 6 “Analyse“). In realtà, parte delle attività della Fase 5 possono iniziare anche prima che la precedente Fase 4 “Collect” sia terminata, proprio come nel caso della codifica assistita. Questo permette di migliorare la tempestività nel rilascio dei dati.

Nella gestione di un’indagine la fase di codifica delle risposte testuali è molto onerosa e se eseguita manualmente è anche poco standardizzabile in quanto il risultato è fortemente influenzato dal codificatore. Infatti, sebbene gli addetti alla codifica siano formati sui principi e sui criteri con cui è costruita ogni classificazione, l’attribuzione di un codice è sempre soggetta al fattore interpretazione, il che può comportare che, a parità di formazione, due codificatori attribuiscano codici diversi allo stesso testo.

L’adozione di metodi specifici, implementati in opportuni software, comporta vantaggi non soltanto in termini di risparmio di tempi e risorse da dedicare a quest’attività, ma soprattutto garantisce la standardizzazione del processo il che implica un più elevato livello di qualità del processo stesso. Una prima distinzione dei metodi/tool può essere effettuata in base alla modalità e fase del processo in cui si intende procedere alla codifica:

Codifica assistita: il metodo/tool costituisce un supporto interattivo per il codificatore/rispondente, facilitando la navigazione nella classificazione di riferimento. In tal caso il processo di codifica può avvenire già durante la fase di raccolta dei dati;
Codifica automatica: si analizza un file contenente l’insieme di risposte testuali raccolte.

I principali metodi attualmente utilizzati per la codifica delle descrizioni testuali sono:

Metodi basati su regole o dizionari;
Machine learning supervisionato e semi-supervisionato;
Deep learning e modelli linguistici avanzati.

I metodi basati su regole o dizionari utilizzano liste predefinite di parole chiave o categorie concettuali per classificare i testi. Sono relativamente semplici da implementare, ma meno flessibili rispetto ai metodi più avanzati. L’uso di dizionari richiede uno sforzo non trascurabile per la creazione della base informativa ovvero del dizionario informatizzato relativo al manuale ufficiale della classificazione di riferimento.

I metodi di machine learning supervisionato prevedono l’addestramento di algoritmi su un insieme di testi già codificati correttamente. Il modello apprende i pattern linguistici associati a ciascuna categoria e può poi classificare nuovi testi automaticamente. Il semi-supervisionato, invece, combina una piccola quantità di risposte testuali già codificate con grandi volumi di testi non codificati.

Le tecniche di deep learning e i moderni modelli linguistici permettono di rappresentare il testo come vettori numerici che catturano il significato contestuale delle parole. Questi modelli sono in grado di cogliere sfumature semantiche complesse e offrono prestazioni elevate nella classificazione, soprattutto con grandi quantità di dati.

Metodi e software del processo statistico

Codifica delle risposte testuali

Iscriviti alla nostra Newsletter