Strumenti

Acquisizione dei dati

Metodologie e tecniche per l'acquisizione dei dati assistita da computer e per la codifica automatica delle risposte testuali.

A. Acquisizione dei dati assistita da computer

Le tecniche di acquisizione dei dati assistita da computer prese in esame sono:

1. CADI (Computer Assisted Data Inputing)
2. CAPI (Computer Assisted Personal Interviewing)
3. CATI (Computer Assisted Telephone Interviewing)
4. CASI (Computer Assisted Self Interviewing)

La caratteristica più significativa di queste tecniche consiste nel fatto di inserire già nella fase di acquisizione dei dati tutti quei controlli tipici delle successive fasi di controllo e correzione. Mentre nella CATI e CAPI tali controlli avvengono già nella fase di rilevazione, inibendo di fatto l'acquisizione del dato errato, per la CADI la rilevazione avviene ancora tramite modelli cartacei e l'utilizzo di un software per l'acquisizione controllata serve per ridurre gli errori di registrazione oppure può essere di supporto alla fase di revisione. Un'altra peculiarità del CATI e del CAPI è inoltre quella di consentire la personalizzazione della formulazione dei quesiti in funzione delle caratteristiche del rispondente (nome, sesso, risposte fornite in precedenti quesiti del questionario stesso o informazioni già disponibili, perché rilevate in precedenti indagini), rendendo così l'intervista più colloquiale e facilitando la disponibilità del rispondente a collaborare.

Operativamente, bisogna sottolineare che l'adozione di queste tecniche di rilevazione ha già un impatto in fase di progettazione del questionario di indagine, che dovrà successivamente essere tradotto in questionario elettronico. Il questionario elettronico deve poi essere approfonditamente testato, non soltanto per verificare le performance dell'applicazione informatica, in termini di conformità alle specifiche e di tempi di risposta, ma anche in termini di gradevolezza e fluidità dell'intervista. Nella pratica, si instaura una collaborazione tra gli esperti della tecnica di rilevazione ed i settori responsabili delle indagini nelle fasi di:

  • progettazione del questionario dell'indagine in funzione della modalità di acquisizione che si intende adottare;
  • progettazione del piano di controlli da effettuare in fase di rilevazione e che devono quindi essere recepiti dal questionario elettronico;
  • analisi preventiva dell'impatto della nuova tecnica di acquisizione sull'intero processo di indagine;
  • progettazione degli indicatori di monitoraggio della rilevazione;
  • eventuale pre-test dell'indagine.

In particolare è stato rilevato che l'effettuazione di pre-test, anche se su campioni molto ristretti, produce elementi estremamente significativi relativamente a:

  • ottimizzazione del questionario in termini sia di flusso che di wording dei quesiti;
  • stima della durata delle interviste;
  • affinamento della fase di presentazione delle interviste.

Per quanto attiene le indagini CATI, finora l'Istat ha curato al suo interno tutta la fase di progettazione, ma ha delegato a società esterne lo sviluppo dell'applicazione informatica e l'effettuazione delle interviste. Nel 2002, per la prima volta, è stata sperimentata ed adottata una nuova strategia innovativa per l'Istituto, consistente nel fatto di fornire alle società che effettuano le interviste telefoniche l'intera procedura software, sviluppata completamente in-house, che realizza tutte le funzioni del processo di rilevazione:

  • schedulazione delle chiamate
  • intervista con il questionario elettronico
  • produzione della reportistica inerente gli indicatori di monitoraggio.

In tal modo, l'unica funzione ceduta alla società esterna rimane quella relativa all'effettuazione delle interviste, essendo così assolutamente garantiti in termini di performance del questionario elettronico, piena rispondenza dello stesso alle specifiche progettuali, soprattutto inerenti il piano di controlli, e qualità dei dati rilevati.

B. Processo di codifica delle risposte testuali

Nella gestione di un'indagine la fase di codifica delle risposte testuali è estremamente onerosa e poco standardizzabile; l'adozione di sistemi software per la codifica comporta quindi vantaggi non soltanto in termini di risparmio di tempi e risorse da dedicare a questa attività, ma soprattutto garantisce la standardizzazione del processo che implica un più elevato livello di qualità del dato da elaborare.

Il processo di codifica può avvenire secondo due modalità:

  • automatico (AUC = AUtomated Coding) - il software analizza in batch un file contenente l'insieme di risposte testuali;
  • assistito (CAC = Computer Assisted Coding) - il software costituisce un supporto interattivo per il codificatore, facilitandone la navigazione nel dizionario della classificazione di riferimento.

Con AUC, quindi, la finalità è quella di individuare ed estrarre dal dizionario una singola descrizione che realizzi il match con quella da codificare, con CAC, invece, può essere opportuno estrarre dal dizionario un set di descrizioni, anche molto simili tra loro, lasciando al codificatore la selezione di quella corretta.

Ne deriva che un sistema di codifica automatica non è paragonabile ad altri software generalizzati che, dato un insieme di regole, esauriscono l'insieme di operazioni da effettuare sui dati in corrispondenza di una certa fase di indagine; dato infatti l'elevato livello di variabilità nella formulazione delle risposte degli individui intervistati, è normale che qualsiasi sistema di codifica automatica risolva una percentuale di casi e ne lasci una parte restante da sottoporre ad intervento manuale.

La strategia di codifica (AUC, CAC, oppure una combinazione delle due), nell'ambito di un indagine, deve essere definita sulla base di alcuni elementi, quali:

  • la tecnica di rilevazione;
  • la durata dell'intervista;
  • la mole di dati da codificare;
  • la complessità della classificazione di riferimento.

I sistemi di codifica si differenziano a seconda degli algoritmi di ricerca utilizzati per realizzare il 'Matching' tra descrizioni-risposta e descrizioni del dizionario. Tali algoritmi sono riconducibili alle seguenti categorie:

  • dictionary algorithms
  • weighting algorithms
  • sub-strings algorithms.

Sono già state implementate in Istat le applicazioni di codifica per diverse variabili, quali:

  • Professione
  • Attività economica
  • Titolo di studio
  • Stato estero/Cittadinanza
  • Provincia/Comune.

Tali applicazioni sono state adottate nell'ambito di diverse indagini, nelle diverse modalità (AUC e CAC), ottenendo risultati più che soddisfacenti.

Variabili
Profess.
Attività
economica
Titolo
di
studio
Stato
estero
Comune
Natura giuridica
imprese
Patologie
Indagine
R
P
R
P
R
P
R
P
R
P
R
P
R
P
Indagine sulla qualità Censimento pop.'91 72,5 84,5 90,0 54,5 86,6 99,7
Indagine sulla salute '94 72,3 97,0
Indagine Forze di lavoro (test su 4 trim.'98) 72,0 97,3
Cens. interm. industria (short form) 47,0
Cens. interm. industria (long form) 58,81 94,0 100
I indagine pilota Forze di lavoro '99 66,7 99,9 43,5 84,8
I indagine pilota Cens. pop.'98 65,5 98,1 51,22 93,7 75,7 99,7
II indagine pilota Cens. pop.'00 68,8 96,8 51,9 90,0 87,0 99,0 83,2 100 94,5 100
Indagine sulle cause di morte 82,0 100

note:

1. Valore medio ottenuto in corso di indagine. Il tasso di codifica è cresciuto fino al 70%, man mano che l'ambiente di codifica è stato arricchito con ulteriori sinonimi.

2. Il tasso di codifica dell'attività economica è più elevato sui dati del censimento intermedio dell'industria rispetto a quello ottenuto nelle indagini sulle famiglie; ciò è dovuto ad una dimostrata difficoltà delle famiglie a rispondere adeguatamente a questo quesito.

In particolare entrambi i Censimenti (dell'Industria e della Popolazione) si sono avvalsi della AUC per la codifica di numerose variabili.