Metodologie e tecniche per l'acquisizione dei dati assistita da computer e per la codifica automatica delle risposte testuali.
Le tecniche di acquisizione dei dati assistita da computer prese in esame sono:
1. CADI (Computer Assisted Data Inputing)
2. CAPI (Computer Assisted Personal Interviewing)
3. CATI (Computer Assisted Telephone Interviewing)
4. CASI (Computer Assisted Self Interviewing)
La caratteristica più significativa di queste tecniche consiste nel fatto di inserire già nella fase di acquisizione dei dati tutti quei controlli tipici delle successive fasi di controllo e correzione. Mentre nella CATI e CAPI tali controlli avvengono già nella fase di rilevazione, inibendo di fatto l'acquisizione del dato errato, per la CADI la rilevazione avviene ancora tramite modelli cartacei e l'utilizzo di un software per l'acquisizione controllata serve per ridurre gli errori di registrazione oppure può essere di supporto alla fase di revisione. Un'altra peculiarità del CATI e del CAPI è inoltre quella di consentire la personalizzazione della formulazione dei quesiti in funzione delle caratteristiche del rispondente (nome, sesso, risposte fornite in precedenti quesiti del questionario stesso o informazioni già disponibili, perché rilevate in precedenti indagini), rendendo così l'intervista più colloquiale e facilitando la disponibilità del rispondente a collaborare.
Operativamente, bisogna sottolineare che l'adozione di queste tecniche di rilevazione ha già un impatto in fase di progettazione del questionario di indagine, che dovrà successivamente essere tradotto in questionario elettronico. Il questionario elettronico deve poi essere approfonditamente testato, non soltanto per verificare le performance dell'applicazione informatica, in termini di conformità alle specifiche e di tempi di risposta, ma anche in termini di gradevolezza e fluidità dell'intervista. Nella pratica, si instaura una collaborazione tra gli esperti della tecnica di rilevazione ed i settori responsabili delle indagini nelle fasi di:
In particolare è stato rilevato che l'effettuazione di pre-test, anche se su campioni molto ristretti, produce elementi estremamente significativi relativamente a:
Per quanto attiene le indagini CATI, finora l'Istat ha curato al suo interno tutta la fase di progettazione, ma ha delegato a società esterne lo sviluppo dell'applicazione informatica e l'effettuazione delle interviste. Nel 2002, per la prima volta, è stata sperimentata ed adottata una nuova strategia innovativa per l'Istituto, consistente nel fatto di fornire alle società che effettuano le interviste telefoniche l'intera procedura software, sviluppata completamente in-house, che realizza tutte le funzioni del processo di rilevazione:
In tal modo, l'unica funzione ceduta alla società esterna rimane quella relativa all'effettuazione delle interviste, essendo così assolutamente garantiti in termini di performance del questionario elettronico, piena rispondenza dello stesso alle specifiche progettuali, soprattutto inerenti il piano di controlli, e qualità dei dati rilevati.
Nella gestione di un'indagine la fase di codifica delle risposte testuali è estremamente onerosa e poco standardizzabile; l'adozione di sistemi software per la codifica comporta quindi vantaggi non soltanto in termini di risparmio di tempi e risorse da dedicare a questa attività, ma soprattutto garantisce la standardizzazione del processo che implica un più elevato livello di qualità del dato da elaborare.
Il processo di codifica può avvenire secondo due modalità:
Con AUC, quindi, la finalità è quella di individuare ed estrarre dal dizionario una singola descrizione che realizzi il match con quella da codificare, con CAC, invece, può essere opportuno estrarre dal dizionario un set di descrizioni, anche molto simili tra loro, lasciando al codificatore la selezione di quella corretta.
Ne deriva che un sistema di codifica automatica non è paragonabile ad altri software generalizzati che, dato un insieme di regole, esauriscono l'insieme di operazioni da effettuare sui dati in corrispondenza di una certa fase di indagine; dato infatti l'elevato livello di variabilità nella formulazione delle risposte degli individui intervistati, è normale che qualsiasi sistema di codifica automatica risolva una percentuale di casi e ne lasci una parte restante da sottoporre ad intervento manuale.
La strategia di codifica (AUC, CAC, oppure una combinazione delle due), nell'ambito di un indagine, deve essere definita sulla base di alcuni elementi, quali:
I sistemi di codifica si differenziano a seconda degli algoritmi di ricerca utilizzati per realizzare il 'Matching' tra descrizioni-risposta e descrizioni del dizionario. Tali algoritmi sono riconducibili alle seguenti categorie:
Sono già state implementate in Istat le applicazioni di codifica per diverse variabili, quali:
Tali applicazioni sono state adottate nell'ambito di diverse indagini, nelle diverse modalità (AUC e CAC), ottenendo risultati più che soddisfacenti.
|
Variabili
|
||||||||||||||
|
Profess.
|
Attività
economica |
Titolo
di studio |
Stato
estero |
Comune
|
Natura giuridica
imprese |
Patologie
|
||||||||
| Indagine |
R
|
P
|
R
|
P
|
R
|
P
|
R
|
P
|
R
|
P
|
R
|
P
|
R
|
P
|
| Indagine sulla qualità Censimento pop.'91 | 72,5 | 84,5 | 90,0 | 54,5 | 86,6 | 99,7 | ||||||||
| Indagine sulla salute '94 | 72,3 | 97,0 | ||||||||||||
| Indagine Forze di lavoro (test su 4 trim.'98) | 72,0 | 97,3 | ||||||||||||
| Cens. interm. industria (short form) | 47,0 | |||||||||||||
| Cens. interm. industria (long form) | 58,81 | 94,0 | 100 | |||||||||||
| I indagine pilota Forze di lavoro '99 | 66,7 | 99,9 | 43,5 | 84,8 | ||||||||||
| I indagine pilota Cens. pop.'98 | 65,5 | 98,1 | 51,22 | 93,7 | 75,7 | 99,7 | ||||||||
| II indagine pilota Cens. pop.'00 | 68,8 | 96,8 | 51,9 | 90,0 | 87,0 | 99,0 | 83,2 | 100 | 94,5 | 100 | ||||
| Indagine sulle cause di morte | 82,0 | 100 | ||||||||||||
note:
1. Valore medio ottenuto in corso di indagine. Il tasso di codifica è cresciuto fino al 70%, man mano che l'ambiente di codifica è stato arricchito con ulteriori sinonimi.
2. Il tasso di codifica dell'attività economica è più elevato sui dati del censimento intermedio dell'industria rispetto a quello ottenuto nelle indagini sulle famiglie; ciò è dovuto ad una dimostrata difficoltà delle famiglie a rispondere adeguatamente a questo quesito.
In particolare entrambi i Censimenti (dell'Industria e della Popolazione) si sono avvalsi della AUC per la codifica di numerose variabili.