Fase di elaborazione

Integrazione

Record linkage

Il record linkage è un processo importante per l’integrazione di dati provenienti da fonti diverse; esso mira ad identificare i record, riferiti alle medesime unità individuali, collocati nello stesso file (de-deduplicazione) o in file diversi (integrazione di fonti). L’identificazione dell’unità in archivi di diversa natura avviene attraverso chiavi comuni, presenti nei vari file; le chiavi possono essere anche non perfettamente corrispondenti. La complessità del record linkage dipende da molteplici aspetti, principalmente legati all’assenza di identificatori univoci o alla presenza di errori negli identificatori stessi.

Nella statistica ufficiale, l’uso di tecniche di record linkage nei vari processi di produzione è ormai diffuso da diversi anni e molteplici sono i campi di applicazione:

  • individuazione dei duplicati in un file di dati individuali,
  • studio dell’associazione tra variabili raccolte da fonti differenti;
  • identificazione dei casi multipli attribuibili ad un singolo individuo (ad esempio ricoveri, parti, ecc.) in un archivio;
  • creazione e aggiornamento di liste per la conduzione di indagini;
  • re-identificazione per tutela riservatezza di micro-dati rilasciati per uso pubblico;
  • determinazione della numerosità di una popolazione con il metodo cattura-ricattura;
  • analisi di dati panel;
  • ecc.

Il record linkage è un processo complesso a causa dei numerosi aspetti di natura diversa che lo compongono. Se negli archivi da abbinare sono presenti identificatori univoci allora il problema non ha una grande complessità; in generale però, per analizzare dati privi di identificatori univoci o con identificatori univoci affetti da errore, sono richieste sofisticate procedure statistiche; soluzioni informatiche non banali sono necessarie per gestire e trattare grandi moli di dati, mentre i vincoli legati al tipo di applicazione che si intende effettuare possono comportare la soluzione di complessi problemi di programmazione lineare.

Statistical matching

Lo statistical matching (abbinamento statistico) o data fusion si pone l’obiettivo di integrare due o più fonti dati relative alla stessa popolazione con l’intento di esplorare le relazioni tra variabili non osservate congiuntamente. Le fonti da integrare osservano unità distinte, come di solito accade quando si vogliono integrare indagini campionarie. La situazione tipica dello statistical matching è quella in cui sono disponibili due fonti dati A e B; in A sono disponibili le variabili X ed Y, mentre in B sono disponibili X e Z; l’obiettivo è quello di studiare la relazione tra Y e Z integrando le fonti dati sulla base delle informazioni in comune X. L’interesse può essere di tipo ‘macro’ o ‘micro’; nel primo caso si vogliono studiare i parametri che sintetizzano la relazione tra Y e Z, per esempio coefficiente di correlazione, coefficiente di regressione, tabella di contingenza;  nel secondo caso invece si vuole ottenere un data set completo (data set sintetico) in cui sono presenti tutte le variabili di interesse, X, Y e Z.

Gli obiettivi del matching possono essere realizzati mediante l’utilizzo di metodi parametrici, non parametrici  o misti.

L’approccio parametrico prevede la specificazione di un modello e la stima dei parametri che lo caratterizzano. In assenza di informazioni ausiliarie il modello generalmente assunto si basa sull’assunzione di indipendenza condizionata di Y e Z date le variabili comuni X. Tale assunzione è piuttosto forte e purtroppo nella situazione tipica del matching non può essere verificata tramite un test.

I metodi non parametrici solitamente sono applicati quando si ha un obiettivo micro. I metodi hot-deck (imputazione da donatore) sono fra i metodi non parametrici più utilizzati: si basano sull’imputazione (predizione) della variabile mancante nel data set scelto come ricevente (e.g., il data set A) selezionando dei valori dal data set donatore (B). Operativamente, ad ogni unità del data set A (unità ricevente) viene associata una osservazione in B  (unità donatrice) selezionata rispetto al suo grado di similarità calcolato sulla base  dei valori della variabile comune X.

In letteratura è stato introdotto anche un approccio misto che prevede un primo passo di imputazione tramite modello parametrico, ed un secondo passo di imputazione non parametrica che fa uso dei valori imputati al primo passo per il calcolo della similarità fra unità riceventi e donatrici.

Vale la pena di osservare che è possibile utilizzare un approccio alternativo basato sulla quantificazione dell’incertezza. Tale approccio non richiede l’introduzione dell’ipotesi di indipendenza condizionata o di informazioni ausiliarie sui parametri non stimabili, i.e., parametri che fanno riferimento alle relazioni fra Y e Z. Lo studio dell’incertezza non conduce però generalmente ad una stima univoca dei parametri quanto piuttosto ad un insieme di stime. L’insieme è composto da tutte le possibili stime dei parametri che fanno riferimento alle variabili Y e Z coerenti con quelle ottenibili dai dati osservati, ovvero quelle che fanno riferimento alle coppie (Y,X) e (Z,X).

L’applicazione del matching a dati provenienti da indagini campionarie complesse pone problemi aggiuntivi. In tali circostanze ai fini dell’inferenza bisogna tener conto del disegno di campionamento prescelto per selezionare il campione nonché di altre metodologie usate per far fronte a problemi di natura non campionaria (copertura e mancate risposte totali).

Codifica delle risposte testuali

La codifica rappresenta una fase del processo di produzione statistica da includere nell’organizzazione dello stesso quando il questionario di rilevazione contiene variabili testuali, ossia domande la cui risposta è un testo libero. Si tratta generalmente di variabili testuali per le quali esiste una classificazione ufficiale (Attività economica, Professione, Titolo di studio, Comune e/o Stato di nascita o residenza) che permette la comparabilità del dato raccolto a livello nazionale e/o internazionale. Codificare vuol dire associare al testo rilevato un codice univoco sulla base dello schema classificatorio di riferimento. Il livello di dettaglio del codice da attribuire al testo dipende dagli obiettivi dell’indagine e/o dal livello di dettaglio richiesto per la fase di Diffusione. La codifica può essere fatta manualmente o attraverso sistemi automatizzati. Nel primo caso avviene al termine della fase di raccolta, mentre nel secondo caso può avvenire anche durante la fase di raccolta dati (anch’essa assistita da computer): si parla, di codifica assistita se effettuata durante la fase di acquisizione e di codifica automatica se effettuata a posteriori.

In termini di GSBPM, la codifica è un sottoprocesso 5.2 “Classify and code” della Fase 5 “Process” che include tutte quelle attività cui sottoporre i dati per renderli pronti alla successiva fase di analisi (Fase 6 “Analyse“). In realtà, parte delle attività della Fase 5 possono iniziare anche prima che la precedente Fase 4 “Collect” sia terminata, proprio come nel caso della codifica assistita. Questo permette di migliorare la tempestività nel rilascio dei dati.

Nella gestione di un’indagine la fase di codifica delle risposte testuali è molto onerosa e se eseguita manualmente è anche poco standardizzabile in quanto il risultato è fortemente influenzato dal codificatore. Infatti, sebbene gli addetti alla codifica siano formati sui principi e sui criteri con cui è costruita ogni classificazione, l’attribuzione di un codice è sempre soggetta al fattore interpretazione, il che può comportare che, a parità di formazione, due codificatori attribuiscano codici diversi allo stesso testo.

L’adozione di software specifici per la codifica comporta vantaggi non soltanto in termini di risparmio di tempi e risorse da dedicare a quest’attività, ma soprattutto garantisce la standardizzazione del processo il che implica un più elevato livello di qualità del processo stesso. La codifica tramite computer può avvenire secondo due modalità:

  • automatica: il software analizza (in batch) un file contenente l’insieme di risposte testuali raccolte al termine dell’indagine;
  • assistita: il software costituisce un supporto interattivo per il codificatore/rispondente, facilitando la navigazione nella classificazione di riferimento.

Gli obiettivi propri della codifica automatica e della codifica assistita sono diversi: nel caso della codifica automatica la finalità è di individuare ed estrarre dal dizionario una singola descrizione che realizzi il match con quella da codificare; nella codifica assistita può essere opportuno, invece, estrarre dal dizionario un set di descrizioni, anche molto simili tra loro, lasciando poi al codificatore la selezione di quella corretta.

Il punto cardine di qualunque sistema di codifica automatica/assistita è la costruzione della base informativa ovvero del dizionario informatizzato relativo al manuale ufficiale della classificazione di riferimento arricchito, di volta in volta, con i testi rilevati durante le indagini realizzate dall’istituto (e correttamente codificati). Quest’ultimo, però, per essere trattato da un software dovrà essere sottoposto ad una serie di operazioni finalizzate ad includere nei dizionari solo descrizioni che siano sintetiche, analitiche e non ambigue. E’ importante sottolineare, inoltre, che anche la ricchezza di testi del dizionario informatizzato impatta direttamente sul tasso di codifica.

I sistemi di codifica si differenziano secondo gli algoritmi di ricerca utilizzati per realizzare il match tra le descrizioni-risposta e le descrizioni del dizionario. Tali algoritmi sono riconducibili alle seguenti categorie:

  • dictionary algorithms: algoritmi che si avvalgono di parole (o gruppi di parole) particolarmente informative per determinare univocamente l’assegnazione del codice;
  • weighting algorithms: ricerca di match esatti o parziali sulla base di funzioni di similarità tra testi dove alle parole è attribuito un peso, empirico o probabilistico, proporzionale al loro grado d’informatività;
  • sub-strings algorithms: ricerca di match basati sull’accoppiamento di bigrammi o trigrammi di testo.

Inoltre, nel caso di codifica assistita è possibile navigare nel dizionario secondo tre metodi effettuando:

  • la ricerca per ramo: si naviga dentro la struttura gerarchica della classificazione, dal ramo più alto fino a quello più basso (foglia) che rappresenta il codice finale al massimo dettaglio da attribuire al testo da codificare;
  • la ricerca alfabetica: si naviga in tutto il dizionario alla ricerca della stringa identica o più simile a quella da codificare;
  • la ricerca mista: si naviga per ramo e all’interno del ramo selezionato si procede con la ricerca alfabetica.

La scelta del metodo di navigazione è fortemente influenzata dalla tecnica di acquisizione dati utilizzata, in particolare, se si tratta di una tecnica con o senza intervistatore. In quest’ultimo caso, ad esempio nelle interviste via web, occorre predisporre uno strumento di codifica che sia da un lato facilmente utilizzabile dal rispondente e dall’altro garantisca un’elevata qualità del dato codificato.

Sulla qualità della codifica influisce fortemente il contenuto del dizionario informatizzato nonché la fase di addestramento del software. Sarebbe auspicabile che entrambe, ossia l’aggiornamento del dizionario e delle regole software di matching, siano effettuate periodicamente in genere al termine di ogni fase di codifica legata ad una particolare indagine. A tal fine è importante eseguire il controllo sui risultati di un passaggio di codifica automatica/assistita per:

  • verificare la qualità dei casi codificati;
  • utilizzare i casi di errore di codifica e di fallimento per aggiornare l’applicazione;
  • mettere in luce eventuali carenze della Classificazione di riferimento.

Per la valutazione della qualità delle due modalità di codifica, è possibile utilizzare i seguenti indicatori:

Indicatori per la codifica automatica:

  • efficacia/tasso di codifica, ovvero la percentuale di testi codificati sul totale di quelli da codificare;
  • accuratezza, ovvero la percentuale di codici corretti assegnati sul totale dei testi codificati con l’ausilio del computer;
  • efficienza, ovvero il tempo unitario di assegnazione del codice.

Indicatori per la codifica assistita:

  • tempo medio per l’attribuzione del codice;
  • coerenza tra descrizione testuale rilevata in fase d’intervista e codice attribuito.

Individuazione e trattamento degli errori di misura e delle mancate risposte parziali

Le mancate risposte parziali (MRP) e gli errori di misura sono particolari errori non campionari che vengono individuati e trattati nella fase di controllo e correzione dei dati.

Per errore di misura si intende qui una discrepanza tra valore “vero” e valore “osservato” di una variabile in un’unità, dovuta a qualsiasi difetto del processo di misurazione (rilevazione, codifica, registrazione, ecc.). Mancate risposte ed errori di misura possono compromettere seriamente l’accuratezza delle stime di interesse e dovrebbero essere prevenuti con opportuni accorgimenti nel processo di misurazione. Anche dopo l’adozione di tali accorgimenti è tuttavia inevitabile che una frazione dei dati registrati sia caratterizzata dalla presenza di errori e mancate risposte che richiedono quindi l’utilizzo di appositi metodi di controllo e correzione.

Nell’ambito del GSBPM si distinguono due sottoprocessi: 5.3 “Review and validate” e 5.4 “Edit and impute”, che attengono rispettivamente al processo di verifica della validità dell’informazione a disposizione e al complesso di attività volte alla localizzazione degli errori e alla sostituzione dei valori ritenuti errati con valori plausibili (imputazione). Non sempre, nei reali contesti operativi, questi due sottoprocessi sono nettamente distinti.

Individuazione degli errori di misura

I metodi di individuazione degli errori possono essere classificati a secondo delle tipologie di errore per cui sono impiegati. Un primo importante criterio di classificazione degli errori distingue errori sistematici ed errori casuali (o stocastici o non sistematici). Si dicono sistematici quegli errori la cui origine è da attribuirsi a difetti strutturali o organizzativi del processo di produzione dell’informazione statistica, alla struttura del modello, o al sistema di registrazione adottati, e si manifestano nella maggior parte dei casi come deviazioni “in una stessa direzione” dal valore vero di una o più variabili rilevate. Gli errori sistematici vengono generalmente trattati con regole deterministiche basate sulla conoscenza del meccanismo che ha generato l’errore. Tra gli errori sistematici, particolarmente comuni sono gli errori di unità misura per le variabili quantitative.

Si dicono casuali quegli errori la cui origine è da attribuirsi a fattori aleatori non direttamente individuabili. A differenza degli errori sistematici, per gli errori casuali l’approccio deterministico è sconsigliabile.

Una importante classe di errori è quella degli errori che si manifestano determinando valori di alcune variabili fuori dominio, cioè non appartenenti ad un insieme predefinito di valori ammissibili. Simili a questi errori sono quelli che determinano incoerenze nei dati, cioè che possono essere rilevati con l’applicazione di regole di compatibilità (edit) tra le variabili. Gli errori ritenuti poco influenti che determinano incompatibilità tra gli item osservati sono generalmente “localizzati” usando metodi automatici basati su principi “generali”. Un approccio particolarmente diffuso in quest’ambito è basato sul principio del minimo cambiamento, secondo il quale per ciascun record con errori, deve essere cambiato il numero minimo di variabili che consenta di rendere il record compatibile rispetto agli edit. Sulla base di questo principio è stata sviluppata la metodologia Fellegi-Holt inizialmente limitata alle variabili categoriche e successivamente estesa a quelle numeriche.

Un’altra classe importante di errori include quelli che si manifestano con la presenza di dati anomali (outlier), cioè unità con caratteristiche significativamente diverse da quelle della maggior parte delle altre unità. Le tecniche di individuazione degli outlier utilizzano di solito, implicitamente o esplicitamente, un modello per i dati “corretti”, e cercano di identificare le unità che si discostano dal modello. I metodi di ricerca degli outlier sono anche spesso utilizzate in procedure di editing selettivo finalizzate all’identificazione degli errori influenti. Il concetto di errore influente, pur essendo collegato a quello di outlier, ne è concettualmente distinto. Mentre la definizione di outlier è legato esclusivamente al modello assunto (almeno implicitamente) per i dati, quello di errore influente dipende anche strettamente dalla stima di interesse. In particolare valori anomali possono non dipendere da errori influenti, e viceversa, errori influenti possono non determinare valori anomali.

Correzione degli errori e imputazione delle mancate risposte parziali

Qualunque sia la tecnica utilizzata, al termine della fase di individuazione degli errori si pone la necessità di sostituire (imputare) i valori classificati come inaccettabili con valori vicini a quelli veri e di integrare le eventuali informazioni mancanti. L’imputazione rappresenta inoltre la procedura comunemente usata per le mancate risposte parziali. L’uso dell’imputazione è giustificata da una serie di motivi sia operativi sia teorici. In primo luogo, normalmente i dati rilasciati dall’Istat necessitano di essere completi (e coerenti) a livello elementare. Inoltre, l’imputazione consente di applicare all’insieme finale di microdati completi metodi e software standard di analisi statistica.

I metodi di imputazione sono numerosi e implementati in numerosi pacchetti statistici sia di proprietà esclusiva sia liberi. Tra le possibili classificazioni, una particolarmente usata distingue tra metodi parametrici che si basano su ipotesi distribuzionali esplicite (ad esempio imputazione per regressione) e metodi non parametrici che evitano assunzioni distribuzionali (hot-deck imputation, donatore di minima distanza, ecc.). Inoltre i metodi di imputazione possono essere divisi in metodi deterministici, che a seguito di applicazioni ripetute producono gli stessi risultati, e metodi stocastici, caratterizzati da una certa variabilità degli output.

La scelta del metodo di imputazione dipende dagli obiettivi delle analisi che devono essere effettuate sui dati “completati”. Ad esempio, se l’interesse dell’analista è rivolto alla stima di quantità lineari come medie o totali può essere opportuno utilizzare un metodo di imputazione deterministico, mentre se sono di interesse anche altre caratteristiche distribuzionali dei dati (come ad esempio momenti di ordine superiore al primo), un metodo di imputazione stocastico di norma è preferibile.

Calcolo delle stime e degli errori campionari

Le attività che riguardano la produzione delle stime di interesse e la valutazione degli errori campionari fanno riferimento ai sottoprocessi 5.6 “Calculate weights” e 5.7 “Calculate aggregates” del GSBPM.

Produzione delle stime di interesse

Ogni metodo di stima campionaria è fondato sul principio che il sottoinsieme delle unità della popolazione incluse nel campione deve rappresentare anche il sottoinsieme complementare costituito dalle rimanenti unità della popolazione stessa. Tale principio è generalmente realizzato attribuendo a ciascuna unità inclusa nel campione un peso che può essere visto come il numero di elementi della popolazione rappresentati da tale unità.

Le indagini campionarie condotte dall’Istat sono indagini su larga scala che hanno la finalità di fornire un elevato numero di stime di parametri della popolazione che possono essere di natura differente, quali ad esempio frequenze assolute, totali, proporzioni, medie, ecc.

La stima dei parametri della popolazione può essere effettuata ricorrendo a due diversi approcci di stima:

  • Metodi basati sull’approccio diretto che usano i valori della variabile di interesse osservati sulle sole unità del campione appartenenti al dominio di interesse. Sono i metodi standard utilizzati dall’Istat e in genere da tutti i più importanti Istituti Nazionali di Statistica per la produzione delle stime delle diverse indagini.
  • Metodi basati sull’approccio indiretto che utilizzano i valori della variabile di interesse osservati sulle unità del campione appartenenti ad un dominio più ampio contenente il dominio di interesse e/o ad altre occasioni di indagine. Sono utilizzati, usualmente, per problemi di stima particolari, quali ad esempio quelli connessi alla produzione di stime riferite ad aree o domini in cui la dimensione campionaria risulta troppo esigua per la produzione di stime con i metodi diretti.

I metodi diretti

In generale per la stima di un totale si devono eseguire le due seguenti operazioni:

  1. determinare il peso da attribuire a ciascuna unità inclusa nel campione;
  2. calcolare la stima dei parametri di interesse come somma ponderata dei valori relativi ad una data variabile oggetto di indagine con i pesi determinati al punto 1.

Il peso da attribuire a ciascuna unità è ottenuto in base ad una procedura articolata in più fasi:

  1. il peso iniziale di ciascuna unità campionaria, definito peso diretto, è calcolato in funzione del disegno di campionamento adottato, come reciproco della probabilità di inclusione;
  2. il peso iniziale viene corretto in modo da correggere la mancata risposta totale, ottenendo il peso base;
  3. sono calcolati fattori correttivi del peso base per tenere conto dei vincoli di uguaglianza tra alcuni parametri noti della popolazione e le corrispondenti stime campionarie;
  4. il peso finale è ottenuto come prodotto tra il peso base e i fattori correttivi.

La classe degli stimatori corrispondente alle operazioni appena descritte è nota come stimatori di calibrazione o di ponderazione vincolata, in quanto sia la correzione del peso per correggere la mancata risposta totale che la correzione del peso per ottenere la coerenza con parametri della popolazione noti si ottiene risolvendo un problema di minimo vincolato. Più precisamente ciò che si vuole rendere minimo è la distanza tra il peso prima e dopo la fase di calibrazione.

Per quanto riguarda la scelta del metodo di stima il problema principale è quello di individuare uno stimatore che risponda a:

  • criteri di efficienza delle stime in termini di bassa varianza campionaria e riduzione della distorsione dovuta alla presenza di mancate risposte totali e parziali e di sotto-copertura delle liste di estrazione del campione rispetto alle popolazioni oggetto di indagine;
  • criteri di coerenza esterna ed interna delle stime. Il problema della coerenza esterna delle stime nasce ogniqualvolta si dispone, da fonti esterne, di totali noti aggiornati sulla popolazione oggetto di indagine. Le stime dei totali prodotte dall’indagine devono in generale coincidere o non discostarsi molto dal valore noto di tali totali. La coerenza interna delle stime si ottiene quando tutte le stime (prodotte dall’indagine) di uno stesso aggregato coincidono tra loro. Questo risultato si può ottenere utilizzando un unico sistema di pesi per il riporto dei dati all’universo.

I metodi di stima basati sulla teoria degli stimatori di ponderazione vincolata soddisfano i suddetti criteri in quanto:

  • conducono, generalmente, a stime più efficienti di quelle ottenibili con gli stimatori diretti; l’efficienza è tanto maggiore quanto più alta è la correlazione tra le variabili ausiliarie e le variabili oggetto di indagine;
  • sono approssimativamente non distorti rispetto al disegno di campionamento;
  • portano a stime dei totali che coincidono con i valori noti di tali totali;
  • attenuano l’effetto distorsivo dovuto alla presenza di mancate risposte totali;
  • riducono l’effetto distorsivo dovuto alla sotto-copertura della lista da cui è selezionato il campione.

Gli stimatori di ponderazione vincolata sono utilizzati per il calcolo dei coefficienti di riporto all’universo della maggior parte delle indagini campionarie dell’Istat sulla popolazione e sulle imprese.

I metodi indiretti

I metodi di stima indiretta sono utilizzati dall’Istat per dare una risposta concreta alla crescente necessità da parte delle Amministrazioni Locali di ottenere informazioni accurate e riferibili ad aree geografiche, o più in generale a domini, di piccole dimensioni, denominate piccole aree. Le indagini campionarie condotte dall’Istat sono, tuttavia, progettate per fornire informazioni attendibili per i principali aggregati di interesse per domini di stima definiti in fase di progettazione del disegno campionario e non può essere in grado di rispondere in maniera idonea ad obiettivi di stima a livello di dettaglio maggiore.

La soluzione adottata in passato dall’Istat per ottenere stime a livello di dominio non pianificato, è stata quella di aumentare la numerosità delle unità campionarie senza modificare la strategia di campionamento adottata, ossia senza modificare né il disegno di campionamento né lo stimatore utilizzato. Il sovra-campionamento comporta tuttavia sia l’aumento dei costi e degli adempimenti operativi a carico della rete di rilevazione che l’incremento degli errori non campionari dovuto alla difficoltà di tenere sotto controllo indagini basate su campioni troppo ampi. Inoltre, il sovra-campionamento costituisce una soluzione parziale al problema di stima per piccole aree, in quanto non potendo aumentare la dimensione del campione oltre un certo limite rende possibile fornire stime attendibili soltanto per un sottoinsieme delle piccole aree di interesse.

Per tali ragioni l’Istat, fa ricorso a metodi di stima indiretti che si basano:

  • sull’utilizzo di informazioni ausiliarie, correlate ai fenomeni oggetto di studio, note a livello delle piccole aree di interesse;
  • sull’adozione (implicita o esplicita) di modelli statistici che legano i valori della variabile di interesse a livello di piccola area con i valori della medesima variabile relativi a un’area più grande (macroarea) contenente la piccola area di interesse e/o relativi ad altre occasioni di indagine oltre a quella corrente.

Un problema fondamentale di tali metodi è quello legato al fatto che essi si basano su modelli e pertanto le proprietà dei risultati ottenuti sono legate alla validità del modello ipotizzato. Poiché una perfetta aderenza del modello alla realtà non è mai verificata tali stimatori sono soggetti a distorsioni non misurabili che introducono forti interrogativi sulla loro utilizzazione nei casi concreti.

Valutazione degli errori campionari

Per la valutazione degli errori campionari delle stime prodotte dalle indagini Istat si fa generalmente ricorso a metodi di calcolo della varianza approssimati. Infatti, per la maggior parte delle procedure di stima impiegate non è disponibile un’espressione analitica dello stimatore della varianza, in quanto:

  • le indagini Istat vengono realizzate attraverso disegni di campionamento complessi, in generale basati su più stadi di selezione, sulla stratificazione delle unità e sulla selezione delle stesse con probabilità variabili e senza ripetizione;
  • le stime vengono determinate mediante l’utilizzo degli stimatori di ponderazione vincolata i quali sono funzioni non lineari delle informazioni campionarie.

I metodi di stima della varianza campionaria utilizzati generalmente in Istat sono basati sul metodo di linearizzazione di Woodruff (1971) che consente di stimare la varianza campionaria nel caso in cui gli stimatori adottati sono funzioni non lineari dei dati campionari.

Sulla base della suddetta metodologia l’Istat ha sviluppato i software generalizzati GENESEES e ReGenesees, che dispongono di un’interfaccia user friendly e sono correntemente utilizzati per la stima degli errori campionari delle stime prodotte dalle diverse indagini Istat.

Inoltre, mediante tali software, vengono calcolate importanti statistiche che consentono di effettuare un’analisi critica del disegno di campionamento adottato. In particolare è possibile valutare:

  • l’efficienza complessiva del disegno di campionamento utilizzato, attraverso il rapporto tra la varianza del campione complesso utilizzato e quella di un ipotetico campione casuale semplice di pari numerosità in termini di unità finali di campionamento;
  • l’impatto sull’efficienza delle stime dovuto alla stratificazione delle unità, alla definizione degli stadi di campionamento e alla ponderazione delle unità (effetto della stratificazione, effetto del disegno a più stadi).

È importante fare presente che l’Istat effettua una presentazione sintetica degli errori di campionamento mediante modelli regressivi che mettono in relazione i valori delle stime con i corrispondenti errori campionari. Tali modelli sono utilizzati per corredare le tavole pubblicate con importanti informazioni sintetiche sugli errori campionari.

Ultima modifica: 24 aprile 2018