Strumenti

Produzione delle stime di interesse e valutazione degli errori campionari

Metodologie e tecniche per la produzione delle stime di interesse e la valutazione degli errori campionari

A. Produzione delle stime di interesse

Ogni metodo di stima campionaria è fondato sul principio che il sotto insieme delle unità della popolazione incluse nel campione deve rappresentare anche il sotto insieme complementare costituito dalle rimanenti unità della popolazione stessa. Tale principio viene generalmente realizzato attribuendo a ciascuna unità inclusa nel campione un peso che può essere visto come il numero di elementi della popolazione rappresentati da tale unità.
Le indagini campionarie condotte dall'Istat sono indagini su larga scala che hanno la finalità di fornire un elevato numero di stime di parametri della popolazione che possono essere di natura differente, quali ad esempio frequenze assolute, totali, proporzioni, medie, ecc.

La stima dei parametri della popolazione può essere effettuata ricorrendo a due diversi metodi di stima:

I metodi diretti che usano i valori della variabile di interesse osservati sulle sole unità del campione appartenenti al dominio di interesse. Sono i metodi standard utili zzati dall'Istat ed in genere da tutti i più importanti Istituti Nazionali di Statistica per la produzione delle stime correnti uscenti dalle diverse indagini.

I metodi indiretti che utilizzano i valori della variabile di interesse osservati sulle unità del campione appartenenti ad un dominio più ampio contenente il dominio di interesse e/o ad altre occasioni di indagine. Vengono utilizzati, usualmente, per problemi di stima particolari, quali ad esempio quelli connessi alla produzione di stime riferite ad aree o domini in cui la dimensione campionaria risulta troppo esigua per la produzione di stime con i metodi diretti.

I metodi diretti

In generale per la stima di un totale si devono eseguire le tre seguenti operazioni:

1. determinare il peso da attribuire a ciascuna unità inclusa nel campione;

2. moltiplicare il valore relativo ad una data variabile oggetto di indagine, rilevata sulla generica unità inclusa nel campione, per il peso attribuito alla medesima unità;

3. effettuare la somma dei suddetti prodotti.

Nelle indagini reali, generalmente basate su disegni di campionamento complessi, il peso da attribuire a ciascuna unità è ottenuto in base ad una procedura articolata in più fasi:

1. viene calcolato un peso iniziale, definito peso diretto o peso base, determinato in funzione del disegno di campionamento adottato, come il reciproco della probabilità di inclusione dell'unità campionaria;
2. vengono calcolati dei fattori correttivi del peso base tenendo conto della mancata risposta totale e dei vincoli di uguaglianza tra alcuni parametri noti della popolazione e le corrispondenti stime campionarie;
3. viene calcolato il peso finale come prodotto del peso base per i fattori correttivi.

Per quanto riguarda la scelta dello stimatore, nelle indagini campionarie concrete su larga scala, il problema principale è quello di individuare un metodo di stima che risponda a:

1. criteri di efficienza delle stime in termini di bassa varianza campionaria delle stime e riduzione della distorsione dovuta alla presenza dei fenomeni: delle mancate risposte totali e parziali e della sotto-copertura delle liste di estrazione del campione rispetto alle popolazioni oggetto di indagine;

2. criteri di coerenza esterna ed interna delle stime. Il problema della coerenza esterna delle stime nasce ogniqualvolta si dispone, da fonti esterne, di totali noti aggiornati sulla popolazione oggetto di indagine. Le stime dei totali prodotte dall'indagine devono in generale coincidere o non discostarsi molto dal valore noto di tali totali. La coerenza interna delle stime si ottiene quando tutte le stime (prodotte dall'indagine) di uno stesso aggregato coincidono tra loro. Questo risultato si può ottenere utilizzando un unico sistema di pesi per il riporto dei dati all'universo.

I metodi di stima basati sulla teoria degli stimatori di ponderazione vincolata soddisfano i suddetti criteri in quanto:

1. conducono, generalmente, a stime più efficienti di quelle ottenibili con gli stimatori diretti; l'efficienza è tanto maggiore quanto più alta è la correlazione tra le variabili ausiliarie e le variabili oggetto di indagine;
2. sono approssimativamente non distorti rispetto al disegno di campionamento;
3. portano a stime dei totali che coincidono con i valori noti di tali totali;
4. attenuano l'effetto distorsivo dovuto alla presenza di mancate risposte totali;
5. attenuano l'effetto distorsivo dovuto alla sotto-copertura della lista da cui è selezionato il campione.

Gli stimatori di ponderazione vincolata vengono utilizzati per il calcolo dei coefficienti di riporto all'universo della maggior parte delle indagini campionarie dell'Istat sulla popolazione e sulle imprese.

I metodi indiretti

I metodi indiretti sono utilizzati dall'Istat per dare una risposta concreta alla crescente necessità di ottenere informazioni accurate e riferibili ad aree geografiche di piccole dimensioni, denominate piccole aree. Sempre più spesso , le Regioni ed altre istituzioni pubbliche e/o private (Province, Camere di commercio, Comprensori di comuni, ecc.) al fine di intraprendere opportune politiche, richiedono all'Istat informazioni attendibili a livello di territori sub-regionali. A titolo di esempio, si possono ricordare le numerose richieste fatte pervenire all'Istat per ottenere: stime affidabili dei fenomeni dell'occupazione e della disoccupazione a livello provinciale e dei sistemi locali del lavoro; stime sub-regionali per le indagini appartenenti al sistema di indagini multiscopo. Le indagini campionarie condotte dall'Istat sia sulle famiglie che sulle imprese sono, tuttavia, progettate per fornire informazioni attendibili per i principali aggregati di interesse, a livello nazionale, di ripartizione geografica e regionale, e non può essere data per scontata la capacità delle stesse di rispondere in maniera idonea ad obiettivi locali.
La soluzione adottata in passato dall'Istat per risolvere il problema dell'ottenimento delle stime a livello sub-regionale, è stata quella di aumentare la numerosità delle unità campionarie senza modificare la strategia di campionamento adottata, ossia senza modificare né il disegno di campionamento né lo stimatore utilizzato. L'esperienza del sovra-campionamento, analizzata criticamente con riferimento all'indagine forze di lavoro, ha presentato molti aspetti negativi tra i quali si ricorda:

1.
l'aumento dei costi e degli adempimenti operativi a carico della struttura periferica dell'Istat;
2. l'incremento degli errori non campionari dovuto alla difficoltà di tenere sotto controllo indagini basate su campioni troppo ampi;
3. una soluzione parziale al problema della stima per piccole aree, in quanto non potendo aumentare la dimensione del campione oltre un certo limite è possibile fornire stime attendibili soltanto per un sottoinsieme di piccole aree.

Per tali ragioni l'Istat, anche sulla base di ricerche maturate a livello internazionale, ha avviato propri filoni di ricerca - che consentono di ottenere stime attendibili a livello sub-regionale e di risolvere le problematiche legate al sovra-campionamento - che si inquadrano nell'ambito dei metodi di stima per piccole aree e si basano:

1. sull'utilizzo di informazioni ausiliarie , correlate ai fenomeni oggetto di studio, note a livello delle piccole aree di interesse;

2. sull'adozione (implicita o esplicita) di modelli statistici che legano i valori della variabile di interesse a livello di piccola area con i valori della medesima variabile relativi a un'area più grande (macroarea) contenente la piccola area di interesse e/o relativi ad altre occasioni di indagine oltre a quella corrente, detti rispettivamente metodi di:
- smoothing spaziale,
- smoothing temporale,
- smoothing spazio-temporale

Il ricorso ai metodi di stima per piccole aree comporta il fatto di accettare un certo livello di distorsione nelle stime compensato però da una diminuita varianza e conseguentemente da un livello più basso dell'errore quadratico medio.
Un problema fondamentale di tali metodi è quello legato al fatto che essi si basano su modelli e pertanto le proprietà dei risultati ottenuti sono legate alla validità del modello ipotizzato. Poiché una perfetta aderenza del modello alla realtà non è mai verificata tali stimatori sono soggetti a distorsioni non misurabili che introducono forti interrogativi sulla loro utilizzazione nei casi concreti.
Da quanto detto risulta evidente che al fine di poter utilizzare effettivamente le tecniche di stima in oggetto per la pubblicazione di stime riferite a piccoli domini, è fondamentale affrontare i seguenti temi di natura teorica ed applicativa:

a. studio della robustezza dei diversi metodi individuando opportuni criteri diagnostici per la valutazione della validità delle ipotesi alla base di ciascuno stimatore;
b. estensione degli stimatori standard a situazioni più complesse e più aderenti alla realtà che riguardano in particolare:
- i metodi di smoothing temporale in cui si sfrutta la conoscenza di informazioni raccolte in occasioni di indagine precedenti per migliorare l'attendibilità delle stime riferite al tempo attuale;
- i metodi di smoothing spaziale, in cui si approfondisce il problema dell'estensione dei modelli lineari misti al caso in cui vi è correlazione spaziale dei residui;
- i metodi di smoothing spazio-temporale, estesi a situazioni più realistiche in cui gli errori campionari relativi alle diverse occasioni di indagine sono correlati;
- i metodi di stima per tabelle di contingenza basati sull'estensione dello stimatore noto come Structure Preserving Estimator (SPREE);
- utilizzo dell'approccio condizionale nell'ambito della stima per piccole aree;
c. effettuazione di verifiche empiriche su dati censuari (o su dati provenienti da pseudopopolazioni); se, infatti, risultano disponibili (o ricostruibili in base a variabili correlate) i valori della variabile di interesse a livello di piccola area, è possibile ottenere importanti valutazioni empiriche sulla distorsione e sull'errore quadratico medio ottenuti mediante i differenti metodi, confrontando i valori stimati con i valori effettivi censuari;
d. scelta delle variabili ausiliarie maggiormente correlate con le variabili di interesse e individuazione di tutte le fonti che possono fornire informazioni qualitativamente affidabili su tali variabili.

L'utilizzo dei metodi di stima per piccole aree per la produzione effettiva di stime ufficiali presenta allo stato attuale problemi di varia natura e complessità che ne limitano l'applicabilità effettiva; pertanto, quando le circostanze lo consentono, rimane sempre auspicabile l'uso dei più robusti stimatori diretti che basandosi sul disegno di campionamento adottato risultano corretti o approssimativamente corretti sotto il disegno. Per tale motivazione nel corso degli ultimi anni si è iniziato ad inquadrare il problema della stima per piccole aree in un ottica globale che affronti congiuntamente i temi:

  • dello studio del disegno di campionamento ottimale per la produzione di stime per piccole aree;
  • della scelta dello stimatore.

In particolare i temi più importanti da affrontare per la scelta del disegno riguardano l'allocazione della numerosità campionaria, la formazione degli strati e il grado di clustering.

B. Valutazione degli errori campionari

Le indagini Istat vengono realizzate attraverso disegni di campionamento complessi, in generale basati su più stadi di selezione, sulla stratificazione delle unità e sulla selezione delle stesse con probabilità variabili e senza reimmissione. Inoltre, le stime vengono determinate mediante l'utilizzo degli stimatori di ponderazione vincolata i quali sono funzioni non lineari delle informazioni campionarie. Le metodologie standard adottate dall'Istat per la valutazione degli errori campionari delle stime uscenti dalle varie indagini campionarie si basano:

  • sulla determinazione dell'espressione analitica dello stimatore della varianza in relazione al disegno di campionamento adottato;
  • sul metodo di linearizzazione di Woodruff (1971) nel caso in cui gli stimatori adottati sono funzioni non lineari dei dati campionari.

Sulla base della suddetta metodologia l'Istat ha sviluppato il software generalizzato GENESEES, che dispone di un'interfaccia user friendly e viene correntemente utilizzato per la stima degli errori campionari delle stime prodotte dalle diverse indagini Istat sulle famiglie e sulle imprese. Pertanto la maggior parte delle indagini campionarie Istat vengono attualmente pubblicate con informazioni dettagliate sugli errori campionari. Inoltre, mediante tale software, vengono calcolate importanti statistiche che consentono di effettuare un'analisi critica del disegno di campionamento adottato; in particolare è possibile valutare:

  • l'efficienza complessiva del disegno di campionamento utilizzato, attraverso la statistica deff espressa dal rapporto tra la varianza del campione complesso utilizzato e quella di un ipotetico campione casuale semplice di pari numerosità in termini di unità finali di campionamento;
  • l'impatto sull'efficienza delle stime dovuto alla stratificazione delle unità, alla definizione degli stadi di campionamento e alla ponderazione delle unità (effetti stratificazione, stadificazione, ponderazione).

È importante fare presente che l'Istat effettua una presentazione sintetica degli errori di campionamento mediante modelli regressivi che mettono in relazione i valori delle stime con i corrispondenti errori campionari; tali modelli vengono utilizzati per corredare le tavole pubblicate con importanti informazioni sintetiche sugli errori campionari.