Preparazione degli output preliminari

In questo sottoprocesso i dati vengono trasformati in prodotti statistici. Il sottoprocesso comprende la produzione di misure aggiuntive come indici, tendenze o serie destagionalizzate, nonché la registrazione delle caratteristiche di qualità.

Costruzione e valutazione di indici compositi

Un indice composito (o indice sintetico) è una combinazione matematica (o aggregazione) di un insieme di indicatori elementari  (variabili) che rappresentano le diverse componenti di un concetto multidimensionale da misurare (per es., sviluppo, qualità della vita, benessere, ecc.). Un indicatore elementare è un dato ‘elaborato’ costruito, generalmente, rapportando un dato ‘grezzo’ ad un altro che ne costituisce una base di riferimento (per es., “reddito pro-capite”).

Quindi, gli indici sintetici sono usati per misurare concetti che non possono essere catturati da un unico indicatore.

Generalmente, un indice sintetico dovrebbe essere basato su un quadro teorico che consenta di selezionare, combinare e pesare gli indicatori elementari in modo da riflettere le dimensioni o la struttura del fenomeno che si sta misurando. Tuttavia, la sua costruzione non è semplice e, spesso, richiede una serie di decisioni/scelte (metodologiche o no) da prendere.

La procedura per costruire un indice sintetico prevede i seguenti passi.

  1. Definizione del fenomeno da misurare. La definizione del concetto dovrebbe fornire un senso chiaro di ciò che si intende misurare con l’indice sintetico. Essa dovrebbe riferirsi a un quadro teorico, comprendente diversi sottogruppi e indicatori sottostanti. Un aspetto fondamentale riguarda l’identificazione del modello di misurazione, per il quale si distinguono due diversi approcci:
    • modello riflessivo, se gli indicatori sono visti come ‘effetto’ del fenomeno da misurare, per cui un cambiamento nella variabile latente si riflette in un cambiamento degli indicatori osservati (gli indicatori sono intercambiabili e le correlazioni tra di essi sono spiegate dal modello);
    • modello formativo, se gli indicatori sono visti come ‘causa’ del fenomeno da misurare, per cui un cambiamento nella variabile latente non implica necessariamente un cambiamento di tutti gli indicatori osservati (gli indicatori non sono intercambiabili e le correlazioni tra di essi non sono spiegate dal modello).
  2. Selezione di un gruppo di indicatori elementari. La forza e la debolezza di un indice sintetico riflettono la qualità degli indicatori elementari sottostanti. Gli indicatori dovrebbero essere selezionati in base alla loro rilevanza, validità, tempestività, disponibilità, ecc. La fase di selezione è il risultato di un compromesso tra possibili ridondanze e perdita di informazione. Un approccio statistico alla scelta degli indicatori consiste nel calcolare le correlazioni tra potenziali indicatori e includere quelli meno correlati tra loro. Tuttavia, il processo di selezione dipende dal modello di misurazione adottato: in un modello riflessivo, tutti gli indicatori devono essere correlati tra loro, mentre in un modello formativo possono essere incorrelati.
  3. Normalizzazione degli indicatori elementari. La normalizzazione ha lo scopo di rendere gli indicatori comparabili in quanto essi, spesso, sono espressi in unità di misura diverse e possono avere polarità La ‘polarità’ (o ‘verso’) di un indicatore elementare è il segno della relazione tra l’indicatore e il fenomeno da misurare (per es., nella costruzione di un indice sintetico di sviluppo, la “speranza di vita” ha polarità positiva, mentre la “mortalità infantile” ha polarità negativa). Pertanto, è necessario portare gli indicatori a uno stesso standard, invertendo la polarità, laddove necessario, e trasformandoli in numeri puri, adimensionali. Esistono vari metodi di normalizzazione, come la trasformazione in indici relativi (o metodo Min-Max) e la standardizzazione (calcolo dei z-scores).
  4. Aggregazione degli indicatori normalizzati. E’ la combinazione di tutte le componenti per formare l’indice sintetico (funzione matematica). Tale passo richiede la definizione dell’importanza di ciascun indicatore elementare (sistema di ponderazione) e l’identificazione della tecnica di sintesi (compensativa o non-compensativa). Il sistema più semplice e usato per la definizione del sistema di ponderazione – ma non per questo esente da critiche – consiste nell’assegnare lo stesso peso a tutti gli indicatori. Per quanto riguarda la tecnica di sintesi, si distinguono due approcci:
    • approccio compensativo, se gli indicatori elementari sono considerati sostituibili; gli indicatori elementari sono detti ‘sostituibili’ se un deficit in un indicatore può essere compensato da un surplus in un altro (per es., un valore basso in “Percentuale di persone che hanno partecipato ad attività spirituali o religiose” può essere compensato da un valore alto in “Percentuale di persone che hanno partecipato a incontri di associazioni ricreative o culturali” e viceversa). In tal caso,  si adottano delle funzioni lineari, come la media aritmetica;
    • approccio non compensativo, se gli indicatori elementari sono considerati non-sostituibili; gli indicatori elementari sono detti ‘non-sostituibili’ se un deficit in un indicatore non può essere compensato da un surplus in un altro (per es., un valore basso in “Letti di ospedale per 1.000 abitanti” non può essere compensato da un valore alto in “Medici per 1.000 abitanti” e viceversa). In tal caso, si adottano delle funzioni non lineari in cui si tiene conto – implicitamente o esplicitamente – dello sbilanciamento tra i diversi valori, in termini di penalizzazione.
  5. Validazione dell’indice sintetico. Consiste nel verificare che l’indice sintetico è coerente con il quadro teorico generale. In particolare, occorre valutare la capacità dell’indice di produrre risultati stabili e corretti (Analisi di Influenza e/o Analisi di Robustezza) e la sua capacità discriminante.

Destagionalizzazione di serie storiche

La stagionalità, nella dinamica di una serie storica, è quella componente che si ripete ad intervalli regolari ogni anno, con variazioni di intensità più o meno analoga nello stesso periodo (mese, trimestre, etc.) di anni successivi e di intensità diversa nel corso di uno stesso anno. La sua presenza, potendo mascherare altri movimenti di interesse, tipicamente le fluttuazioni cicliche, viene spesso considerata di disturbo nell’analisi della congiuntura economica; essa, ad esempio, rende problematica l’interpretazione delle variazioni osservate su una serie storica tra due periodi consecutivi dell’anno (cd. variazione congiunturale), essendo queste spesso influenzate in misura prevalente dalle oscillazioni stagionali piuttosto che da movimenti dovuti ad altre cause (come al ciclo economico). Questi ultimi possono essere, invece, correttamente evidenziati calcolando le variazioni congiunturali sui dati destagionalizzati, dai quali, cioè, è stata opportunamente rimossa la componente stagionale.

Tale trasformazione dei dati risulta, quindi, opportuna nell’analisi della congiuntura economica, per poter cogliere in maniera più chiara l’evoluzione di breve termine dei fenomeni considerati. L’impiego di dati in forma destagionalizzata trova, inoltre, ampia applicazione nell’utilizzo congiunto delle statistiche prodotte da diversi Paesi, poiché permette di comparare in maniera più idonea l’evoluzione di diverse serie storiche, ciascuna caratterizzata da uno specifico profilo stagionale.

Un’altra pratica, strettamente connessa alla precedente, è quella di correggere i dati per la cosiddetta componente di calendario, determinata dalla diversa composizione del calendario nei singoli periodi dell’anno, che contribuisce anch’essa ad offuscare il segnale congiunturale di interesse. Il diverso numero di giorni lavorativi o di giorni specifici della settimana in essi contenuti, come anche il modo in cui si collocano, nei periodi messi a confronto, le festività nazionali civili e religiose, fisse e mobili, e gli anni bisestili, possono costituire una fonte di variazione di breve periodo per molte serie storiche. Tali effetti, non necessariamente analoghi tra paesi o settori, inficiano la comparabilità nel tempo dei fenomeni economici e pertanto sono spesso rimossi unitamente alla componente stagionale. Il ricorso a tale trasformazione dei dati consente, in particolare, di cogliere in maniera più adeguata sia le variazioni tendenziali (calcolate rispetto allo stesso periodo dell’anno precedente), sia le variazioni medie annue. In molti casi, accanto ai dati destagionalizzati e corretti, vengono prodotte anche serie storiche al netto dei soli effetti di calendario.

Principali approcci alla destagionalizzazione

Generalmente, l’ipotesi sottostante alla costruzione di una procedura di destagionalizzazione è che ogni serie storica Yt, osservata a cadenza infra-annuale (ove t = 1, 2, . . . , T è un indice temporale), sia esprimibile come una combinazione delle seguenti componenti non osservabili:

  1. una componente di trend Tt, che rappresenta la tendenza di medio-lungo periodo, talvolta denominata anche ciclo-trend (CTt);
  2. una componente stagionale St, costituita da oscillazioni di periodo annuale;
  3. una componente irregolare It, dovuta a movimenti erratici, cioè a fluttuazioni di breve periodo non sistematiche e non prevedibili.

Nell’ambito della produzione statistica ufficiale, gli approcci metodologici più diffusi alla destagionalizzazione sono essenzialmente i due, il cui impiego viene anche incoraggiato nelle linee guida europee sulla destagionalizzazione (Eurostat, 2015):

  1. Metodi di tipo Arima model based (AMB), sviluppati tra gli altri da Burman (1980), Box, Hillmer e Tiao (1978) e Hillmer e Tiao (1982), basati sull’ipotesi che esista un particolare modello statistico parametrico (Arima) in grado di descrivere adeguatamente la struttura probabilistica del processo stocastico generatore della serie storica osservata, essendo quest’ultima concepita come la parte finita di una particolare realizzazione di un processo stocastico. I filtri lineari utilizzati in questo approccio dipendono, conseguentemente, dalle caratteristiche della serie storica considerata. Questo tipo di approccio metodologico è adottato dalla procedura TRAMO-SEATS (Time series Regression with Arima noise, Missing observations and Outliers e Signal Extraction in Arima Time Series – TS), sviluppata da Gómez e Maravall (1996).
  2. Metodi filter based (FLB), di tipo non parametrico o semiparametrico, in cui, al contrario, la stima delle componenti avviene senza ipotizzare l’esistenza di un modello statistico rappresentante la serie analizzata ma mediante l’applicazione iterativa di una serie di filtri lineari costituiti da medie mobili centrate di diversa lunghezza. Tali procedure sono dette ad hoc, poiché i filtri adottati derivano da regole meramente empiriche piuttosto che dalla struttura probabilistica del processo stocastico che ha generato la serie. Appartengono a questo gruppo i classici metodi della famiglia X-11 (X11): dai primi X11 e X-11-ARIMA (X-11A), ai più attuali X-12-ARIMA (X-12A) (Findley et al., 1998) e X-13-ARIMA-SEATS (X-13AS) (Findley, 2005), che incorporano al loro interno numerosi miglioramenti rispetto alle precedenti versioni. Tra questi, il ricorso a modelli reg-Arima finalizzato al trattamento preliminare dei dati e a una migliore previsione della serie, che si traduce in un miglioramento dei filtri simmetrici a media mobile impiegati, e cioè, generalmente, in una maggiore stabilità dei fattori stagionali stimati.

In entrambe le metodologie è presente un trattamento preliminare dei dati, in cui avviene la scelta dello schema di scomposizione che lega le diverse componenti della serie storica (additiva, moltiplicativa, log-additiva, ecc.) e sono identificati ed eliminati una serie di effetti, quali i valori anomali (outlier) e quelli legati agli effetti di calendario. È su questa serie corretta preliminarmente che viene condotta la fase successiva che consente di ottenere la serie destagionalizzata (SA). A questa fase segue il reinserimento, nella serie SA, di alcuni elementi identificati nella fase di pretrattamento, attribuiti o al trend (come i cambiamenti di livello) o alla componente irregolare (ad es. gli outlier additivi e i cambiamenti temporanei); vengono invece esclusi dalla serie SA gli effetti di calendario e gli outlier stagionali.

Tutela della riservatezza

La funzione primaria di un sistema statistico pubblico è quella di produrre statistica ufficiale per il proprio paese. Infatti, il Decreto Legislativo 6 settembre 1989, n.322, costitutivo del Sistema statistico nazionale (Sistan), cita: “L’informazione statistica ufficiale è fornita al Paese e agli organismi internazionali attraverso il Sistema statistico nazionale” (art.1, comma 2) e ancora “I dati elaborati nell’ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività e vengono distribuiti per fini di studio e di ricerca a coloro che li richiedono secondo la disciplina del presente decreto, fermi restando i divieti di cui all’art. 9″ riguardanti il segreto statistico (art. 10 comma 1).
Il Decreto Legislativo n.322/1989, inoltre, afferma che “i dati raccolti nell’ambito di rilevazioni statistiche comprese nel Programma statistico nazionale non possono essere comunicati o diffusi ad alcun soggetto esterno, pubblico o privato, né ad alcun ufficio della pubblica amministrazione se non in forma aggregata e in modo che non se ne possa trarre alcun riferimento a persone identificabili”. In ogni caso i dati non possono essere utilizzati al fine di identificare nuovamente gli interessati.

Ulteriori principi, in materia di tutela della riservatezza dei dati, sono stabiliti dal Codice di deontologia e di buona condotta per i trattamenti di dati personali a scopi statistici e di ricerca scientifica effettuati nell’ambito del Sistema statistico nazionale (Decreto Legislativo 30 giugno 2003, n. 196). In particolare, il Codice definisce il concetto di identificabilità di un’unità statistica, in termini di possibilità, mediante l’uso di mezzi ragionevoli, di stabilire un’associazione significativamente probabile tra la combinazione delle modalità delle variabili relative all’unità statistica e i dati identificativi della medesima. Sono specificati, inoltre, i mezzi ragionevolmente utilizzabili per l’identificazione dell’interessato, quali ad esempio, le risorse economiche, di tempo, la possibilità di incroci con archivi nominativi o altre fonti, ecc.

La traduzione dei concetti enunciati nella legge in regole operative dal punto di vista statistico richiede preliminarmente l’individuazione delle unità statistiche soggette a rischio di identificazione e quindi una precisa definizione di cosa si intenda per violazione della riservatezza. La successiva quantificazione della probabilità di violare la riservatezza consentirà di definire le tecniche più idonee per garantire la protezione del dato.
La definizione di violazione della riservatezza adottata dagli Istituti nazionali di statistica è basata sul concetto di identificabilità di una unità della popolazione osservata (interessato). Indicando col termine intruso il soggetto che abbia interesse a violare la riservatezza dei dati rilasciati, si verifica una identificazione quando l’intruso riesca ad associare, con un determinato grado di certezza, le informazioni rilasciate al soggetto interessato. Il rilascio di informazione statistica con dati riservati in nessun caso riguarda i cosiddetti identificativi diretti (ovvero le variabili che identificano univocamente l’interessato come ad esempio codice fiscale, nominativo o ragione sociale, indirizzo, ecc.). Il problema si pone per i cosiddetti identificativi indiretti (o variabili chiave). Si tratta di quelle variabili che non identificano direttamente l’interessato ma che permettono di circoscriverne la popolazione di appartenenza e che l’intruso utilizzerà per i suoi scopi. Un’identificazione indiretta potrebbe essere determinata, ad esempio, dall’utilizzo combinato di variabili territoriali, attività economica e classe di addetti. Il meccanismo con cui una identificazione può avvenire può essere immediato (ad esempio riconoscimento diretto) o affidato a più o meno complessi algoritmi di abbinamento di informazioni (record linkage, statistical matching, ecc.)
Per limitare il rischio di una identificazione gli Istituti nazionali di statistica possono operare modifiche ai dati (ad esempio ricorrendo a tecniche di perturbazione), oppure agire sugli identificativi indiretti eliminandoli in tutto o in parte, oppure riducendone i dettagli (ad esempio decidendo di non rilasciare il dettaglio comune e lasciando al suo posto la variabile provincia o regione). L’applicazione delle tecniche di protezione, sia per la diffusione di tabelle che per la comunicazione di dati elementari, comporta una riduzione o una modifica del contenuto informativo dei dati rilasciati (perdita di informazione).

La violazione della riservatezza nel rilascio di tabelle

Le tabella rappresentano lo strumento maggiormente utilizzato dagli istituti nazionali di statistica per la diffusione dei dati aggregati, ovvero raggruppati in celle definite dagli incroci delle variabili di classificazione. Il concetto di violazione della riservatezza prescinde dal tipo di prodotto utilizzato per la diffusione. Coerentemente con quanto esposto nella sezione precedente, anche nel caso di dati aggregati si verifica una violazione quando è possibile trarre informazioni che consentono l’identificazione dell’individuo. Nella definizione di informazioni “riservate” rientrano anche i dati sensibili e i dati giudiziari (così come sono definiti nel Decreto Legislativo 30 giugno 2003, n. 196, art. 4), mentre non sono considerate riservate le variabili pubbliche (il carattere o la combinazione di caratteri, di tipo qualitativo o quantitativo, oggetto di una rilevazione statistica che faccia riferimento ad informazioni presenti in pubblici registri, elenchi, atti, documenti o fonti conoscibili da chiunque – definizione contenuta nel Codice di deontologia). Quando si intende rilasciare una tabella una prima valutazione riguarda il contenuto informativo relativo ai dati da pubblicare: se questo non ha carattere riservato non si rende necessario attuare procedure di protezione statistica dei dati, in caso contrario è necessario applicare le regole di tutela della riservatezza. La valutazione del rischio di violazione della riservatezza per dati in tabella avviene per singole celle: quando il valore interno ad una delle celle è riconducibile (con un determinato grado di certezza) al soggetto (ai soggetti) cui il dato stesso si riferisce (cella sensibile), allora la tabella non rispetta le norme sulla tutela della riservatezza.
Il processo volto alla protezione dei dati aggregati prevede diverse fasi. La prima fase definisce l’ambito nel quale si sta lavorando, quali tabelle si intendono trattare e le loro caratteristiche. Quindi si definisce la regola di rischio ovvero il criterio (o i criteri) in base al quale stabilire se una cella è o meno a rischio di violazione della riservatezza. La fase finale riguarda la messa in atto delle procedure per la tutela della riservatezza. Queste dipendono dal tipo di tabelle che si intende rilasciare e da eventuali vincoli di pubblicazione presenti, ma anche dalla tipologia di variabili riservate, nonché dalla complessità sottostante a ogni elaborazione e alla disponibilità di dati.
Anche se alcuni dei principi di seguito descritti, con particolare riferimento alla regola della soglia, sono utilizzabili anche per le tabelle di frequenza, le regole elencate sono riferibili principalmente alle tabelle di intensità. Nel caso di tabelle di frequenza le celle a rischio sono individuate a seguito di una valutazione fatta caso per caso e non facendo ricorso a regole generali come invece avviene per le tabelle di intensità.

Tabelle di Intensità e regole di rischio

Le regole di rischio utilizzate per tabelle di intensità sono quelle basate sulla numerosità della cella (regola della soglia o frequenza), e quelle basate su misure di concentrazione (regola della dominanza e regola del rapporto). In Istat trova largo impiego la regola della soglia secondo cui una cella è sensibile se il numero di unità in essa contenute è inferiore ad un valore n (soglia) fissato a priori. Per poter applicare questa regola a tabelle di intensità è necessario disporre della relativa tabella di frequenza. Dal valore di n dipende la protezione che si applica alla tabella: maggiore è il valore soglia maggiore è il livello di protezione applicato. Non esiste un criterio univoco per individuare il valore soglia che dipenderà dallo scenario di intrusione ipotizzato e dai dati trattati. Il valore minimo che può assumere la soglia è pari a tre (come previsto dal Codice deontologico).
La regola della dominanza [(n,k)-dominance] definisce a rischio una cella se i primi n contributori detengono una percentuale del suo valore totale superiore ad una soglia k% fissata a priori. Dai due valori di n e di k dipende il livello di protezione che si vuole applicare alla tabella. Non esistono criteri univoci per fissare i due parametri. In base alle unità statistiche coinvolte e ai livelli di protezione desiderati è possibile definire i parametri individuando una concentrazione massima ammissibile.
La regola del rapporto (p-rule) si basa sulla precisione con la quale può essere stimato il valore del primo contributore nell’ipotesi in cui il secondo contributore tenti la violazione. La cella è considerata a rischio se l’errore relativo è inferiore ad una soglia p fissata a priori.
Nel caso di tabelle con possibili contributi di segno opposto le regole di rischio basate sulle misure di concentrazione perdono di significato. E’ possibile tuttavia la loro applicazione facendo ricorso ai valori assoluti dei contributi.
Operare una violazione della riservatezza in un contesto con possibili contributi negativi risulta molto più complesso. La raccomandazione generale è quella di parametrizzare le funzioni di rischio con valori meno stringenti rispetto al caso di contributi solo positivi.
In caso di tabelle campionarie, ovvero ottenute rilevando dati su un sottoinsieme della popolazione di riferimento, la valutazione del rischio di violazione della riservatezza deve tener conto del piano di campionamento utilizzato. Il valore riportato nelle celle è una stima realizzata estendendo un valore parziale (rilevato nel campione) alla popolazione di riferimento. Le unità rilevate non sono conosciute e anche il vero valore della popolazione non viene rilevato. Per le celle che riportano dati stimati con coefficiente di riporto all’universo maggiore dell’unità il rischio di violazione è contenuto. In questo contesto ipotizzare una violazione della riservatezza appare inverosimile. Tuttavia, specie per tabelle di dati economici, un’attenta valutazione del rischio di violazione della riservatezza si rende necessaria anche nel caso di tabelle campionarie. Infatti, in alcuni casi le unità maggiormente rappresentative (dominanti) vengono incluse nel campione con probabilità certa. Inoltre, nel caso di campioni stratificati, alcune celle sono campionate al 100% e quindi il valore rilevato coincide (a meno di mancate risposte) col valore della popolazione.
Tranne casi particolari in cui il disegno campionario e il numero di unità campionate permettono di ritenere sicura una tabella sotto il profilo della riservatezza, anche alle tabelle campionarie devono essere applicate le regole di riservatezza.
Il criterio utilizzato in Istat considera l’applicazione delle regole di rischio sui valori stimati di cella ottenuti usando i pesi di riporto all’universo. Questo criterio presuppone che le unità campionate siano “simili” a quelle presenti nella popolazione.

Tabelle di frequenza e regola di rischio.

Le tabelle di frequenza sono utilizzate soprattutto per rappresentare fenomeni sociali e dati di censimento. Per questa tipologia di tabelle l’unico criterio per stabilire se una cella è o meno a rischio è quello basato sulla numerosità delle celle, non possono infatti essere applicate regole di rischio basate sulle misure di concentrazione. Non esistono regole univoche per stabilire se una tabella di frequenza sia o meno a rischio di violazione della riservatezza. Non sempre infatti una cella con frequenza bassa (esempio pari a 1) indica una cella a rischio, e viceversa non sempre una cella che contiene un elevato numero di unità può essere considerata sicura sotto il profilo della riservatezza statistica.
Come regola generale sono considerate a rischio di violazione della riservatezza le tabelle di frequenza che presentano uno dei casi sotto elencati:

  • marginale con meno di tre contributori;
  • tutte le unità appartengono ad una unica categoria (group disclosure), oppure l’unico contributore di una cella (auto riconoscimento) acquisisce informazioni riservate su tutte le altre unità (concentrate tutte in un’altra cella).

Protezione statistica delle tabelle

Individuate le celle a rischio è necessario modificare la tabella in modo opportuno rendendo anonime le informazioni in essa contenute. Le tecniche di protezione dei dati sono molteplici e vanno dall’accorpamento di modalità adiacenti, a metodi basati sulla modifica dei dati originali, all’introduzione di valori mancanti (soppressioni). I metodi utilizzati in Istat sono: la modifica delle modalità delle variabili di classificazione e l’introduzione di valori mancanti.
Un metodo di protezione delle tabelle che non si basa sulla modifica dei valori nelle celle è la definizione di una diversa combinazione delle modalità. Individuata la regola di rischio il metodo consiste nel determinare le modalità in modo tale che la distribuzione del carattere e/o delle unità nelle celle sia tale da non presentare alcuna cella sensibile.
Modificando opportunamente le modalità è possibile, ad esempio, ottenere una tabella che presenti una numerosità minima (ad esempio maggiore o uguale a tre) in ogni cella, oppure una tabella con una predefinita concentrazione massima del carattere in ogni cella.
La modifica delle modalità delle variabili di classificazione è soluzione praticabile solo quando il carattere delle variabili di classificazione è trasferibile, e se le tabelle da rilasciare non devono soddisfare regole rigide dettate da regolamenti che vincolano i dettagli delle variabili di classificazione.
La tecnica relativa all’inserimento di valori mancanti (tecnica di soppressione secondaria) prevede che il valore delle celle a rischio sia soppresso (oscurato). La soppressione operata sulle celle a rischio è anche detta soppressione primaria. Con l’introduzione dei valori mancanti in corrispondenza delle celle sensibili non si esaurisce il processo di protezione della tabella. E’ necessario prima valutare che le celle soppresse non possano essere calcolate a partire dai dati rilasciati, ad esempio per differenza dai valori marginali. Le soppressioni devono distribuirsi tra le celle della tabella in modo da garantire che la tabella sia protetta adeguatamente secondo i criteri imposti. Quando ciò non si verifica è necessario introdurre ulteriori valori mancanti tra le celle non a rischio: le soppressioni secondarie. In letteratura sono stati proposti diversi algoritmi per la determinazione del tracciato delle soppressioni secondarie. Attualmente in Istat quello maggiormente utilizzato è l’algoritmo HiTas disponibile in alcuni software generalizzati come ad esempio Tau-ARGUS.

Tabelle collegate

Si definiscono collegate tabelle che contengono dati relativi alla stessa variabile risposta e che presentano almeno una medesima variabile classificatrice. Il caso più frequente di tabelle collegate è rappresentato da tabelle con celle in comune, con particolare riferimento ai valori marginali. Il collegamento tra dati statistici può inquadrarsi anche in un contesto più ampio. A volte infatti rilevazioni diverse pubblicano stessi aggregati
L’applicazione delle regole di riservatezza a tabelle collegate implica che informazioni (celle) comuni abbiano assegnato lo stesso status di rilasciabilità.
Per ottimizzare il processo di protezione sarebbe opportuno, laddove possibile, operare contestualmente la protezione di tutte le tabelle collegate.

La violazione della riservatezza nel rilascio di dati elementari

I dati elementari possono essere definiti come il prodotto finale di una rilevazione statistica dopo le fasi di progettazione, esecuzione, controllo e correzione. I dati elementari nella fase di diffusione sono un archivio di record ciascuno contenente tutte le informazioni validate (generalmente un sottoinsieme di quelle rilevate) relative a una singola unità statistica. Tali variabili, così come avviene nel caso dei dati aggregati diffusi tramite tabelle, possono essere classificate come variabili chiave in quanto identificativi indiretti, oppure come variabili riservate.
Rispetto al caso di rilascio di tabelle cambiano sostanzialmente sia l’insieme delle variabili chiave che, in generale, saranno più numerose, sia il contenuto di un’eventuale violazione in quanto le variabili riservate nei dati elementari sono presenti tutte insieme. Per contro, il rilascio di microdati riguarda esclusivamente le collezioni campionarie e l’accesso ai file è molto più controllato (per soli motivi di ricerca e dietro la sottoscrizione di un modulo/contratto). Tuttavia, non v’è dubbio che il rilascio di dati elementari è questione più delicata rispetto alla diffusione di tabelle. Per questo sono stati elaborati modelli di misurazione del rischio di identificazione specifici rispetto alle tabelle e spesso basati su modelli probabilistici. I metodi di protezione dei dati elementare sono riconducibili a tre categorie:

  • ricodifica di variabili (global recoding): consiste nel ridurre il dettaglio di rilascio di alcune variabili (ad esempio l’età in classi quinquennali anziché annuali);
  • soppressione di informazioni (local suppression): per eliminare caratteristiche che rendono alcuni record più facilmente identificabili;
  • perturbazione dei dati pubblicati: con metodi diversi ma con le stesse finalità viste per le tabelle.

Fra le iniziative che riguardano il rilascio “protetto” dei dati elementari vanno annoverati i cosiddetti Microdata File for Research (MFR), i file ad uso pubblico (mIcro.STAT) ed il Laboratorio per l’Analisi dei Dati ELEmentari (ADELE). I file MFR vengono prodotti per rilevazioni statistiche riguardanti sia individui e famiglie sia imprese e sono realizzati specificatamente per esigenze di ricerca scientifica. Il rilascio di tali file è soggetto alla sussistenza di alcuni requisiti relativi sia all’organizzazione di appartenenza sia alle caratteristiche del progetto di ricerca per le cui finalità viene richiesto il file. I file mIcro.STAT sono file ad uso pubblico, ottenuti a partire dai rispettivi MFR, opportunamente trattati sotto il profilo della tutela della riservatezza e scaricabili direttamente dal sito Istat.
Il Laboratorio ADELE, attivo a partire dal 1999, è un cosiddetto Research Data Centre (RDC) ovvero un luogo “sicuro” cui possono accedere ricercatori e studiosi per effettuare autonomamente le proprie analisi statistiche sui dati elementari prodotti dall’Istituto nazionale di statistica nel rispetto delle norme sulla riservatezza. Principale obiettivo del laboratorio ADELE è offrire a un’utenza esterna “esperta” la possibilità di analizzare dati elementari delle principali indagini dell’Istat, spostando la fase di verifica della tutela della riservatezza sull’output dell’analisi statistica piuttosto che sull’input (come avviene nel caso dei file per la ricerca e per i file ad uso pubblico). La tutela della riservatezza per le elaborazioni effettuate presso il laboratorio ADELE viene garantita sotto diversi aspetti:

  • legalmente: l’utente sottoscrive un modulo in cui si impegna al rispetto di norme di comportamento specifiche;
  • fisicamente: attraverso il controllo dell’ambiente di lavoro. Il Laboratorio è collocato presso la sede dell’Istat con addetti che attendono al controllo della sala, le operazioni di input e output e l’accesso alla rete esterna sono inibite agli utenti;
  • statisticamente: tramite il controllo cui sono sottoposti i risultati dell’analisi dell’utente preventivamente al rilascio.

Ultima modifica: 11 gennaio 2018