La funzione primaria di un sistema statistico pubblico è quella di produrre statistica ufficiale per il proprio paese. Infatti, il Decreto Legislativo 6 settembre 1989, n.322, costitutivo del Sistema statistico nazionale (Sistan), cita: "L'informazione statistica ufficiale è fornita al Paese e agli organismi internazionali attraverso il Sistema statistico nazionale" (art.1 comma 2) e ancora "I dati elaborati nell'ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività e vengono distribuiti per fini di studio e di ricerca a coloro che li richiedono secondo la disciplina del presente decreto, fermi restando i divieti di cui all'art.9″ riguardanti il segreto statistico (art.10 comma 1).
La fase del processo produttivo di un'indagine statistica in cui si concretizza questa funzione di fornitore di informazione statistica è detta "diffusione". La diffusione è, difatti, la fase nella quale vengono poste in essere le modalità con cui l'obiettivo conoscitivo di un'indagine viene reso ai fruitori di informazione statistica ed è in questa fase che la tutela della riservatezza dei rispondenti alle indagini si presenta nei suoi aspetti tecnici e metodologici. Infatti, il compito di diffondere informazione statistica entra spesso in contrasto con il tradizionale obbligo morale, ma anche legale, degli uffici statistici di mantenere la privacy dei singoli rispondenti a garanzia di una più attiva cooperazione dei partecipanti alle indagini.
La traduzione dei concetti enunciati nella legge in regole operative dal punto di vista statistico avviene all'interno di un quadro di riferimento metodologico caratterizzato essenzialmente: da una precisa definizione di cosa si intenda per violazione della riservatezza, dalla quantificazione della probabilità del suo verificarsi e dalla messa a punto di tecniche di protezione dei dati.
E' evidente che queste problematiche sono di natura prettamente statistica. In quest'ottica, il primo passo del processo di rilascio consiste nell'individuare le unità statistiche soggette a rischio di identificazione fornendo una misura del rischio stesso; successivamente si applicheranno le tecniche di protezione del dato che generalmente comportano una riduzione del contenuto informativo dei dati rilasciati (perdita di informazione).
Affinché si possa verificare una violazione della riservatezza occorre che esista un "intruso" ovvero un utente cui siano stati rilasciati dati statistici (sotto qualsiasi forma: tabelle, file, ecc.) e che abbia intenzione di ricavare informazioni riservate da questi. Inoltre, l'intruso deve avere le capacità e delle informazioni ulteriori per poter mettere in atto i suoi propositi. Più operativamente, dato per scontato che il rilascio di informazione statistica nella fase di diffusione in nessun caso riguarda dati identificativi diretti, si assume che un eventuale intruso abbia a disposizione un archivio nominativo, contenente cioè gli estremi identificativi di individui o imprese (nome, cognome, codice fiscale ecc.) e informazioni tali da consentirgli di attribuire uno o più dati statistici rilasciati ai nominativi in suo possesso.
La definizione di violazione della riservatezza adottata dagli Istituti nazionali di statistica è basata sul concetto di "identificabilità di un interessato" (unità statistica). Si verifica una identificazione quando, con un certo grado di sicurezza, si riesce a stabilire una relazione biunivoca tra la combinazione delle modalità dei dati identificativi indiretti di un'unità presente nel file di dati rilasciati e l'unità dell' archivio esterno in possesso dell'intruso.
Soprattutto nel caso della statistica ufficiale, che tratta grandi quantità di dati, la singola informazione e, a maggior ragione, la singola unità statistica non hanno significato statistico autonomo, ma contribuiscono in piccola parte alla produzione di indici o aggregati sintetici.
Esistono delle eccezioni in particolare fra le imprese. Vale, comunque, il principio per cui in fase di rilascio di informazione statistica l'identificazione delle singole unità non è utile per gli utenti e pertanto vengono omesse tutte quelle informazioni che identificano direttamente le stesse (nome, ragione sociale, codice fiscale, ecc.). Un intruso che voglia re-identificare una unità statistica deve, quindi, basarsi esclusivamente sulle informazioni rilasciate o più precisamente su quelle che vengono definite "identificativi indiretti" o "variabili chiave". Il meccanismo con cui una re-identificazione può avvenire può essere immediato o affidato a più o meno complessi algoritmi di abbinamento di informazioni (record linkage, statistical matching, ecc.).
Per chiarire facciamo un semplice esempio. Supponiamo che vengano rilevate presso gli ospedali le "cause di ricovero" per "comune di residenza", "età" e "titolo di studio" del ricoverato e ne risulti che in un piccolo comune in provincia di Arezzo risieda un solo laureato in statistica 35-enne ricoverato per un'infezione alle vie respiratorie (i dati riportati sono puro frutto di fantasia). Supponiamo inoltre che, per la specificità della laurea e la dimensione molto piccola in termini di numero di abitanti del comune, esista alla data del ricovero un solo abitante laureato in statistica e 35-enne. In tal caso è facile immaginare che la persona in questione sia facilmente riconoscibile da parte di molti suoi compaesani, conoscenti e probabilmente da chiunque sia interessato a riconoscerlo con un modesto impegno di risorse (non sono qui rilevanti i motivi per cui qualcuno vorrebbe riconoscerlo). Pertanto, il rilascio di questa combinazione di dati consentirebbe a un eventuale intruso di conoscere informazioni sullo stato di salute di questa persona senza che la stessa sia informata o consenziente. Nell'esempio il comune di residenza, il titolo di studio e l'età hanno svolto la funzione di identificativi indiretti in quanto informazioni facilmente in possesso di un eventuale intruso associate o associabili al nome di una persona (identificativo diretto dell'interessato). La causa del ricovero invece è l'informazione acquisita indebitamente ma che in generale non è nota al generico intruso (rappresenta il contenuto della violazione). Questo tipo di informazioni vengono identificate come "confidenziali" o "riservate".
Supponiamo ora che la stessa informazione venga rilasciata in maniera meno dettagliata e cioè che da una tabella pubblicata si evinca che vi sia una sola persona ricoverata per un'infezione alle vie respiratorie residente nella provincia di Arezzo, laureata e di età compresa fra i 30 e i 40 anni. Un eventuale intruso stavolta avrebbe a disposizione come identificativi indiretti i seguenti dati: laureato, residente nella provincia di Arezzo, di età compresa fra i 30 e i 40 anni. Il numero di persone che rispondono a questa descrizione è sufficientemente elevato da poter "ragionevolmente" pensare sia impossibile che un individuo possa essere riconosciuto per questo. Cioè le informazioni rilasciate non consentono all'intruso di associare il nome di una persona agli identificativi indiretti se non con una probabilità molto bassa di effettuare la scelta giusta. In questo caso il rilascio dei dati viene considerato "sicuro".
La tipologia di diffusione classica delle statistiche ufficiali è sempre stata la forma aggregata nella forma che genericamente indichiamo come tabelle.
Il concetto di violazione della riservatezza del rispondente non dipende dal tipo di dati rilasciati, se aggregati o individuali. Pertanto, coerentemente con quanto scritto sopra, anche per i dati tabellari si verificherà una violazione quando si riescano a trarre informazioni riservate aventi carattere individuale a partire dalla tabella pubblicata. Se una tabella fornisce esclusivamente informazioni di pubblico dominio non ha bisogno di essere tutelata in quanto, per definizione, non contiene informazioni riservate. Ad esempio, le liste elettorali sono considerati elenchi pubblici e contengono informazioni in merito al comune di nascita e di residenza, al sesso e alla data di nascita di tutti gli abitanti in età di voto. Inoltre, la facilità con cui è possibile reperire tali informazioni su un individuo (ad esempio interrogando l'anagrafe comunale) rende decisamente sproporzionati i mezzi che un eventuale intruso dovrebbe impiegare per riconoscere un individuo da una tabella statistica.
Specularmente, nella maggioranza dei casi, non necessitano di protezione le tabelle relative alle sole variabili riservate, se analizzate singolarmente, perché tramite tali variabili per definizione non è possibile identificare alcuna unità.
Per le tabelle che presentano congiuntamente sia variabili chiave che riservate l'identificazione può avvenire se una cella contiene una sola unità - come nell'esempio - o due unità - in tal caso una riconosce l'altra - e, per tale motivo, la regola vigente presso l'Istat, come in molti altri istituti nazionali di statistica, impone una frequenza maggiore o uguale tre per tutte le celle di tabelle pubblicate. E' la cosiddetta regola della soglia per cui si considerano dati aggregati le combinazioni di modalità alle quali è associata una frequenza non inferiore a una soglia prestabilita, ovvero un'intensità data dalla sintesi dei valori assunti da un numero di unità pari alla suddetta soglia. Il valore minimo attribuibile alla soglia è pari a tre.
Le celle che non rispondono al criterio della soglia o dalle quali si possono trarre riferimenti individuali secondo altri criteri, vengono definite "sensibili" o "a rischio".
Ferma restando l'integrità del dato pubblicato il problema della protezione di una tabella si riduce ad oscurare le celle sensibili e, al tempo stesso, verificare che il valore relativo a tali celle non possa essere ricavato in altro modo. Per evitare ciò si ricorre se necessario a delle ulteriori soppressioni (soppressioni secondarie).
I metodi di perturbazione, invece, consistono nel rilasciare un'informazione diversa da quella vera in modo da limitare le possibilità di identificazione delle unità statistiche e per ridurre il contenuto informativo di un'eventuale violazione. Per le tabelle i metodi più spesso proposti consistono nell'arrotondare secondo qualche criterio i valori nelle celle.
Tutto ciò è valido quando si analizzano e si proteggono tabelle prese singolarmente; tuttavia, poiché le tabelle provengono da un medesimo file di dati elementari queste possono essere collegate tra loro e da tale incrocio spesso è possibile ottenere informazioni riservate che non erano desumibili da ciascuna tabella presa singolarmente. Questo è noto come "problema delle linked tables".
I dati elementari possono essere definiti come il prodotto finale di una rilevazione statistica dopo le fasi di progettazione, esecuzione, controllo e correzione. I dati elementari nella fase di diffusione sono un archivio di record ciascuno contenente tutte le informazioni (generalmente un sottoinsieme di quelle rilevate) relative a una singola unità statistica. Tali variabili, al pari delle tabelle, possono essere classificate come variabili chiave in quanto identificativi indiretti, oppure come variabili riservate.
Rispetto al caso di rilascio di tabelle cambiano sostanzialmente sia l'insieme delle variabili chiave che, in generale, saranno più numerose, sia il contenuto di un'eventuale violazione in quanto le variabili riservate nei dati elementari sono presenti tutte insieme.
Per contro, il rilascio di microdati riguarda esclusivamente le collezioni campionarie e l'accesso ai file è molto più controllato (per soli motivi di ricerca e dietro la sottoscrizione di un modulo/contratto). Tuttavia, non v'è dubbio che il rilascio di dati elementari è questione più delicata rispetto alla diffusione di tabelle. Per questo sono stati elaborati modelli di misurazione del rischio di identificazione specifici rispetto alle tabelle e spesso basati su modelli probabilistici. Mentre possiamo ricondurre i metodi di protezione a tre categorie:
Fra le iniziative che riguardano i dati elementari vanno annoverati i cosiddetti Microdata File for Research (MFR) ed i Data Analysis Center (DAC). Gli MFR in Italia prendono il nome di "file standard". Si tratta di collezioni campionarie di dati elementari relative ad alcune indagini svolte dall'Istat. Attualmente sono disponibili collezioni campionarie che hanno come unità di rilevazione gli individui e le famiglie. I dati individuali possono essere rilasciati per fini di studio e di ricerca su richiesta firmata per assunzione di responsabilità e previa autorizzazione del Presidente dell'Istituto, purché siano resi privi di ogni riferimento che ne permetta il collegamento con singole persone fisiche e giuridiche (art.10 del D.L.vo n. 322/89).
Per quanto riguarda i DAC, genericamente, possiamo dire che sono dei siti cui possono accedere ricercatori e studiosi per effettuare le proprie analisi statistiche sotto il controllo diretto dell' Istituto Nazionale di Statistica. Il DAC italiano nasce nel 1998, e si chiama laboratorio ADELE per l'Analisi dei Dati ELEmentari. Principale obiettivo del laboratorio ADELE è offrire a un'utenza esterna "esperta" la possibilità di analizzare dati elementari delle principali indagini dell'Istat, spostando la fase di verifica della tutela della riservatezza sull'output dell'analisi statistica piuttosto che sull'input (come avviene nel caso dei file standard). La tutela della riservatezza per le elaborazioni effettuate presso il laboratorio ADELE viene garantita sotto diversi aspetti:
Se i problemi menzionati finora presentano un grado elevato di difficoltà, la vera sfida del futuro è rappresentata dalla creazione di una strategia di rilascio estremamente innovativa che permetta una più veloce e flessibile diffusione dei dati secondo le reali necessità degli utenti esterni.
Tale strategia di diffusione comporta l'istituzione di una banca dati che possa essere interrogata on line così che gli utenti possano ottenere in tempo reale i dati aggregati di interesse. Ciò si è già verificato nel caso del Censimento intermedio dell'industria e dei servizi, indagine short-form, perché i dati raccolti erano relativi alle sole variabili pubbliche e non necessitavano quindi di alcun trattamento per la tutela della riservatezza delle imprese rispondenti.
La medesima strategia di diffusione nel caso in cui siano presenti sia dati pubblici che dati riservati comporta la soluzione di problemi statistici e computazionali estremamente complessi.