- Home
- /
- L’Istituto
- /
- Attività
- /
- Ricerca
- /
- Organizzazione
- /
- Ricerca metodologica
Ricerca metodologica
La ricerca metodologica condotta in Istat è finalizzata a individuare soluzioni statisticamente robuste e operativamente efficienti per il miglioramento della qualità (in tutte le sue dimensioni) delle statistiche ufficiali e la riduzione dei relativi costi di produzione.
In base a quanto delineato nel Piano triennale della ricerca tematica e metodologica 2022-25, nel prossimo triennio la ricerca metodologica sarà orientata a garantire la progressiva evoluzione del nuovo modello di produzione statistica basato sull’integrazione fra il Sistema integrato di registri statistici e il sistema delle indagini (censuarie e campionarie), con un ruolo sempre più importante delle nuove fonti di dati e con il supporto di nuove infrastrutture metodologiche (servizi statistici standardizzati e sistemi di documentazione dei dati e dei processi).
Aree prioritarie di ricerca metodologica (Piano triennale per la ricerca tematica e metodologica 2022)
Il Sistema Integrato dei Registri (SIR) è un’infrastruttura finalizzata a garantire la produzione di statistiche sempre più dettagliate e coerenti tra loro mediante l’uso congiunto di più fonti di dati. Il raggiungimento di tale obiettivo presuppone l’impiego di appropriati strumenti nel campo della ricerca metodologica, finalizzati alla piena valorizzazione del vasto patrimonio informativo a disposizione nell’Istituto attraverso un adeguato sfruttamento statistico. L’adozione evolutiva – nei processi di popolamento del sistema – di metodologie documentate e via via più efficaci nel miglioramento qualitativo dei dati prodotti sono una garanzia in tale contesto. Si osserva, inoltre, come quest’area di ricerca sia fortemente connessa a quella del Censimento Permanente della popolazione in quanto il SIR costituisce un support informativo irrinunciabile, basato su solide fondamenta statistico-metodologiche, del nuovo sistema di produzione annuale dei dati censuari.
Risultati attesi
- Metodologie di stima da modello (ad esempio Projection, Piccole Aree)
- Metodologie di trattamento degli errori non campionari e delle mancate risposte
- Metodologie per la valutazione e documentazione della qualità e stima dell’accuratezza
- Stimatori di sovra/sotto-copertura per assicurare la coerenza fra informazioni censuarie e da registro
- Metodologie per la diffusione delle informazioni (a livello micro o aggregato) nel rispetto dei vincoli di riservatezza (privacy by design)
- Metodologie per la valorizzazione della dimensione spaziale in dati multi-fonte
- Progettazione di disegni campionari con componenti Areale e da Lista (in particolare per i Censimenti permanenti)
- Progettazione di disegni campionari per garantire la coerenza delle statistiche della popolazione prodotte dal SIR (coerenza interna)
- Progettazione di disegni campionari per garantire la coerenza tra le statistiche del SIR e le altre statistiche prodotte dall’Istituto (coerenza esterna)
- Stima di variabili “congiunta” e coerente Censimenti permanenti – SIR
- Stima coerente Censimenti permanenti- indagini correnti
- Progettazione di disegni campionari per stima coerente stock-flussi
- Disegni campionari e metodologie di stima di fenomeni speciali (ad es. abitazioni e pendolarismo e popolazioni elusive e rare nel censimento permanente della popolazione)
- Metodologie per l’analisi longitudinale dei fenomeni, con riferimento sia agli aspetti definitori e procedurali connessi alla popolazione e all’implementazione dei relativi registri sia alla progettazione di disegni campionari di tipo panel
Il piano di attuazione dell’ESP 2021-2027 prevede la realizzazione di un’azione trasversale finalizzata allo sfruttamento dei vantaggi derivanti dalla cosiddetta “rivoluzione dei dati” vale a dire la valorizzazione, in un contesto in cui si dispone di una pluralità di fonti di dati, di nuove fonti di dati digitali, compresa la ricerca/sviluppo di nuove adeguate soluzioni metodologiche e architetturali per usare dati detenuti da privati4, per la produzione di nuove statistiche, denotate Trusted Smart Statistics (TSS). Il concetto di TSS implica trasformazioni sostanziali del paradigma tradizionale di produzione della statistica ufficiale, per adattarlo ad un nuovo contesto, in cui sia le fonti dei dati, sia le procedure di elaborazione possono essere esterne agli Istituti di statistica. Questa transizione, unita alla natura privata delle fonti di dati, può mettere in discussione il tradizionale sistema di fiducia alla base del modello di produzione delle statistiche ufficiali. Quindi, siccome i principi e gli obiettivi della statistica ufficiale rimangono gli stessi, è necessario un diverso insieme di strumenti tecnici, oltre che organizzativi e legali per garantire il rispetto dei principi del codice delle statistiche europee e, in generale, i requisiti di qualità del SSE.
Risultati attesi
- Dati da Sorgenti web
- tecniche di web-scraping generalizzato (cioè non dipendente dalla struttura dei siti Web)
- modelli di rappresentazione e di analisi di dati poco strutturati o non strutturati
- architetture di riferimento per sistemi nazionali, costruiti in sinergia con quelli europei
- tecniche di scraping ad-hoc e metodi per la deduplicazione di dati da web
- Dati da sensori
- Sperimentazioni volte a valutare il potenziale informativo delle immagini satellitari multispettrali ad alta risoluzione nei contesti delle statistiche territoriali, ambientali e
agricole - Studi e sperimentazioni volte a valutare il potenziale informativo dei dati di telefonia mobile
- Studi e sperimentazioni sulle Trusted Smart Surveys (TSSVY), compresa la eventuale realizzazione di indagini pilota
- Sperimentazioni volte a valutare il potenziale informativo delle immagini satellitari multispettrali ad alta risoluzione nei contesti delle statistiche territoriali, ambientali e
- Linee Guida per l’Elaborazione di Big Data nella Statistica ufficiale
- Sviluppo ed applicazione delle architetture di riferimento per i Big Data definite, a livello europeo, come Big Data Reference Architecture and Layers (BREAL)
- Studio e sperimentazione di metodi per la valutazione ed il miglioramento della qualità delle statistiche derivate da fonti Big Data
- Riduzione del rischio di distorsione delle statistiche derivate da Big Data, in particolare quello indotto dalla selettività (non-rappresentatività) delle fonti
L’Istituto svolge una consolidata attività di ricerca e innovazione nei tre diversi ambiti citati: metodi, metadati e qualità. Partecipa ai tavoli in cui i modelli GSIM, GSBPM e CSPA sono manutenuti e aggiornati e applica tali modelli nei prodotti di Istituto (dai sistemi informativi e documentativi, allo sviluppo di strumenti applicativi dei metodi, solo per citare alcuni aspetti rilevanti dal punto di vista metodologico). Tali standard sono alla base delle attività per l’aggiornamento del sistema dei metadati dell’Istituto, di documentazione delle indagini e del repository dei metodi e degli strumenti. La combinazione fra dati e metodi e la loro strutturazione in processi è il tassello fondamentale per rendere i metodi disponibili per ogni processo e ogni fase del processo (ampliando la disponibilità di metodi e quindi perseguendo l’obiettivo dell’accuratezza), tramite una identica definizione dei dati di input (che favorisce la coerenza e la confrontabilità, dando luogo a dati facilmente integrabili), lungo una evoluzione del processo di trasformazione dei dati universale (che aiuta a dettagliare il processo non solo a fini documentativi, ma con la descrizione di passi operativi che facilitano la chiarezza, o trasparenza, su come i dati sono stati ottenuti e ne consentono la replicabilità). Per tale motivo, si può dire che l’applicazione degli standard nei sistemi di Istituto è un’attività di produzione di servizi trasversali con forti connotati di ricerca (ad esempio sui modelli standard o sullo sviluppo di strumenti) e che facilitano l’attività di ricerca strettamente metodologica (legata alla individuazione di nuovi metodi di qualità, necessari nei processi tradizionali dove vi sono margini di miglioramento o, nel caso dell’uso di big data e delle TSS, dove ancora non sono totalmente disponibili).
Risultati attesi
- Definizione di modelli di metadati e ontologie, con l’obiettivo di poter definire dati a livelli diversi (ad esempio dati micro e dati macro) con gli stessi modelli e gli stessi concetti. Questa linea consente l’armonizzazione dei metadati fra processi diversi e, all’interno di uno stesso processo, fra fasi diverse del processo
- Individuazione di metodi e procedure standard utili a ogni fase in cui si sviluppa un processo di produzione statistica (realizzazione di linee guida)
- Realizzazione di sistemi di workflow (meta)data-driven, con l’obiettivo di consentire anche agli utenti esterni di poter ricreare gli output desiderati a partire dai dati messi a disposizione dall’Istituto [questo argomento è attualmente affrontato parzialmente nel progetto Register based Analytics Framework (RAF)]
- Realizzazione di servizi implementativi dei metodi e delle procedure standard, con l’obiettivo di rendere tali servizi coerenti con la logica CSPA
- Interazione con il Sistema dei metadati centrale di Istituto, al fine di rendere un processo statistico quanto più possibile documentato automaticamente, con un dettaglio di massima trasparenza
- Documentazione on-line dei metodi e degli strumenti correlati
- Evoluzione delle linee di produzione metodologiche tenendo conto del complesso di metodi e strumenti messi a disposizione
- Industrializzazione del processo, che consenta un più generalizzato uso dei metodi da parte di personale dedicato alla conduzione dei processi
Argomenti oggetto di ricerca
Gli argomenti oggetto di ricerca nell’ambito delle metodologie statistiche per l’Istituto, al fine di assicurare che il processo di produzione dei dati sia di massima qualità, sono state raggruppate in 8 macroaree. Per ognuna di esse, si elencano i prodotti di ricerca ottenuti.
L’area relativa alla standardizzazione dei metodi e degli strumenti fa riferimento alle pubblicazioni connotate da un focus su come i metodi e gli strumenti si innestano nel processo di produzione statistico guidandone l’esecuzione, sulla predisposizione di linee guida, manuali, fino a applicazioni anche di tipo sperimentale ma comunque utili a definire approcci standard almeno in via preliminare.
Attività svolta nel 2019-22 – Trovano quindi naturale collocazione quei lavori che derivano dalla partecipazione a reti di ricerca europee, come il Center of Excellence dedicato ai metodi di destagionalizzazione, ESSnet “Implementing Shared Statistical Services – I3S” e lavori che riguardano sistemi standard già sviluppati in Istituto o in fase di progettazione. Nella seconda area sono elencati lavori che sono correlati con il Sistema Integrato dei Registri – SIR.
Questo settore comprende lavori provenienti che riguardano sia il settore metodologico “Disegno dei processi statistici” che il settore metodologico “Metodi per la raccolta dei dati”.
Attività svolta nel 2019-22 – Uno dei lavori è il prodotto di una attività di Cooperazione internazionale e riguarda la riprogettazione delle più importanti indagini sociali nell’istituto statistico moldavo. Gli altri lavori riguardano indagini ISTAT, focalizzandosi in un caso sull’analisi dell’impatto sulla qualità della modalità mixed-mode di raccolta dati, in un’altra sui metodi per migliorare il questionario su tematiche delicate come le preferenze sessuali, coinvolgendo gli esponenti della comunità LGTBQ. Infine, l’ultimo lavoro analizza le innovazioni metodologiche e di processo avviate dall’ISTAT per garantire la puntuale e corretta produzione statistica anche durante l’esplodere della pandemia.
Questa area accoglie i lavori metodologici che si basano sull’uso integrato di più fonti di dati. Vi rientrano i lavori relativi al record linkage e allo statistical matching.
Attività svolta nel 2019-22 – Tutti i lavori appartenenti a questo settore metodologico sono pubblicazioni su riviste, eccetto un lavoro presentato ad una conferenza. Tali lavori afferiscono principalmente all’area prioritaria di ricerca dei “Censimenti e delle indagini standard”. Tre pubblicazioni rientrano nell’area dei Registri e SIR. Due pubblicazioni rientrano nell’area dei Metodi e Servizi Standard. Per l’area Big Data e TSS è presente un solo lavoro, ovvero una pubblicazione nell’ambito del Record Linkage. Infine, sono presenti due lavori per i quali non è specificata un’area prioritaria. Entrambi affrontano temi relativi allo statistical matching.
Questo macro-settore raggruppa i settori metodologici: “Metodi di campionamento” e “Stimatori e inferenza” e “Trattamento delle mancate risposte totali e calcolo dei pesi”.
Attività svolta nel 2019-22 – In tali ambiti le attività condotte dalla DCME sono svolte sia in ambito di ricerca sia in ambito di applicazione delle metodologie ai processi statistici, alle indagini e all’analisi dei dati. I lavori prodotti riguardano la progettazione di strategie campionarie, la produzione di stime e studi per ottenere stime in modo più efficiente, la valutazione dell’accuratezza delle stime prodotte (in termini di varianza, distorsione, effetto dovuto alle tecniche miste di rilevazione), lo studio e la produzione di stime per piccole aree e più in generale l’analisi dei dati mediante stimatori, indicatori e metodi complessi.
I campi di applicazione riguardano alcune indagini campionarie Istat e il Censimento della popolazione (per quanto riguarda le stime di conteggio della popolazione e il confronto con il Registro), oltre alla produzione di indicatori complessi (indici di disuguaglianza, di correlazione) per ambiti molto diversificati.
Molti lavori scientifici riferiti a questo settore sono stati pubblicati su riviste e/o volumi, altri sono lavori presentati a convegni, mentre per una parte si tratta di note metodologiche o report di progetti. Sono presenti due pacchetti R per la produzione di stime per piccole aree e per l’allocazione multivariata per disegni campionari complessi.
Il presente paragrafo raccoglie i lavori scientifici che trattano, in generale, i problemi dovuti alla presenza di errori non campionari.
Attività svolta nel 2019-22 – I contributi relativi a questo settore sono essenzialmente documenti presentati in occasione di convegni e seminari, deliverable di gruppi di lavoro o pubblicazioni su riviste da cui emerge l’orientamento dell’Istat di affiancare tecniche innovative, per l’editing e l’imputazione dei dati, ai metodi statistici standard. Si sta sperimentando, infatti, l’adozione di procedure di Machine Learning (ML) e alcuni lavori sono stati realizzati per analizzare come e dove metodi di questo tipo possono dare maggiori benefici rispetto a quelli standard, nella risoluzione dei problemi di imputazione.
L’utilizzo del Machine Learning è stato oggetto di studio di un gruppo di lavoro europeo coordinato da UNECE (progetto UNECE HLG-MOS Machine Learning) che ha visto la collaborazione di vari Istituti di Statistica.
Tra i contributi raccolti uno fornisce la descrizione del “Generic Statistical Data Editing Model” (GSDEM) dell’UNECE.
Sono presenti, inoltre, altri lavori che riguardano il processo di controllo e correzione del Censimento Permanente, lo schema di validazione dei dati di due indagini campionarie e la procedura di imputazione del “titolo di studio conseguito” nel Registro base degli individui.
Il settore metodologico degli Indicatori complessi comprende una vasta gamma di attività statistiche quali gli indicatori o indici compositi, i tassi, la destagionalizzazione dei dati, ecc.
Attività svolta nel 2019-22 – La maggior parte dei lavori scientifici afferenti a questo settore, relativamente al periodo temporale considerato in questo report, sono stati pubblicati su rivista e/o volume e per un’ulteriore quota trattasi di lavori presentati a convegni. Nel periodo in esame, i lavori scientifici hanno in prevalenza riguardato la tematica degli indicatori compositi e/o sintetici. L’Istat vanta in questo ambito una ben nota esperienza, quali gli indici compositi del BES (Benessere Equo e Sostenibile); la DCME ha proseguito nel tempo gli studi relativamente agli indicatori compositi. I lavori in questione hanno riguardato sia aspetti teorici, quali ad esempio l’uso della ponderazione e della normalizzazione nel calcolo degli indicatori compositi sia la diffusione di specifici indici sintetici quali ad esempio quelli della competenza linguistica degli immigrati in Italia e quelli relativi alle popolazioni con disabilità. Di seguito sono elencati i lavori afferenti al settore metodologico Indicatori complessi (indici, tassi, dati destagionalizzati, ecc.).
Il gruppo dei lavori raccolti in questo paragrafo riguarda i settori metodologici “Metodi per la qualità dei dati e dei prodotti”, “Metodi per la gestione e modelli di metadati” e “metodi per la tutela della riservatezza”.
Attività svolta nel 2019-22 – I contributi in materia di qualità trattano diversi temi: un sistema standardizzato di misurazione degli oneri di risposta sulle imprese, la definizione dell’errore totale di un processo statistico complesso con l’obiettivo di indirizzarne la progettazione e il monitoraggio (aree prioritarie: “Censimenti e integrazione con le indagini”, “Registri e SIR”), strategie di editing selettivo basate su foreste casuali (area prioritaria: “Metodi e Servizi standard”), l’adozione di una procedura per la valutazione dei processi statistici differenziata in base alle rispettive tipologie (aree prioritarie: “Registri e SIR”, “Big Data e TSS”), l’output del WP2 ‘Quality’ per il progetto UNECE HLG-MOS sul Machine Learning.
In riferimento ai metadati, due contributi riguardano progetti dell’Istituto: la definizione dei requisiti e dell’architettura informativa del sistema MetaStat (area prioritaria: “Metodi e Servizi standard”) e la definizione dei requisiti e del modello concettuale per i metadati di gestione dei nodi informativi del Register based Analytics Framework (aree prioritarie: “Metodi e Servizi standard” e “Registri e SIR”); gli altri due lavori in tema di qualità afferiscono all’area di ricerca prioritaria “Metodi e Servizi standard” e ripercorrono il processo di armonizzazione avviato nel 2016 e i problemi aperti nel ridisegno dei sistemi SIDI/SIQual alla luce dei modelli GSBPM e GSIM. I lavori nel campo della riservatezza sono relativi alla protezione degli output (area prioritaria: “Metodi e Servizi standard”) e, affrontando la protezione delle tabelle del frame SBS e la microaggregazione dei registri a fini di diffusione, sono direttamente o indirettamente legati alle tematiche RAF.
L’area Diffusione include lavori e pubblicazioni relative alle Analisi e documentazione dei dati e delle statistiche prodotte, alla Diffusione e promozione della cultura statistica e agli Strumenti e servizi di diffusione dei dati – open data, accesso remoto, rappresentazione grafica dei dati, …) .
Attività svolta nel 2019-22 – L’area prioritaria di ricerca per i lavori di questo gruppo, ove indicata, è “Registri e SIR”. Il maggior numero di contributi concerne il settore metodologico “Analisi e documentazione dei dati e delle statistiche prodotte”. In questo campo, due deliverable riguardano la definizione delle ipotesi di progettazione concettuale e di architettura informativa per il nuovo Data Warehouse e, rispettivamente, la modellazione concettuale e analisi delle esigenze informative per il nodo macro RAF relativo alle Imprese e alle unità locali. Gli altri lavori di analisi e documentazione sono accomunati dalla rilevanza degli aspetti territoriali, con particolare riguardo alle fonti di dati utili a monitorare il PNRR, alla mobilità giornaliera, all’individuazione delle determinanti della sharing mobility, alla profilazione degli studenti universitari in base alla distanza tra luogo di residenza e luogo di studio, ai differenziali territoriali di benessere per gruppi di individui con specifiche caratteristiche demografiche, alla progettazione di un sistema informativo basato su dati amministrativi, circa la popolazione che insiste sul territorio per studio e lavoro. Quest’ultimo tema viene ripreso, a proposito della diffusione e promozione della cultura statistica, dall’aggiornamento al 2018 dei dati relativi alla Statistica sperimentale “Popolazione insistente per studio e lavoro”; ad esso si aggiunge – a proposito di della qualità della vita – un’investigazione del legame tra benessere e abitudini alimentari condotta con gli strumenti della dynamic factor analysis. Infine, il deliverable prodotto nell’ambito del progetto INTERSTAT, relativo allo stato dell’arte della produzione di Linked Open Data nella statistica ufficiale a livello europeo, offre un contributo in materia di strumenti e servizi di diffusione dei dati.
I lavori di questo macro-settore afferiscono prevalentemente all’area prioritaria “Big Data e TSS”. Infatti, questo gruppo di lavori sono accomunati dalla caratteristica di presentare attività di ricerca e innovazione in cui fonti tradizionali e non tradizionali di dati vengono utilizzate per la produzione di informazione statistica, sia a supporto di processi di produzione “tradizionali” sia in pipeline di processo a carattere più innovativo. Essendo prevalente il numero di lavori relativi al processo tradizionale, con l’esclusione di alcuni lavori classificati come “Data Science”, elencati di seguito, i lavori raccolti in questa sezione sono stati (sotto)classificati anche in termini di settore metodologico.
Attività svolta nel 2019-22 – Per quanto riguarda la tipologia dei lavori, due di essi sono sistemi applicativi con forte connotazione metodologica: una è Cosmopolitics, realizzata per lo European Big Data Hackathon 2021; l’altra, Private Set Intersection with Analytics, realizzata nell’ambito di un progetto che ha coinvolto Istat e Banca d’Italia. Due lavori appartenenti al settore metodologico degli Indicatori Complessi sono presenti, rispettivamente, tra gli atti di convegno della 13^ e della 14^ Conferenza Nazionale di Statistica. Molti dei lavori sono deliverable di gruppi di lavoro o di progetti di ricerca. Tra questi sottolineiamo i deliverable relativi ai progetti europei: ESSnet Big Data I; ESSnet Big Data II; Makswell.