R Evolved Generalised Software for Sampling Estimates and Errors in Surveys

Download del software

A. Requisiti software

Il package ReGenesees richiede l'installazione di R versione 2.14.0 (o superiore).

Il package ReGenesees.GUI richiede l'installazione di R versione 2.14.0 (o superiore) e dei package ReGenesees, tcltk, tcltk2, RODBC e svMisc.

B. Download

Per poter effettuare il download occorre compilare un brevissimo questionario identificativo. L'unico scopo della notifica è tenere traccia delle persone interessate al sistema ReGenesees in modo da poterle informare dei nuovi sviluppi del progetto.

Package ReGenesees (funzionalità statistiche del sistema)


Package ReGenesees.GUI (interfaccia grafica del sistema)


Installazione e caricamento di un package R

Istruzioni per sistemi Windows

  1. Salvare il file NomePackage_(versione).zip in una directory arbitraria
  2. Lanciare una sessione interattiva R e selezionare, dal menu "Pacchetti", l'opzione "Installa pacchetti da file zip locali…"
  3. R richiederà di indicare la directory in cui risiede il file NomePackage_(versione).zip e di selezionare il file
  4. Caricare il package NomePackage digitando l'istruzione library(NomePackage) oppure require(NomePackage). In alternativa è possibile selezionare, dal menu "Pacchetti", l'opzione "Carica pacchetto…" e scegliere NomePackage dal menu a tendina


Istruzioni per sistemi Unix-like

  1. Salvare il file NomePackage_(versione).tar.gz in una directory arbitraria
  2. Posizionarsi nella directory che contiene il file NomePackage_(versione).tar.gz e digitare dal prompt di shell l'istruzione:
    R CMD INSTALL NomePackage_(versione).tar.gz
  3. Lanciare una sessione R e caricare il package NomePackage digitando l'istruzione library(NomePackage) oppure require(NomePackage)

Per ulteriori informazioni è possibile consultare il capitolo 6 "Add-on packges" del manuale "R Installation and Administration".

Informazioni generali sul software

Che cos'è ReGenesees

ReGenesees (R evolved Generalised software for sampling estimates and errors in surveys) è un sistema software basato su R per l'analisi design-based e model-assisted di indagini campionarie complesse.
Il nome del sistema intende enfatizzare la continuità dell'offerta di strumenti Istat per la calibrazione ed il calcolo delle stime e degli errori (di qui il richiamo a GENESEES), sottolineando - al contempo - l'evoluzione e l'arricchimento di tale offerta attraverso R.
Occorre, tuttavia, precisare come ReGenesees non sia il risultato di una semplice migrazione di GENESEES da SAS a R, bensì il frutto di un progetto nuovo e completamente indipendente. ReGenesees risponde, infatti, ad un radicale cambiamento di logica applicativa che, oltre a consentire un più agevole e sicuro utilizzo del software, garantisce un notevole ampliamento della scelta di stimatori rispetto ai quali calcolare le stime e gli errori campionari.


Principali Funzionalità Statistiche del Sistema

  • Disegni di campionamento complessi
  • Disegni a più stadi, stratificati, a cluster
  • Probabilità di inclusione variabili, con o senza reintroduzione
  • Disegni di campionamento "misti" (strati AR e NAR)
  • Calibrazione
  • Globale e/o per partizioni (per modelli fattorizzabili)
  • A livello di unità e/o di cluster
  • modelli omo-schedastici e/o etero-schedastici
  • Stimatori
  • Horvitz-Thompson
  • Calibration Estimators
  • Stima della varianza campionaria
  • Formulazione multistadio (algoritmo ricorsivo di Bellhouse)
  • Ultimate-Cluster approximation
  • GENESEES-like per disegni "misti"
  • Linearizzazione di Taylor per stimatori nonlineari "smooth"
  • Tecnica di collassamento degli strati per la gestione delle lonely PSU
  • Stime ed errori campionari (errore standard, varianza, coefficiente di variazione, intervallo di confidenza, design effect) per:
  • Totali
  • Medie
  • Distribuzioni di frequenza assoluta e/o relativa (marginali, condizionate e congiunte)
  • Rapporti fra totali
  • Coefficienti di regressione multipla
  • Quantili (stima della varianza con il metodo di Woodruff)
  • Stime ed errori campionari per Stimatori Complessi
  • Funzioni differenziabili arbitrarie di stimatori di Horvitz-Thompson o di Calibrazione
  • Definibili liberamente dall'utente
  • Linearizzazione di Taylor automatica
  • Covarianza e correlazione fra stimatori complessi
  • Stime ed errori campionari per sottopopolazioni

Architettura del Sistema

Il sistema ReGenesees è interamente sviluppato in codice R e può essere utilizzato sia in ambiente Windows che nella maggior parte degli ambienti Unix-like.

L'architettura del sistema si articola su due package R integrati:

  • package ReGenesees: implementa lo strato applicativo del sistema, cioè tutte le funzionalità statistiche che il sistema rende disponibili all'utente
  • package ReGenesees.GUI: implementa lo strato di presentazione del sistema, cioè un'interfaccia utente di tipo grafico basata su Tcl/Tk

Deve essere sottolineato che il package ReGenesees può essere utilizzato anche da solo, interagendo con R nel modo tradizionale, cioè da linea di comando. Questa opzione potrebbe rivelarsi necessaria in specifici contesti applicativi (le simulazioni sono un tipico esempio) o apparire comunque preferibile ad utenti esperti del sistema R.
Al contrario, il package ReGenesees.GUI richiede il package ReGenesees (si veda la sezione Download), e lo importa automaticamente all'atto del caricamento. La GUI è stata progettata e realizzata con l'intento di rendere quanto più possibile amichevole e semplice l'interazione con il sistema ReGenesees anche ad utenti che non siano esperti di R, né di teoria del campionamento da popolazioni finite.

Input/Output

ReGenesees consente di importare ed esportare dati in diversi modi. E', ad esempio, possibile importare dati da file di testo (con estensioni quali .txt, .csv, .dat), da fogli di MS Excel e da tabelle di database MS Access. Il sistema può, inoltre, importare dati precedentemente memorizzati in workspace R (con estensioni .RData o .rda). Ad oggi, ReGenesees consente di esportare i risultati delle elaborazioni in file di testo o di salvarli in workspace R. Estensioni sulle funzionalità di I/O, ad esempio l'esportazione di dataset multipli come fogli separati di un singolo file .xls, saranno rese disponibili nelle future versioni del software.

Stato di Avanzamento del Progetto

La corrente versione di ReGenesees è la 1.5

Documentazione del Software

Entrambi i package che compongono il sistema (ReGenesees e ReGenesees.GUI) sono dotati di manuali di riferimento che rispettano integralmente gli standard R. Il manuale del package ReGenesees, in particolare, documenta tutte le funzionalità statistiche del software, fornendo anche una vasta gamma di esempi e casi d'uso direttamente eseguibili sui dati di prova di cui il package è corredato.
Una guida utente all'uso del sistema ReGenesees, di natura meno tecnica, è in corso di preparazione e sarà resa disponibile appena possibile.

Distribuzione del Software e Licenza

Il sistema ReGenesees è distribuito come Open Source Software, sotto licenza EUPL.

Autori

Responsabile del progetto: Diego Zardetto
Funzionalità statistiche (package ReGenesees): Diego Zardetto
Interfaccia grafica (package ReGenesees.GUI): Raffaella Cianchetta, Diego Zardetto

Documentazione

  • Woodruff, R. S. - (1952)
    "Confidence Intervals for Medians and Other Position Measures"
    Journal of the American Statistical Association,
    Vol. 47, n. 260, pp. 635-646.
  • Woodruff, R. S. - (1971)
    "A Simple Method for Approximating the Variance of a Complicated Estimate"
    Journal of the American Statistical Association,
    Vol. 66, n. 334, pp. 411-414.
  • Wilkinson, G.N., Rogers, C.E. - (1973)
    "Symbolic Description of Factorial Models for Analysis of Variance"
    Journal of the Royal Statistical Society, series C (Applied Statistics),
    Vol. 22, pp. 181-191.
  • Kalton, G. - (1979)
    "Ultimate cluster sampling"
    Journal of the Royal Statistical Society,
    series A (General), Vol. 142, Part 2, pp. 210-222.
  • Binder, D. A. - (1983)
    "On the variances of asymptotically normal estimators from complex surveys"
    International Statistical Review,
    51, pp. 279-292.
  • Wolter, K. M. - (1985)
    "Introduction to Variance Estimation"
    Springer-Verlag, New York.
  • Rust, K. - (1985)
    "Variance Estimation for Complex Estimators in Sample Surveys"
    Journal of Official Statistics,
    1, pp. 381-397.
  • Bellhouse, DR. - (1985)
    "Computing Methods for Variance Estimation in Complex Surveys"
    Journal of Official Statistics,
    Vol.1, No.3, pp. 323-329.
  • Rust, K., Kalton, G. - (1987)
    "Strategies for Collapsing Strata for Variance Estimation"
    Journal of Official Statistics,
    Vol. 3, No. 1, pp. 69-81.
  • Särndal, C.E., Swensson, B., Wretman, J. - (1992)
    "Model Assisted Survey Sampling"
    Springer Verlag.
  • Deville, J.C., Särndal, C.E. - (1992)
    "Calibration Estimators in Survey Sampling"
    Journal of the American Statistical Association,
    Vol. 87, No. 418, pp. 376-382.
  • Deville, J.C., Särndal, C.E., Sautory, O. - (1993)
    "Generalized Raking Procedures in Survey Sampling"
    Journal of the American Statistical Association,
    Vol. 88, No. 423, pp.1013-1020.
  • Sautory, O. - (1993)
    "La macro CALMAR: Redressement d'un Echantillon par Calage sur Marges"
    Document de travail de la Direction des Statistiques Demographiques et Sociales,
    no. F9310.
  • Dorfman, A., Valliant, R. - (1993)
    "Quantile variance estimators in complex surveys"
    Proceedings of the ASA Survey Research Methods Section,
    pp. 866-871.
  • Kish, L. - (1995)
    "Methods for design effects"
    Journal of Official Statistics,
    Vol. 11, pp. 55-77.
  • Estevao, V., Hidiroglou, M. A., Särndal, C. E - (1995)
    "Methodological principles for a generalized estimation system at Statistics Canada"
    Journal of Official Statistics,
    11, n.2, pp. 181-204.
  • Singh, A.C., Mohl, C.A. - (1996)
    "Understanding calibration estimators in survey sampling"
    Survey Methodology,
    22, pp. 107-115.
  • Rao, J. N. K., Lohr, S. L. - (1999)
    "Some Current Trends in Sample Survey Theory and Methods"
    Sankhya: The Indian Journal of Statistics, Special issue on Sample Surverys,
    Volume 61, Series B, Pt. 1, pp. 1-57.
  • Valliant, R. - (2000)
    "Variance estimation for the general regression estimator"
    Survey Methodology,
    28, pp. 103-114.
  • Fuller, W.A. - (2002)
    "Regression estimation for survey samples"
    Survey Methodology,
    28, pp. 5-23.
  • Rao, J. N. K., Lohr, S. L. - (2004)
    "Sample Survey Methods: Recent Developments and Applications"
    two-day workshop slides, Joint Statistical Meetings, Toronto.

Contatti

Referenti presso l'Istat:

Unità Operativa DIQR/MSS/G
"Strumenti generalizzati per la produzione statistica"
Diego Zardetto - zardetto@istat.it