Da tempo si sente parlare di Open Access, Open Data, Open Science, intesi come stimolo per lo sviluppo della scienza, come strumento per l’individuazione della “bad science” e delle violazioni delle norme di comportamento in ambito scientifico, come esigenza di trasparenza e di integrità del sistema della Scienza e infine di accountability nei confronti della società. E’ anche noto quanto la questione degli Open Data sia da tempo cruciale per l’Agenda Digitale per l’Europa e nei processi innovativi dell’Area Europea della ricerca. Ma cosa sono i dati della ricerca di cui si parla in questi documenti? E l’Italia?

Ormai da tempo si sente parlare di Open Access, Open Data, Open Science, intesi come stimolo per lo sviluppo della scienza, come strumento per l’individuazione della “bad science” e delle violazioni delle norme di comportamento in ambito scientifico, come esigenza di trasparenza e di integrità del sistema della Scienza e infine di accountability nei confronti della società.

A sostegno dei discorsi sull’Open Science molti enti finanziatori della ricerca (e molti paesi europei) hanno creato un sistema di regole per la messa a disposizione di dati e lavori scientifici nel minor tempo possibile dopo la loro pubblicazione. Mentre però per le pubblicazioni scientifiche alle dichiarazioni di principio sono seguiti i fatti e le istituzioni (università ed enti di ricerca) hanno già predisposto strumenti (archivi) a livello locale e nazionale per la descrizione e disseminazione delle pubblicazioni scientifiche, esistono standard descrittivi che permettono l’interoperabilità fra gli archivi e portali che ne censiscono i contenuti, per quanto riguarda i dati della ricerca ancora molto deve essere fatto.

I ricercatori dei diversi ambiti scientifici producono nel workflow delle loro ricerche una enorme quantità di dati. Essi dovrebbero essere pubblicati con i lavori scientifici che ne derivano e insieme ai metadati che li descrivono, ne permettono il riutilizzo, la verifica e la comprensione. In sostanza insieme all’apparato per la validazione del rigore e della qualità della ricerca svolta. Alcuni dei più grandi editori di riviste scientifiche prevedono ormai da qualche anno la possibilità di un link reciproco fra repository di dati grezzi e pubblicazioni. Il problema per quanto riguarda la raccolta e conservazione dei dati in repository ad hoc è legato al fatto che la “coda lunga” è molto lunga. Al di là dei big data sono moltissimi i diversi set di dati prodotti e ciò rende difficoltoso ricondurli a standard descrittivi.

E’ noto quanto la questione degli Open Data sia da tempo cruciale per l’Agenda Digitale per l’Europa e nei processi innovativi dell’Area Europea della ricerca. Riferimenti importanti risultano essere il documento dell OECD del 2007 Principles and Guidelines per l’accessibilità ai dati relativi ai progetti di ricerca finanziati da fondi pubblici a livello nazionale e internazionale, i documenti della Commissione Europea ‘Towards better access to scientific information: Boosting the benefits of public investments in research’ (2012) e la ‘Commission Recommendation on access to and preservation of scientific information‘ (2012), che hanno fornito la base per il progetto pilota sugli Open Data lanciato nel programma HORIZON 2020.

Ma cosa sono i dati della ricerca di cui si parla in questi documenti?

Definizioni

Accogliamo qui alcune delle definizioni presenti nel lavoro Science as an open enterprise (Royal Society 2012)

Tipo di dati Definizione
Big data Data that requires massive computing power to process
Data Qualitative or quantitative statements or numbers that are (or assumed to be) factual. Data may be raw or primary data (eg direct from measurement), or derivative of primary data, but are not yet the product of analysis or interpretation other than calculation
Dataset A collection of factual information held in electronic form where all or most of the information has been collected for the purpose of provision of a service by the authority or carrying out of any other function of the authority. Datasets contain factual information which is not the product of analysis or interpretation other than calculation, is not an official statistic, and is unaltered and un-adapted since recording.
Linked Data Linked data is described by a unique identifier naming and locating it in order to facilitate ac­cess. It contains identifiers for other relevant data, allowing links to be made between data that would not otherwise be connected, increasing discoverability of related data.
Metadata Metadata “data about data”, contains information about a dataset. This may be state why and how it was generated, who created it and when. It may also be technical, describing its struc­ture, licensing terms, and standards it conforms to.
Open Data Open data is data that meets the criteria of intelligent openness. Data must be accessible, use­able, assessable and intelligible
Semantic data Data that are tagged with particular metadata – metadata that can be used to derive relationships between data.

Gli open data come definiti sopra devono avere caratteristiche specifiche di:

  • accessibilità – devono essere depositati in modo da poter essere facilmente trovati e utilizzati
  • comprensibilità – devono poter permettere un giudizio sulla loro robustezza e su quella della informazione che ne deriva. Devono dar conto dei risultati del lavoro scientifico a tutti coloro che desiderino capirli o analizzarli, e in questo senso devono essere differenziati a seconda dei diversi target.
  • Usabilità – devono essere esposti in un formato che ne permetta il riutilizzo anche per scopi differenti, devono quindi essere accompagnati dai metadati descrittivi e dalle informazioni sulla metodologia di raccolta ed eventualmente sugli strumenti utilizzati per l’elaborazione, e da informazioni sui diritti di utilizzo.

Horizon 2020 e il progetto pilota sugli Open Data

La Commissione Europea, che già per il Settimo programma Quadro aveva promosso un progetto pilota sull’Open Access alle pubblicazioni scientifiche, ha avviato per il programma in corso (Horizon 2020) già a partire dal 2014-15 un progetto pilota sugli Open Data, di cui vengono fornite le prime linee guida nei documenti Guidelines on Open Access to Scientific Publications and Research Data (2013) e Guidelines on Data Management in Horizon 2020 (2013). Il pilota corrisponde, per il 2014-15 a finanziamenti per circa 3 miliardi di Euro.

A further new element in Horizon 2020 is the use of Data Management Plans (DMPs) detailing what data the project will generate, whether and how it will be exploited or made accessible for verification and re-use, and how it will be curated and preserved. The use of a Data Management Plan is required for projects participating in the Open Research Data Pilot. Other projects are invited to submit a Data Management Plan if relevant for their planned research

Come per le pubblicazioni scientifiche, il pilota sugli Open data riguarda solo alcune aree tematiche:

  • Future and Emerging Technologies
  • Research infrastructures – part e-Infrastructures
  • Leadership in enabling and industrial technologies – Information and Communication Technologies
  • Societal Challenge: ‘Secure, Clean and Efficient Energy’ – part Smart cities and communities
  • Societal Challenge: ‘Climate Action, Environment, Resource Efficiency and Raw materials’ – except raw materials
  • Societal Challenge: ‘Europe in a changing world – inclusive, innovative and reflective Societies’
  • Science with and for Society

I progetti inclusi in queste aree devono comprendere nella fase di presentazione un Data Managment Plan (DMP) dettagliato, da aggiornarsi nel corso del progetto e da completare entro la fine dello stesso.

Tutte le proposte sottomesse alle azioni Research and innovation actions e Innovation actions includono una sezione sul research data management, valutata poi nell’ambito della parte di impatto.

I progetti dovranno contenere una parte di dettaglio su:

  • Quali dati saranno raccolti/generati?
  • Quali standard saranno utilizzati? Come verranno generati i metadati?
  • Come verranno sfruttati i dati e resi accessibili per la verifica e il riutilizzo? E nel caso non possano essere resi disponibili per quale motivo?
  • Come verranno curati e conservati I dati?

Nell’articolo 29.3 del modello di grant agreement troviamo le indicazioni per coloro che applicano all’interno delle aree del progetto pilota. Essi dovranno infatti depositare in repository dedicati (di natura disciplinare o istituzionale) i dati di ricerca comprensivi dei metadati descrittivi, affinché sia possibile validare i risultati presentati nelle pubblicazioni scientifiche il più presto possibile e in modo che terze parti possano accedervi, fare elaborazioni di text and data mining, sfruttarli, riprodurli e disseminarli.

Ci sono alcuni casi in cui è possibile una deroga (opt out). Si tratta di quelle situazioni in cui:

  •  La partecipazione al progetto pilota è incompatibile con l’obbligo della protezione dei risultati in quanto si prevede lo sfruttamento commerciale degli stessi.
  • La partecipazione al progetto pilota è incompatibile con le regole esistenti sulla protezione dei dati personali.
  • La partecipazione al progetto pilota potrebbe compromettere il raggiungimento dell’obiettivo primario del progetto.
  • Il progetto non prevede la generazione/raccolta di dati.
  • Esistono altre legittime motivazioni per non partecipare al progetto pilota.

Allo stesso modo è possibile partecipare su base volontaria al pilota sugli open research data per quelle aree che non sono previste dal pilota (opt in).

E l’Italia?

In Italia il tema degli open research data è ancora poco trattato. Ne troviamo traccia nella policy sull’open access della Fondazione Cariplo, ma ancora poco è stato fatto rispetto agli strumenti a supporto delle attività connesse:

come costruire un data management plan, come (e dove) archiviare i dati, come garantirne l’accessibilità e la conservazione.

Senza dubbio affrontare il tema della archiviazione e conservazione dei dati della ricerca come singola istituzione risulta poco sostenibile, si tratta dunque di un tema da affrontare in maniera consortile.

L’urgenza di occuparsi a livello istituzionale e nazionale di open access ai research data deriva da direttive molto generali e ora dal pilota sugli Open research data di H2020 che presupporrebbero la costruzione di una roadmap a livello nazionale o almeno a livello di gruppi di atenei, la definizione di policy istituzionali sulla gestione dei dati della ricerca, la costruzione e il mantenimento di repository ad hoc in grado di ospitare i diversi datasets. Si deve però anche tenere conto che a livello micro i singoli ricercatori, ai quali gli enti di finanziamento della ricerca chiedono e chiederanno in modo sempre più stringente la disponibilità dei dataset per l’accesso e l’eventuale riutilizzo, hanno bisogno di risposte e di supporto immediato ora. Esistono delle soluzioni a medio termine che vanno esplorate attentamente e che possono vedere coinvolti come contenitori dei dati della ricerca i repository attualmente attivi in molte istituzioni, così da poter supportare nell’immediato i ricercatori che applicano a bandi contenenti clausole che prevedono l‘inclusione di un data management plan. La strada è molto lunga, e come per l’open access alle pubblicazioni scientifiche il gap rispetto all’Europa è grande. Certamente un coordinamento a livello nazionale o di consorzi di atenei potrebbe essere un buon punto di partenza, ma anche l’utilizzo di modelli e procedure e esperienze già sviluppati presso altri paesi europei.

Send to Kindle

1 commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.