In questi tempi si parla molto di indicatori della qualità/quantità della ricerca, trascurando un tema che mi pare invece fondamentale e alla base di ogni tipo di analisi (qualitativa o quantitativa) credibile, quello dei dati. Una analisi credibile deve partire da dati affidabili, completi e verificabili. Ma dove stanno i dati della ricerca italiana? Chi li certifica? Che grado di completezza e copertura hanno? E soprattutto quanto sono accessibili?

Il sito docente del Ministero contiene solo una piccola parte della produzione scientifica italiana. La qualità dei dati presenti è scarsa perché il sistema è autoalimentato da docenti e ricercatori senza che nessuno verifichi la correttezza formale ma anche sostanziale dei dati inseriti.  La loro struttura risponde solo parzialmente a criteri di interoperabilità con gli standard più diffusi a livello europeo e internazionale. La copertura è frammentaria e legata alle richieste di finanziamento dei singoli e alla conferma dei collegi di dottorato.

L’incuria dei dati, così come la presenza lacunosa e spesso errata di identificativi come il DOI, non permettono il recupero degli indicatori bibliometrici (tanto è vero che nella procedura VQR saranno gli autori stessi a dover riconoscere la propria pubblicazione in Scopus o WOS per permettere il recupero delle citazioni). I dati del sito docente non sono pubblici come in altri sistemi della ricerca nazionali (NARCIS http://www.narcis.nl/ ad esempio), ma sono visibili solo ai docenti registrati (ciascuno vede solo i propri dati). Ottenere una estrazione dalla banca dati ministeriale implica una richiesta di autorizzazione al Ministero e una richiesta al Cineca che lo fa con tempi lunghi (quando lo fa) facendosi pagare l’estrazione di quegli stessi dati che ciascun docente ha inserito per conto proprio e che nessuno ha validato.

Per alcune aree e per analisi a livello macro è possibile attingere ai dati di Thomson Reuters (WOS), un soggetto commerciale il cui interesse risponde principalmente a logiche di mercato, non a quelle della correttezza e completezza. Anche queste informazioni non sono pubbliche, è possibile pagare un abbonamento per ottenere l’accesso alla banca dati (per la maggior parte dei nostri atenei è stato fatto in maniera consortile) o acquistare i dati grezzi per poi bonificarli e rielaborarli. Errori e lacune a parte, è certamente imbarazzante che un sistema nazionale della ricerca si faccia dire da Thomson Reuters che cosa hanno prodotto i suoi ricercatori.

A livello di strutture abbiamo un panorama molto variegato. Alcuni Atenei utilizzano il sistema UGov, che essendo commercializzato dallo stesso ente che gestisce il sito Docente non ha problemi di interfacciamento con il sito, semmai, ancora una volta, di qualità dei dati. Altre università utilizzano sistemi sviluppati in casa che spesso non colloquiano né con le banche dati interne né con quelle esterne. Spesso non sono raggiungibili o interrogabili dall’esterno, e non si interfacciano neppure con il sito docente. Altri atenei ancora utilizzano i repository istituzionali come anagrafi della ricerca. Sono questi i casi in cui più facilmente c’è attenzione alla qualità dei dati, alla loro validazione e alla loro certificazione, alla interoperabilità con gli altri sistemi nazionali o europei.

Con questo tipo di scenario, mancanza di linee guida nella gestione e trattamento dei dati, scarsa interoperabilità, molteplicità di sistemi in uso, difficoltà di accesso ai dati,  siamo abbastanza lontani dall’idea di una anagrafe nazionale che rispecchi la produzione scientifica del nostro Paese. Su questo scenario si inserisce l’ANPRePs, uno strumento che diventerà strategico per la valutazione di candidati e commissari della valutazione scientifica nazionale. Se da un lato i documenti dell’ANVUR riconoscono l’attuale scarsa qualità dei dati, dall’altro non si predispongono (per ora) gli strumenti per migliorarla né criteri minimi per cui i dati possono essere ritenuti accettabili: linee guida sulla raccolta e validazione dei dati a livello decentrato, la messa a disposizione centralizzata di authority files condivisi e disponibili con cui possano interfacciarsi  tutti i sistemi locali dotati di interoperabilità  (ad esempio per riviste e loro identificatori,  per le case editrici,settori ISI, ecc.), meccanismi di deduplicazione e di disambiguazione degli autori.

L’auspicio è che prima che l’ anagrafe nazionale prenda il via tutti questi strumenti possano essere previsti e ne venga richiesta l’implementazione sia a livello locale che centrale, anche sfruttando esperienze più avanzate già in atto presso alcune istituzioni.

 

Print Friendly, PDF & Email

8 Commenti

  1. Ringrazio Paola per l’interessante contributo. Un altro importante punto da chiarire sull’ANPRePs è la trasparenza. Saranno resi accessibili a tutti i dati (non aggregati) sui quali per ogni settore e ruolo saranno calcolate le mediane? Solo con la libera consultazione dei dati è possibile davvero rendere trasparenti le procedure.

  2. Concordo con Silvia. La possibilità di controllare è fondamentale. Nel precedente esercizio CIVR i dati disaggregati non sono mai stati resi disponibili per ricerca, come sempre in Italia, per il rispetto della privacy. Ma alcuni che erano nel civr li hanno usati per fare pubblicazioni…

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.