Negli atenei si torna a parlare del sistema CRUI-UniBas, un “sistema di supporto alla valutazione della produzione scientifica degli Atenei”. Di cosa si tratta? Di un sistema a pagamento per la valutazione della ricerca delle università che consentirebbe di eseguire procedure sul Modello dell’ASN, di FFABR e della VQR 2011-2014, in cui “Per poter effettuare valutazioni automatizzate su larga scala, i criteri della VQR vengono complementati con regole opportune per eliminare la necessità di effettuare interventi di peer-review”. L’iniziativa della CRUI risale all’anno scorso. Quale il bilancio degli atenei (non tutti, per fortuna) che hanno sborsato i soldi? Ben scarso. Come testimoniato dalle richieste di inserire correzioni inviate ai docenti degli atenei, fino alla scorsa primavera gli errori e l’incompletezza della base dati hanno reso inutilizzabili le eventuali “fotografie” che fossero state scattate. Da maggio, il sistema è stato bloccato al fine di adeguarlo alle nuove norme del GDPR (General Data Protection Regulation). Un bel flop, insomma. Adesso, si sostiene che il sistema sarebbe diventato conforme al GDPR, in virtù della cosiddetta “privacy by design”. Vero? Falso? Chi lo sa? A parte i soldi già buttati e le questioni legali, restano diverse domande che gli organi di governo degli atenei farebbero bene a porsi.

1. Perché spendere dei soldi per farsi calcolare degli indicatori scientificamente errati? (“Refrain from adopting the combination of citation and journal metrics to grade publications, as used in the Italian national research assessment exercise (VQR 2011–2014)” è il titolo di un articolo apparso in Scientometrics, una delle più note riviste che si occupano di bibliometria).

2. Perché usare valutazioni individuali automatizzate? Sull’inopportunità e i pericoli di un uso automatizzato di indicatori bibliometrici nelle valutazioni individuali dei ricercatori e dei singoli lavori scientifici c’è un consenso pressoché universale, testimoniato da diverse dichiarazioni sottoscritte da autorevoli organismi internazionali. Fanno testimonianza i riferimenti citati nella lettera aperta firmata da 175 docenti dell’Università di Pavia che alleghiamo a questo post.

3. Chi ha avuto e chi avrà accesso ai risultati delle interrogazioni? Ha senso che nel cassetto (di chi?) ci siano le pagelle di tutti o docenti di un ateneo, ottenute con una metodologia scientificamente dubbia e il cui uso individuale è sconsigliato dalla stessa agenzia di valutazione? Secondo Anvur, infatti, “Non è dunque appropriato utilizzare i punteggi VQR come strumento per stabilire, tramite confronto diretto, se un gruppo di ricercatori di un’area o di un settore ha prodotto una ricerca migliore di un altro.” Un problema non piccolo sono le “pagelle” attribuite con criteri automatici ai docenti dei settori “non bibliometrici” in cui la stessa agenzia ritiene indispensabile che la VQR sia condotta tramite peer review.

4. Quale uso è stato fatto e si intende fare delle valutazioni prodotte da CRUI-UniBas? È possibile pensare di prendere decisioni di qualche rilevanza pratica per i singoli, per i gruppi di ricerca e per i dipartimenti sulla base dei risultati prodotti da una “scatola nera”, senza possibilità di verifica sul suo corretto funzionamento?

5. Può il sistema CRUI-UniBas aiutare a migliorare la futura VQR 2015-2019? Ne dubitiamo. Innanzi tutto, non c’è alcuna certezza che verranno usati gli stessi indicatori della VQR 2011-2014 che, infatti, differivano a loro volta da quelli della VQR 2004-2010. Persino se gli indicatori non cambiassero, non c’è più tempo per utilizzare i risultati di CRUi-UniBas per apportare eventuali correttivi dato che rimane circa solo un anno (il 2019) per pubblicare lavori che verranno valutati nella prossima VQR e, per di più, questi lavori più recenti sono quelli destinati alla peer review perché la finestra temporale è insufficiente a raccogliere dati citazionali affidabili.

In conclusione si può davvero dire: il sistema CRUI-UniBas? Se lo conosci, lo eviti. Se lo eviti non ti fa buttare soldi dalla finestra.

Per approfondire:

______________

 

Riportiamo di seguito il testo della lettera aperta inviata il 12 aprile 2018 al Prorettore alla Ricerca e al Governo dell’Università di Pavia relativo all’adozione del sistema a pagamento per la valutazione della ricerca delle università, denominato CRUI-UniBas. I nominativi di 172 firmatari (su 175 totali) sono riportati sul sito del Circolo Universitario Giorgio Errera:

http://www.circoloerreraunipv.it/wordpress/?p=1207#more-1207

 

Testo della lettera aperta

Nel suo messaggio del 12 settembre scorso, il Prorettore alla Ricerca, Roberto Bottinelli, ci ha informato che l’Università di Pavia ha aderito a un’iniziativa della Conferenza dei Rettori delle Università Italiane: un sistema a pagamento per la valutazione della ricerca delle università, denominato CRUI-UniBas, che consentirebbe di eseguire procedure basate sul Modello della VQR 2011-2014 e sul Modello dell’ASN. Riguardo alle prime, è stato spiegato che “Per poter effettuare valutazioni automatizzate su larga scala, i criteri della VQR vengono complementati con regole opportune per eliminare la necessità di effettuare interventi di peer-review”.

Non possiamo fare a meno di manifestare la nostra contrarietà alla partecipazione del nostro ateneo a questa iniziativa, a cui, da quanto scritto, hanno aderito solo circa la metà degli atenei italiani. Vi sono tre ragioni che giustificano la nostra contrarietà.

In primo luogo, il ricorso a valutazioni individuali automatizzate non rientra tra le buone pratiche accettate dalla comunità scientifica internazionale. Sull’inopportunità e i pericoli di un uso automatizzato di indicatori bibliometrici nelle valutazioni individuali dei ricercatori e dei singoli lavori scientifici c’è un consenso pressoché universale, testimoniato da diverse dichiarazioni sottoscritte da autorevoli organismi internazionali, tra cui:

Già nel 2011, l’HEFCE, l’agenzia di valutazione inglese, aveva respinto il ricorso a “valutazioni automatizzate su larga scala”:

Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF

Report on the pilot exercise to develop bibliometric indicators for the Research Excellence Framework, HEFCE 2009.

Una posizione confermata nel 2015 con il supporto di uno studio commissionato ad una commissione di esperti indipendenti, il secondo il quale

“Analysis concluded that no metric can currently provide a like-for-like replacement for REF peer review”

“In assessing research outputs in the REF, it is not currently feasible to assess research outputs or impacts in the REF using quantitative indicators alone”

Metric Tide: Report of the Independent Review of the Role of Metrics in Research Assessment and Management, HEFCE 2015.

In secondo luogo, entrambi i modelli di valutazione che ci vengono proposti sono stati oggetto di critiche specifiche che ne sottolineano la mancanza di scientificità, se non addirittura la nocività per la scienza italiana.

Per quanto riguarda il “modello ASN”, basterà ricordare la recentissima lettera che tre premi Nobel per la Fisica e altri otto eminenti scienziati hanno indirizzato alla Ministra Fedeli. La lettera chiede alla Ministra di correggere il “cieco algoritmo valutativo” dell’ASN che, in assenza di modifiche, potrebbe mettere in pericolo quella che ci viene riconosciuta come una “grande tradizione scientifica”:

“LISA Pathfinder was led by an Italian scientific team whose members, we understand, would not qualify any more for their current positions, and actually for any permanent position in Italian universities, according to the recently revised Italian regulations. We understand that this paradoxical situation originates from a blind evaluation algorithm. […] We are confident that you, your Honor, in your wisdom, will find ways to correct such an automatic mechanism that, if unchanged, may endanger this great scientific tradition”

Lettera alla ministra Valeria Fedeli, firmata dai Nobel per la Fisica T. Kajita, K.S. Thorne, R. Weiss, e da altri otto scienziati, 2017

 

Non meno controverso è il “modello VQR”, la cui adeguatezza e rigore scientifico sono stati messi in dubbio nella letteratura scientifica internazionale. Un primo articolo ne sconsiglia l’uso, già a partire dal titolo:

  1. Abramo e C.A. D’Angelo, Refrain from adopting the combination of citation and journal metrics to grade publications, as used in the Italian VQR 2011–2014, Scientometrics 2016

Altrettanto esplicito il giudizio di un secondo articolo scientifico, secondo il quale

“… the bibliometric evaluation process of the VQR 2011–2014 contains too many questionable operations. Also, even if (erroneously) deciding to combine Ci [citations] and Ji [journal metrics], we believe that this could be done avoiding dubious transformations/normalizations that alter the scales of the initial data.”

“In light of the arguments gathered and developed in this paper, we are doubtful whether the whole procedure – once completed thanks to the participation of tens of thousands of individuals, including evaluation experts, researchers, administrative staff, government agencies, etc. – will lead to the desired results, i.e., providing reliable information to rank universities and other research institutions, depending on the quality of their research. We understand the importance of national research assessment exercises for guiding strategic decisions, however, we believe that the VQR 2011–2014 has too many vulnerabilities that make it unsound and often controversial.”

D.A.F. Maisano e F. Franceschini, Critical remarks on the Italian research assessment exercise VQR 2011-2014, Journal of Informetrics 2017.

Una terza ragione di perplessità deriva dal fatto che persino l’Agenzia nazionale di valutazione, che pure ha contribuito a mettere a punto questi “modelli”, ne sconsiglia l’uso non solo per le comparazioni tra diversi settori scientifico-disciplinari, ma anche per le valutazioni individuali:

 

“Non è dunque appropriato utilizzare i punteggi VQR come strumento per stabilire, tramite confronto diretto, se un gruppo di ricercatori di un’area o di un settore ha prodotto una ricerca migliore di un altro.”

L’indicatore standardizzato di performance dipartimentale (ISPD)Risposta al Comunicato CUN del 18 luglio 2017, ANVUR 2017.

“L’elaborazione di tale indicatore [Indicatore di produzione scientifica FFABR: uno degli indicatori che il sistema Crui-UniBas intende replicare] non va confusa con la valutazione della qualità dei risultati scientifici, che non può prescindere dal coinvolgimento di comitati di esperti rappresentativi delle diverse componenti culturali della comunità scientifica di riferimento. Una valutazione di contesto, completamente automatizzata, inoltre, non deve in nessun caso essere sostitutiva dell’esame di tutta l’esperienza dei candidati in occasione di valutazioni comparative ai fini del reclutamento e della progressione di carriera. […] L’indicatore è costruito con riferimento ad uno specifico SSD e non deve essere utilizzato per confronti diretti tra SSD diversi”

L’indicatore di produzione scientifica FFABR: presentazione sintetica della procedura adottata, ANVUR 2017.

 

Alla luce di tutto ciò, chiediamo che il nostro ateneo ritiri la sottoscrizione al  sistema CRUI-UniBas.

Non si addice al rango dell’ateneo pavese accodarsi all’uso di “ciechi algoritmi valutativi” che, oltre ad essere controversi dal punto di vista della correttezza scientifica, sono già stati messi all’indice da autorevoli organizzazioni e istituzioni scientifiche, inclusa la Fondazione Nobel, perché ritenuti capaci di infliggere seri danni all’autentica qualità della ricerca.

Piuttosto, muovendosi nel solco della sua tradizione scientifica, il nostro ateneo dovrebbe far valere il suo peso e il suo prestigio affinché le metodologie nazionali di valutazione risultino allineate ai migliori standard internazionali. Un ruolo di stimolo che non è compatibile con la scelta di adeguare la nostra valutazione locale a schemi preconfezionati, già sconfessati dalla comunità  scientifica internazionale e, per quanto riguarda l’utilizzo che viene prefigurato,  sconsigliati anche dall’Agenzia nazionale di valutazione.

La questione su come si possano o si debbano valutare i ricercatori dell’ateneo pavese non si presta ad essere risolta con l’adozione di meccanismi calati da fuori o dall’alto, tanto più se in contrasto con le buone pratiche internazionali. Richiede piuttosto l’apertura di un dibattito interno all’ateneo che tenga conto sia delle specificità delle aree di ricerca sia dei migliori standard internazionali. A titolo di esempio, ecco alcune raccomandazioni contenute in un recentissimo documento sottoscritto da tre rinomate accademie scientifiche (Académie des Sciences, Leopoldina e Royal Society 2017):

There is a serious danger that undue emphasis on bibliometric indicators will not only fail to reflect correctly the quality of research, but may also hinder the appreciation of the work of excellent scientists outside the mainstream; it will also tend to promote those who follow current or fashionable research trends, rather than those whose work is highly novel and which might produce completely new directions of scientific research. Moreover, over- reliance on citations as a measure of quality may encourage the formation of aggregates of researchers (or “citation clubs”) who boost each others citation metrics by mutual citation. It thus becomes important to concentrate on better methods of evaluation, which promote good and innovative scientific research. […] Evaluations must be based under all circumstances on expert assessment of scientific content, quality and excellence. Publications that are identified by the authors as their most important work, including major articles and books, should receive particular attention in the evaluation. The simple number of publications should not be a dominant criterion.

Impact factors of journals should not be considered in evaluating research outputs. Bibliometric indicators such as the widely used H index or numbers of citations (per article or per year) should only be interpreted by scientific experts able to put these values within the context of each scientific discipline. The source of these bibliometric indicators must be given and checks should be made to ensure their accuracy by comparison to rival sources of bibliometric information. The use of bibliometric indicators should only be considered as auxiliary information to supplement peer review, not a substitute for it.

The use of bibliometric indicators for early career scientists must in particular be avoided.

Paolo Bertoletti (Scienze Economiche e Aziendali)

Mauro Carfora (Fisica)

Giuseppe De Nicolao (Ingegneria Industriale e dell’Informazione)

Ian Carter (Scienze Politiche e Sociali)

Luca Fonnesu (Studi Umanistici)

Amedeo Marini (Chimica)

Silvia Priori (Biologia Molecolare)

Alessandro Reali (Ingegneria Civile e Architettura)

Send to Kindle

4 Commenti

  1. Ringrazio i colleghi pavesi per la bella lettera, che mi sento in gran parte di condividere. Si tratta tra l’altro di un bell’esempio di scienziati che, lungi dallo sposare il fatalismo dirigista (e non di rado opportunista) di larga parte della comunità, non si rassegnano al conformismo imperante e mettono il loro indubbio prestigio a disposizione della dei colleghi contribuendo in modo importante al dibattito scientifico.

    La valutazione massiva bibliometrica e automatizzata dei singoli è inopportuna e distorsiva. Fatta sulle basi anvur odierne genera inoltre incentivi notoriamente sbagliati: impossibile lavorare su programmi a lunga scadenza, inutile tentare di produrre ricerca profonda e che avrà impatto bibliometrico soltanto in una finestra temporale non intercettata dall’algoritmo (basterebbero tra l’altro una decina di anni, ma l’approccio aziendalista corrente considera dieci anni un’eternità). Il messaggio lanciato da queste metodologie è abbastanza chiaro: la comunità scientifica non deve produrre nuove idee, ma un flusso costante di lavori, la cui qualità diventa poi secondaria.

    Come noto, la bibliometria per i singoli diventa significativa solo sulle code (e le code sono spesso già note per altra via), mentre nel mezzo diventa assai meno indicativa. Un tipico esempio è quello dell’indice H, che per sua struttura diventa molto significativo e utile per valori molto alti, ma che su quelli medi non riesce a distinguere nulla, anzi, viene a realizzare pericolose assimilazioni. In particolare mette colpevolmente sullo stesso piano autori che abbiano deciso di puntare tutto su pochi lavori fondamentali e altri dalla produzione più normale. L’analisi bibliometrica risulta essere cionondimėno un importante ausilio alla valutazione che controbilancia noti effetti distorsivi legati alla peer review, come quello notissimo dell’inclinazione a preferire argomenti legati alla propria scuola (per non dire altro). In questo senso diventa uno strumento democratico, che regala l’opportunità di emergere a realtà non legate a grossi conglomerati organizzati. Non a caso la bibliometria viene costantemente avversata da molti baroni (di ogni rango), che vedono rompere i loro schemi precostituiti e indiscutibili.

    La valutazione dei singoli è un procedimento delicatissimo che non può essere affidato ad agenzie centralizzate, per ovvi motivi, ma deve essere discussa ateneo per ateneo guardando alle situazioni specifiche. Non mi risulta esistano parti del mondo in cui accade che una valutazione sul singolo venga fatta in modo bibliometrico e centralizzato (certo, se uno poi non se la sente di prendersi la responsabilità di fare una valutazione ad hoc, o non la le idee chiare sul come farla, niente di meglio che la soluzione pilatesca di usare un metodo già pronto fatto altrove).

    La bibliometria può invece essere usata su larga scala solo per valutare grosse strutture (purché, aggiungo io, sia usata su una scala temporale adeguatamente ampia, non i 4 anni di anvur). In quel senso funziona molto bene e risulta essenzialmente il migliore strumento

    “There has been ample demonstration that bibliometrics is superior to peer-review for national research assessment exercises in the hard sciences.”

    come sostenuto dagli stessi autori citati nell’articolo di roars

    https://link.springer.com/article/10.1007%2Fs11192-012-0875-6

    A quel punto è lecito chiedersi perché non usare indicatori già pronti e fatti da professionisti come quelli di ESI, che tra l’altro considerano un citation window di 11 anni (non 4), considerano le code, e non considerano affatto l’IF. Sarebbe meglio e costerebbe molto meno.

  2. “A quel punto è lecito chiedersi perché non usare indicatori già pronti e fatti da professionisti”

    Magari perché non a caso la bibliometria viene costantemente SOSTENUTA da molti baroni (di ogni rango) che hanno imparato presto come funziona, che vedono in essa un comodo sistema pseudooggettivizzante la realtà complessa per mantenere i loro schemi precostituiti e indiscutibili?

    Giusto come ipotesi eh…

    The Rebellion

    • Perché mi pare il contrario Vailante. Forse bisognerebbe ricordare che quel tipo di indicatori guardano alle code (primo 1%). Come tali non sono manipolabili dal barone medio. Lei a quali indicatori si riferiva? Io mi sono riferito esplicitamente a quelli di ESI. Meglio essere precisi in queste cose.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.