
ovvero cosa può accadere se i giudici di una gara di vini devono astenersi dal berlo
Ci sarà modo di commentare ancora in dettaglio i criteri di valutazione appena pubblicati. Gli elementi di originalità della metodologia ANVUR di valutazione sono tali che il VQR si configura come una sperimentazione di inediti (e poco fondati) strumenti bibliometrici, condotta sull’intero sistema della ricerca italiano.
In un paese come il nostro in cui la cultura della valutazione non è poi così diffusa, si è deciso di inventarsi un modello originale di valutazione della ricerca. In cosa consiste l’originalità? Si è scelto di valutare la produzione migliore (3 prodotti/6 prodotti) di ogni ricercatore, come nel REF britannico. Si è dunque scelto la via più raffinata: la valutazione del singolo prodotto di ricerca. La qualità della ricerca è come quella del vino: si riconosce solo dopo averlo bevuto. Fuori di metafora: l’unico modo per valutare il singolo prodotto di ricerca è leggerselo, e dare un giudizio. Che sarà idiosincratico, personale, soggettivo etc. etc. Ma è un giudizio informato di un pari. Il sistema che ha fatto progredire la scienza dai tempi della rivoluzione scientifica. Nel REF britannico i giudici assaggiano il vino: tutti i prodotti sono sottoposti a peer review. Purtroppo il “capitale sociale” dell’accademia italiana è così basso che si tende a non fidarsi della peer review; e soprattutto l’ex-ministro Gelmini ed i suoi consiglieri non si fidavano dei baroni. Per cui l’ex-ministro e l’ANVUR da lei nominata hanno preferito ricorrere all’oggettività della bibliometria. L’originalità consiste quindi nell’aver disegnato un concorso enologico dove si pretende di valutare il vino senza che i giudici possano berlo.
Si può fare un concorso di vino senza che i giudici possano berlo? Non lo so. Per la ricerca si può fare e si fa: moltissimi esercizi di valutazione sono condotti in giro per il mondo senza sottoporre tutti i prodotti a peer review, utilizzando gli strumenti della bibliometria. Ci vogliono però accortezza e competenze tecniche. Si parte quindi dall’ipotesi che contare le citazioni di un prodotto di ricerca sia una buona approssimazione del giudizio che si avrebbe se quel prodotto lo si fosse letto davvero. Approssimativo, ma accettabile e accettato. Un po’ come dire: ipotizziamo che il numero di volte che un vino è citato nelle riviste enologiche sia una misura della sua qualità. Da questa ipotesi sono partiti verosimilmente anche l’ex-ministro e l’ANVUR.
Nella letteratura internazionale c’è diffusa consapevolezza che gli strumenti bibliometrici siano particolarmente poco adatti alle valutazioni puntuali, quelle su cui, come abbiamo visto, è basato il VQR. La speranza dei bibliometrici è gli indicatori siano statisticamente affidabili, ma nessun bibliometrico si sognerebbe di dare un giudizio su un singolo prodotto di ricerca, basandosi esclusivamente sul numero di citazioni che ha ricevuto o sulla rivista su cui è stato pubblicato. In analisi statistiche di grandi insiemi di prodotti di ricerca si spera che le distorsioni si annullino ed i risultati siano in media affidabili. La bibliometria è cioè poco adatta a fare il mestiere che l’ex-ministro e l’ANVUR vogliono farle fare: fornire un giudizio affidabile sul singolo prodotto di ricerca. L’esempio forse più noto di valutazione basata esclusivamente sulla “qualità delle riviste” fu condotto in Australia nel 2010. Ad ogni prodotto di ricerca fu attribuito il valore di “qualità” del contenitore in cui era apparso. Il sistema, adesso abbandonato, aveva sicuramente alcuni pregi: assoluta trasparenza e controllabilità; facilità estrema di implementazione, costi ridotti. La realizzazione del sogno: datemi il ranking delle riviste che solleverò il mondo! A differenza di quanto è previsto nel VQR, nessuno in Australia si sognò di comunicare ai singoli ricercatori il giudizio sui loro prodotti: perché era già noto ex ante! E soprattutto perché poco affidabile in relazione ai singoli prodotti.
Come si risolve il problema? Se si abbandona l’idea di una valutazione singolarmente affidabile e ci si concentra sulla ragionevolezza dei risultati aggregati, il problema potrebbe essere risolto con una tecnica usuale e diffusissima negli esercizi di valutazione, di cui ho già detto nella pars construens di un post precedente. Essa consiste nell’attribuire ad ogni prodotto un valore citazionale normalizzato rispetto al campo disciplinare.
Nella VQR italiana questa soluzione standard è impedita dal 50-10-20-20. Cosa significa? L’ex-ministro e l’ANVUR hanno pensato bene che i prodotti di ricerca siano stratificati secondo questa formula: 50% di prodotti di qualità limitata; 10% di prodotti accettabili; 20% di prodotti buoni; 20% di prodotti eccellenti. Se si hanno a disposizione le citazioni di tutti i prodotti di ricerca di una certa disciplina, tutti i prodotti che hanno un numero di citazioni inferiori al numero mediano possono essere classificati come limitati; quelli che hanno un numero di citazioni superiore al valore mediano, ma inferiore al valore assunto dalla distribuzione nel 60° percentile, sono accettabili e così via. Il problema nasce da questo: le distribuzioni delle citazioni sono a code pesanti; per cui i valori soglia di una distribuzione 50-10-20-20 tendono ad essere terribilmente vicini. Per capirci: è del tutto possibile che in moltissime discipline siano sufficienti 1-2 citazioni in più per essere classificati in una delle categorie. Potrebbe accadere per esempio che in una disciplina di Web Of Science un prodotto con 0 citazioni sia classificato come di qualità limitata; con 1 citazione diventi accettabile; con 2 buono, e con 4 eccellente. O ancora che non sia possibile distinguere la soglia tra limitato e accettabile. Risultati che confliggono con il buon senso. O meglio risultati che mostrano la mutua inconsistenza del ranking in quattro classi del singolo prodotto di ricerca e della tecnologia bibliometrica al momento disponibile.
Soluzione possibile: buttare via la formula 50-10-20-20, correggendo il bando. Ma se una formula è magica non si può toccare. L’ANVUR aveva originariamente pensato ad una inconsistente procedure a due stadi, di cui abbiamo già scritto. Nei criteri finali le soluzioni bibliometriche a due stadi sono diventate due. Una per i prodotti pubblicati nel periodo 2004-2007; una per quelli prodotti nel periodo 2008-2010. Questi due sistemi sono alla base delle “matrici di corrispondenza tra classi iniziali della rivista (colonne) e citazioni (righe)”.
Per i prodotti pubblicati nel periodo 2004-2007 prima si assaggia il vino, sia mai, scusate, si contano le citazioni al vino sulle riviste enologiche, e poi si corregge per la regione di provenienza. Per quelli 2008-2010 si dà il giudizio sulla regione di provenienza, poi si contano le citazioni sulle riviste enologiche. E’ ben noto, almeno dal seminal paper di P.O. Seglen, che la correlazione tra impact factor della rivista e numero di citazioni ricevute da ogni paper che vi è pubblicato è molto bassa. Per capirsi, pubblicare un articolo su una rivista con elevato impact factor non garantisce che si riceverà un numero elevato di citazioni. Anche per ogni singolo autore, il grado di correlazione tra citazioni agli articoli e impact factor della rivista è variabilissimo, come si vede nella Figura 1. Ogni grafico rappresenta un ricercatore ed i punti le sue pubblicazioni, posizionate in base al numero di citazioni ricevute e all’IF della rivista dove ogni articolo è pubblicato. Come si può vedere ci sono articoli con un numero elevato di citazioni pubblicati su riviste con basso IF e viceversa.
Figura 1. Correlazione tra IF di una rivista e citazioni degli articoli per quattro ricercatori
L’assenza di correlazione rende impossibile costruire un ordinamento consistente degli articoli che tenga conto contemporaneamente delle due dimensioni considerate. Questo significa che dietro la retorica scientifica della costruzione della matrice e della raffinatezza dei criteri ci sono in realtà scelte arbitrarie dei valutatori. Per questo sarebbe più onesto chiamare quelle matrici i “quadrati magici bibliometrici” dell’ANVUR. Sono i giudici del concorso che hanno deciso che se un Chianti è di qualità limitata vale quanto un vino abruzzese eccellente, e tutti e due vanno in B, o C o D o all’assaggio (peer review).
A mia conoscenza, ma forse nella sterminata letteratura bibliometrica mi sono perso qualcosa, non esistono procedure a due stadi così disegnate. Si ribatterà: nella scienza c’è sempre spazio per l’innovazione. Ma le idee scientifiche innovative dovrebbero essere validate e diffuse secondo la prassi usuale, ovvero la pubblicazione su riviste scientifiche internazionali peer reviewed. L’ANVUR invece sta sperimentando la sua originale bibliometria direttamente sull’intero sistema italiano della ricerca.
POST SCRIPTUM. La metafora del vino è ispirata da un articolo pacato e competente sui rating delle università scritto dal prof. Andrea Bonaccorsi, vice responsabile del VQR, sul Sole24ore di domenica scorsa. Vi si legge:
Non è vero che la realtà sociale è misurabile esattamente allo stesso modo di quella fisica (e quindi le pretese di obiettività vanno senz’altro messe in discussione). … Tra visibilità mediatica, basata su un’illusoria certezza dei numeri, e pretesa di incommensurabilità esiste dunque una terza alternativa, meno roboante, ma per fortuna più robusta.
Sarei curioso di sapere se il prof. Bonaccorsi ritiene i criteri ANVUR per il VQR un esempio di questa terza alternativa.
Comunque hanno proprio voluto complicarsi la vita con il doppio canale citazioni+IF. Almeno se avessero fatto con le sole citazioni avrebbero potuto costruire una cosa internamente più consistente, e copiare gli Australiani.
A proposito della formula 50-10-20-20, vedo che c’è un aggiornamento nelle FAQ dell’ANVUR – – il cui significato non riesco a capire bene.
La stratificazione proposta nel bando per definire le classi di merito fa riferimento a percentuali, che quindi tutti – mi pare – abbiamo inteso come riferite a una quantità totale data. Appunto: “50% di prodotti di qualità limitata; 10% di prodotti accettabili; 20% di prodotti buoni; 20% di prodotti eccellenti”.
Oggi invece nelle FAQ si legge quanto segue. Domanda: “Nella attribuzione dei punteggi ai prodotti della valutazione, si indica che se il prodotto cade sotto il 50% avrà punteggio zero. – Ciò significa che il 50% dei prodotti sottomessi avrà obbligatoriamente punteggio zero?”. Risposta: “No. Si tratta di una indicazione rivolta ai referee, che va intesa come ‘il prodotto, rispetto alla sua esperienza complessiva di valutazione e a prodotti simili, ricade al di sotto del 50% della valutazione’. – Ogni referee assegnerà in modo indipendente i punteggi, ragionando sulla base della propria esperienza professionale. Non vi è alcuna ragione che il numero di prodotti con punteggio zero sia pari alla metà del totale”.
Apparentemente la risposta alla domanda “il 50% dei prodotti sottomessi avrà obbligatoriamente punteggio zero?” quindi è, univocamente, “No”. Tuttavia, che cosa significa che la risposta fa riferimento ai *referee* e non al GEV? E’ chiaro che al singolo referee non può essere chiesto di articolare il totale dei prodotti che riceve in valutazione secondo questi segmenti percentuali rigidi, ma il GEV cosa deve fare in seguito? E che cosa significa che questa stima di segmenti percentuali è riferita “alla esperienza complessiva di valutazione e a prodotti simili” del referee? Quest’ultimo può essere tanto un giovane dottore di ricerca quanto un anziano professore emerito, l’esperienza in questione cambia radicalmente. E ancora, che significa la richiesta di valutare se il prodotto “ricade al di sotto del 50% *della valutazione*”? Insomma, questi segmenti percentuali si riferiscono a un totale definito o a un totale indefinito e mutevole, e nel secondo caso che cosa significa un segmento percentuale di una quantità indefinita? Naturalmente quel che si dice per il 50% deve valere anche per le altre fasce di merito.
Come l’autore di questo articolo potrà spiegare meglio, la suddivisione 50-10-20-20 riguarda il “totale mondiale” della produzione scientifica di riferimento, non è un vincolo posto alle valutazioni dei prodotti sottoposti alla VQR. Questo fatto era già compreso nelle Regole del bando. In altre parole, i prodotti sottoposti alla VQR potrebbero essere “in linea teorica” anche tutti eccellennti, se i GEV e loro regole consentono di attribuire tale classe di merito a ogni prodotto valutato.
Questo discorso diventa meno astratto se uno appartiene ad un settore dove si usa la bibliometria, che è anche ciò a cui si riferiva il contenuto di questo articolo, visto che le basi di dati consentono di determinare, per tutta la produzione mondiale censita nelle banche dati, i benchmark di riferimento da cui ricavare la distribuzione sia per gli Impact Factor delle riviste, sia per le citazioni/articolo.
Per un settore come la Filosofia, comunque, se tutti presentassero tante opere come la “Critica della Ragion Pura”, non vi è restrizione a piazzarle tutte in Classe “A”.
Kant ci ha messo dieci anni per scrivere la Critica della ragion pura. E vi ha espresso un concetto interessante: che “qualità” e “quantità” sono categorie diverse. Ovvero: non posso descrivere l’una a partire dall’altra. Tante quantità non danno qualità…
E infatti la bibliometria seria sa di avere a che fare solo con quantità (impatto nella comunità scientifica, diffusione). E sta molto attenta a non scambiare le quantità della ricerca, con la qualità della ricerca. Ci sono esercizi di valutazione basati sulla qualità (REF britannico); ed esercizi basati sulle quantità bibliometriche. Se ben condotti questi ultimi danno risposte ragionevoli a domande ragionevoli. Poi c’è il modello originale italiano…
Credo che Valeria Pinto abbia colto benissimo l’inconsistenza della formula 50:10:20:20 in riferimento al tema della peer review. Sono d’accordo, non ha alcun senso riferita ai referee. Da qui la sua natura magica: i numeri impressionano sempre e danno parvenza di un approccio scientifico.
La distribuzione per i GEV, come nota Renzo Rubele, significa che quando si usano indicatori bibliometrici per collocare i prodotti italiani, per esempio di computer sciences, rispetto ad un gruppo di riferimento, l’intera produzione mondiale, i prodotti mondiali vanno suddivisi secondo la formula magica. Gli italiani sottoposti all’ANVUR potrebbero anche essere tutti nel 20% dei migliori.
Nel testo ho argomentato perché la formula magica è bibliometricamente poco adatta al compito.
Se come suggerisce Renzo si fosse scelto di lavorare direttamente sui valori normalizzati (come fanno dovunque si faccia bibliometria fine, per esempio in ERA 2012), anziché sulla classificazione ordinale dei prodotti, beh tutti i problemi su Nonna papera e dintorni non si sarebbero posti.
Forse sarebbe bastato che qualcuno, non dico l’ex-ministro, ma almeno i suoi consiglieri e soprattutto chi in ANVUR si occupa del VQR avessero avuto l’umiltà di leggersi un manuale di bibliometria, per esempio il classico Moed, Citation analysis in research evaluation, Springer 2005.
Mille grazie del chiarimento. (Quindi, almeno per la mia area, non è sufficiente dire che la prescrizione relativa al “peso 0” “non significa che la metà dei prodotti sottoposti a VQR debba avere valore zero” – più precisamente questa prescrizione non significa nulla…)
La “prescrizione relativo al peso 0” significa che la comunità dei filosofi, e segnatamenti quelli incaricati della valutazione nel VQR, deve avere un’idea sufficientemente chiara e interpersonale di cosa significa “scala di valore condivisa dalla comunità scientifica internazionale”, nonchè dei livelli di merito descritti nel bando.
Sarà quindi possibile individuare la divisione in classi di merito per ogni giudizio sintetico riferito a ciascun prodotto sottoposto a valutazione (e quindi in particolare il livello D, che corrisponde al confine fra la metà superiore e quella inferiore della “scala di valore”, il quale vale 0 in termini di punteggio per questo VQR).
Suppongo che ci penserà Diego Marconi a mettere ordine.
Ma allora tanto valeva dire “Bau Bau”…
(intendo: tanto valeva che il bando dicesse “Bau Bau”)
Come modesta proposta, mi sono sempre permesso di avanzare l’idea che il bando dicesse cose simili a quelle che dicono gl’Inglesi
http://www.hefce.ac.uk/research/ref/pubs/2012/01_12/
e, per quanto riguarda le Humanities, in particolare
http://www.hefce.ac.uk/research/ref/pubs/2012/01_12/01_12_2D.pdf
Mah… se ti riferisci alle definizioni di 4*, 3* ecc, bisogna ricordare che i nostri colleghi britannici sono arrivati a classificazioni cosi’ ambiziose dopo parecchie tornate di RAE, quando si è sentita la necessita di distinguere fra “super-super” ricerca e ricerca soltanto “super”. Da noi non avrebbe molto senso usare delle definizioni del genere – in ogni disciplina i prodotti che soddisfano i criteri per le due categorie superiori si conterebbero sulle dita (forse sul dito, singolare) di una mano. E anche in UK, ricordo che si sorrideva di queste definizioni, che incoraggiano l’ipocrisia. Comunque sono d’accordo che una descrizione qualitativa (insieme magari a un’indicazione quantitativa) aiuterebbe a chiarirsi le idee.
[…] i soli casi estremi. In realtà ROARS dovrebbe sapere, perché l’ha già scritto in questi due post, che i due casi estremi non si verificano mai nella realtà. E quindi, fino a prova contraria, […]
[…] stanno simpatici. Scherzano con Nonna Papera, nani e giganti, la formula ammazza-atenei, Pinocchio, il vino a due stadi e le copule bibliometriche – Peppe sorrise – ma quanto a rigore metodologico non scherzano […]