Con questo post si inaugura la serie Waiting VQR che terrà compagnia ai lettori di Roars fino alla pubblicazione dei risultati della VQR 2011-2014 che avverrà il prossimo 21 febbbraio. La serie Waiting VQR ha lo scopo di ricordare ai lettori di Roars la discussione sui metodi usati dall’ANVUR per la VQR: ricorderemo le incongruenze logiche, aritmetiche e bibliometriche già evidenziate e quelle che ci aspetteranno nel prossimo esercizio di valutazione. Riprenderemo anche la questione dei costi della valutazione. Pubblicheremo post nuovi originali e ri-pubblicheremo post già usciti e forse sfuggiti a qualche lettore. Iniziamo con un post nuovo dedicato alla concordanza tra peer review e bibliometria.
I link alle altre puntate di Waiting for VQR:
- La “junk arithmetic” della bibliometria fai-da-te della VQR 2011-2014
- La valutazione della ricerca ha un costo molto elevato. Le metodologie di stima sono discutibili, ma la sostanza non cambia
- Bibliometria anvuriana: se la conosci la eviti
- La VQR? Uno spreco. Il premio vale 58 MLN, la gara ne costa almeno 30
L’ANVUR ha adottato per i propri esercizi di valutazione della ricerca VQR, un sistema di valutazione “duale”: alcuni lavori vengono valutati con la peer review, altri con la bibliometria. Per validare il “doppio sistema di valutazione” ANVUR ha condotto nella precedente VQR un esperimento che prevedeva di sottoporre a doppia valutazione il 10% del totale degli articoli pubblicati su rivista conferiti per la VQR. L’esperimento ha riguardato tutte le aree CUN cosiddette bibliometriche, e Area 13 (economia e statistica). L’esperimento ANVUR mostra una concordanza debole/inaccettabile tra IR e bibliometria, che quindi non producono risultati simili in termini di valutazione, neanche in Italia. Un risultato del tutto in linea con le evidenze disponibili per il REF britannico. L’adozione della valutazione duale introduce distorsioni sistematiche e non identificabili nei risultati finali. In particolare, visto che la IR ha dato luogo a valutazioni più basse della valutazione bibliometrica, è impossibile sapere se, ad esempio, in un confronto tra due dipartimenti, un dipartimento ha ottenuto un punteggio più alto perché ha prodotto ricerca migliore o perché è stata valutato con un diverso mix di strumenti. La scelta di un sistema duale di valutazione è stata ripetuta anche per la VQR 2011-2014. Che soffrirà delle stesse distorsioni della precedente.
L’Agenzia Nazionale di Valutazione dell’Università e della Ricerca (ANVUR) ha adottato per i propri esercizi di valutazione della ricerca VQR, un sistema di valutazione “duale”: alcuni lavori vengono valutati con la peer review (IR), altri con la bibliometria. Per validare il “doppio sistema di valutazione” ANVUR ha condotto nella precedente VQR un esperimento che prevede di sottoporre a doppia valutazione il 10% del totale degli articoli pubblicati su rivista conferiti per la VQR. L’esperimento ha riguardato tutte le aree CUN cosiddette bibliometriche, e Area 13 (economia e statistica). Ed è stato ripetuto anche nella VQR 2011-2014.
1. L’esperimento.
L’esperimento è consistito nel classificare ogni articolo in una delle quattro classi di merito previste dalla VQR, utilizzando sia la bibliometria che la peer review. Per confrontare i risultati, ANVUR ha adottato una tecnica statistica nota come kappa pesata di Cohen. I valori di kappa calcolati per l’intero campione sono 0,32 con pesi lineari e 0,38 con pesi-VQR. Ciò significa che complessivamente solo poco meno o poco più di un terzo delle valutazioni raggiunte attraverso bibliometria e IR sono concordanti. I valori di kappa per le dieci aree considerate sono compresi nell’intervallo 0,1-0,35 con la sola eccezione di Area 13 (0,54). Analogamente anche i dati calcolati per 43 sub-aree che sono tutti al di sotto di 0,4 con la sola eccezione di tre sottoaree di Area 13.
ANVUR ha commentato questi dati come indicativi di una “più che adeguata concordanza” tra IR e bibliometria. Questi risultati sono stati disseminati in riviste e blog, in genere accompagnati da due considerazioni di portata generale:
- la “più che adeguata concordanza” giustifica l’uso di entrambi i metodi nello stesso esercizio di valutazione;
- IR e bibliometria possono essere considerate come buoni sostituti ai fini di esercizi massivi di valutazione della ricerca.
Soprende che revisori e lettori non si siano accorti che i valori di kappa calcolati da ANVUR siano considerati in tutte le linee guida disponibili, riprodotte nella Tabella 1, come indicativi di una concordanza “inaccettabile” o “scarsa”.
Tabella 1. Linee guida per l’interpretazione dei valori del kappa di Cohen (fonte).
Gli unici dati che mostrano una concordanza “accettabile” o “moderata” sono quelli di Area 13, diffusi anche da La Voce (che non ha accettato di pubblicare il post che state leggendo). Una meta-analisi dell’esperimento (Figura 1) ha mostrato che i risultati di Area 13 sono statisticamente diversi dagli altri.
Figura 1. Funnel plot della meta-analisi dell’esperimento VQR. Un punto con coordinate (m, k) rappresenta una subarea di ricerca con m prodotti valutati e un valore della kappa di Cohen pari a k. I valori dei Kappa di Cohen per Area 13 (cerchietti neri) sono comparati con il valore medio di kappa (linea tratteggiata) e gli intervalli al 95 % (linee continue), calcolati a partire dai valori di kappa delle altre sub-aree (cerchi aperti). In Area 13, tre sub-aree su quattro cadono fuori dai limiti di previsione al 95%. I dati si riferiscono ai valori di kappa con pesi-VQR. (Fonte)
2. Lo strano caso delle concordanze di Area13
Perché Area 13 ha un comportamento diverso da tutte le altre aree? Perché il GEV ha introdotto modifiche sostanziali rispetto al protocollo delle altre aree, con l’effetto di rendere i risultati sostanzialmente inservibili. Avevamo già discusso su Roars la questione in questo post, ma adesso la questione è stata oggetto di dibattito su una rivista peer reviewed. [1]
In Area 13 i revisori sapevano che stavano partecipando all’esperimento, poiché sono stati sottoposti a valutazione tra pari soltanto gli articoli su rivista (classificata) selezionati per l’esperimento; in tutte le altre i revisori hanno dovuto valutare migliaia di articoli su rivista per i quali i criteri bibliometrici non riuscivano ad assegnare automaticamente una classe di merito.
In Area 13 i revisori avevano accesso immediato alla valutazione bibliometrica dell’articolo che stavano valutando. Nelle altre aree la complessità dei criteri bibliometrici era tale che la valutazione precisa dell’articolo era difficile da prevedere per il singolo revisore.
In Area 13 i rapporti dei due revisori sono stati comunicati ai due membri del panel incaricati della valutazione dell’articolo, questi hanno formato un “gruppo di consenso” che ha deciso la valutazione finale dell’articolo, considerando le relazioni dei revisori come semplici informazioni tra le altre disponibili. Nelle altre aree la sintesi è avvenuta di norma sulla base di calcoli basati sui punteggi indicati dai revisori.
Infine, in Area 13 i membri del GEV sapevano che gli articoli di riviste classificate bibliometricamente, selezionati per la IR erano oggetto dell’esperimento, e ne conoscevano la valutazione bibliometrica. Non si può dunque escludere che l’informazione relativa alla classificazione bibliometrica a disposizione del GEV abbia influito sulle scelte dei revisori.
3. Conclusioni
L’esperimento ANVUR mostra una concordanza debole/inaccettabile tra IR e bibliometria, che quindi non producono risultati simili in termini di valutazione, neanche in Italia. Un risultato del tutto in linea con le evidenze disponibili per il REF britannico.
L’adozione della valutazione duale nella scorsa VQR ha introdotto distorsioni sistematiche e non identificabili nei risultati finali. Visto che la IR ha dato luogo a valutazioni più basse della valutazione bibliometrica, è impossibile sapere se, ad esempio, in un confronto tra due dipartimenti, un dipartimento ha ottenuto un punteggio più alto perché ha prodotto ricerca migliore o perché è stata valutato con un diverso mix di strumenti. E, amaramente, la VQR in corso soffrirà delle stesse distorsioni.
[1] La discussione è avvenuta su Scientometrics. Ecco gli articoli:
Baccini, A. and G. De Nicolao (2016). “Do they agree? Bibliometric evaluation versus informed peer review in the Italian research assessment exercise.” Scientometrics 108(3): 1651-1671, 10.1007/s11192-016-1929-y.
Bertocchi, G., A. Gambardella, T. Jappelli, C. A. Nappi and F. Peracchi (2016). “Comment to: Do they agree? Bibliometric evaluation versus informed peer review in the Italian research assessment exercise.” Scientometrics: 349-353. http://link.springer.com/article/10.1007%2Fs11192-016-1965-7
Baccini, A. and G. De Nicolao (2016). “Reply to the comment of Bertocchi et al.” Scientometrics 108(3): 1675-1684. http://link.springer.com/article/10.1007/s11192-016-2055-6
http://www.anpri.it/comunicato-dell8-febbraio-2017-direttori-non-possono-chiedere-ai-rt-le-valutazioni-dei-singoli-prodotti-sottoposti-alla-vqr-2011-2014/
non si riesce a sostenere l’attesa.