La comparabilità dei metri di giudizio all’interno di ciascuna area CUN è il requisito chiave su cui si reggono le classifiche VQR degli atenei come pure la ripartizione della quota premiale FFO 2013. Diversi indizi smentivano questa comparabilità, senza la quale la competizione tra gli atenei sarebbe una gara di salto in lungo in cui ogni atleta vede misurati i suoi salti con un metro diverso da quello dei concorrenti. Leggendo la versione preliminare dei criteri per l’accreditamento dei corsi di dottorato, pubblicata pochi giorni fa, veniamo a sapere che nemmeno l’ANVUR si fida più dei voti che ha prodotto. Il documento fa riferimento ai “voti VQR”, ma li corregge  in base al settore scientifico disciplinare, una correzione che non era stata utilizzata per stilare la classifica degli “atenei al top”, quella “dimensione-qualità” e nemmeno per ripartire la quota premiale FFO 2013. Di fatto, l’ANVUR ammette di non credere più nelle classifiche che ha diffuso e nemmeno nei conti usati per ripartire l’FFO. Ma nemmeno questa nuova “pezza” sembra in grado di tappare le falle della VQR.



1. Una VQR dettagliatissima e, soprattutto, certificata?

Il Presidente dell’ANVUR, in relazione alla VQR, aveva parlato di “fotografia dettagliatissima e, soprattutto, certificata della qualità della ricerca italiana“, opinione condivisa da coordinatore della VQR, Sergio Benedetto, al punto da dichiarareIl caso non ha dunque nulla a che fare con i risultati della Vqr“. A prestar loro fede, si sarebbe consumato un clamoroso sorpasso del Politecnico di Milano da parte dell’Università di Messina sia nell’ambito dell’Architettura che dell’Ingegneria dell’Informazione (che comprende al suo interno settori scientifico-disciplinari come l’Elettronica e l’Informatica). Assisteremo al fenomeno di studenti lombardi “fuori sede”, emigrati sullo stretto per iscriversi alla laurea triennale in Ingegneria Elettronica ed Informatica di Messina?

Ci permettiamo di dubitarne.

Che i risultati della VQR non siano quella fotografia nitidissima ed immune al caso di cui si fantasticava lo scorso luglio è ormai chiaro a buona parte dell’accademia italiana. Tuttavia, la consapevolezza della natura e la gravità delle falle tecniche è rimasta per lo più confinata ai pochi esperti che si sono presi carico di leggere e studiarne i numeri. Adesso, c’è però un fatto nuovo: la stessa ANVUR riconosce, seppur implicitamente, che i numeri della VQR non funzionano.

Nel recente documento sui criteri e gli indicatori proposti dall’ANVUR per l’accreditamento dei corsi di dottorato, l’ANVUR fa riferimento agli indicatori della VQR per misurare i risultati di ricerca di livello internazionali sia del soggetto proponente che dei membri del collegio. In particolare, per il criterio A1 (“soggetti che sviluppano una specifica, ampia, originale, qualificata e continuativa attività, sia didattica che di ricerca, adeguatamente riconosciuta a livello internazionale nei settori di interesse per il dottorato“)

si propone di utilizzare gli indicatori R e X della VQR, calcolati escludendo i soggetti valutati totalmente o parzialmente inattivi, nei SSD indicati nella scheda di proposta del dottorato. Nel caso di dottorati composti da più SSD si utilizzeranno gli indicatori relativi al SSD di riferimento, se questo conta per almeno il 50% del dottorato, altrimenti si verificherà la condizione in tutti i SSD fino a coprire il 50% del dottorato.

In modo del tutto analogo, per il crierio A4 (“il possesso, da parte dei membri del collegio, di documentati risultati di ricerca di livello internazionale negli ambiti disciplinari del corso“), si propone

Gli indicatori R e X della VQR calcolati sul collegio nella sua composizione completa; per la normalizzazione degli indicatori si utilizza il valore medio degli indicatori calcolato sul SSD a livello nazionale.

Dietro queste poche righe, apparentemente asettiche, si nasconde la sconfessione degli indicatori usati per stilare le due più importanti classifiche della VQR (“università al top” e “dimensione-qualità”) e anche per ripartire la quota premiale FFO 2013. Ma cosa è cambiato di così importante?

2. Graziati i “fannulloni”. Ma solo quelli incalliti

La prima modifica sostanziale che salta all’occhio è l’esclusione dei “soggetti valutati totalmente o parzialmente inattivi“. Un’esclusione che attenua gli elementi di “punizione collettiva” della VQR, ma che lo fa solo parzialmente, traducendosi per di più in un criterio “peggiocratico” (d’ora in poi l’aggettivo “peggiocratico” verrà usato per indicare criteri che possono premiare i peggiori a scapito dei migliori).

Se un ateneo vanta in uno stesso SSD molti ricercatori di riconosciuto valore internazionale, ma anche una parte di inattivi, sarebbe illogico punire i bravi ricercatori – chiudendo il loro dottorato – solo perché alcuni colleghi sono improduttivi (ricordiamo che nella VQR i prodotti mancanti pesano -0,5 punti ciascuno). Ancora più illogico, tuttavia, chiudere il dottorato di un ateneo in cui una quota di ricercatori ottiene zero punti (corrispondenti a lavori la cui qualità è sotto la media mondiale) e risparmiare il dottorato di un altro ateneo in cui, a parità di altre condizioni, quella stessa quota, era completamente inattiva. Infatti, piuttosto che prendere voti bassi, per l’ANVUR è meglio essere completamente o parzialmente inattivi, perché così si scompare dai conteggi. Una curiosità: i “parzialmente attivi” che hanno presentato due prodotti sui tre richiesti, sono invece esclusi dal provvedimento di grazia. Se si deve peccare, meglio farlo su serio, come gli inattivi (zero prodotti presentati) e i parzialmente inattivi (un solo prodotto presentato sui tre richiesti).

Di fronte ai ripetuti maltrattamenti dei più basilari principi logico-matematici (pensiamo al caso della possibile divisione per zero nei calcoli della quota premiale oppure il cambio di opinione sulla definizione di mediana) viene da pensare che nel direttivo ANVUR manchino i rappresentanti delle discipline scientifiche e tecniche. Ma non è così.

Meglio allora chiedersi la ragione della grazia concessa ai “fannulloni”. Un aiuto ai grandi atenei che, avendo a che fare con numeri più grandi, presentano più facilmente dei soggetti inattivi o parzialmente inattivi? Una tardiva presa di coscienza dell’inaffidabilità delle classifiche VQR in cui le eccellenze sono state letteralmente cancellate dai punteggi negativi inflitti agli inattivi?

Bisognerebbe girare la domanda ai membri dell direttivo ANVUR. Intanto, c’è anche una seconda modifica non meno fondamentale, ovvero l’uso degli “indicatori relativi al SSD di riferimento“, mentre nella ripartizione FFO 2013 si era fatto uso degli indicatori relativi all’area CUN di riferimento. Nel seguito dell’articolo, spiegheremo perché compiere questa virata equivalga a cestinare i voti VQR dei dipartimenti e delle strutture fin qui usati.

2. Il premio scolastico di Qui, Quo e Qua

Sebbene le problematiche che si annidano nella valutazione VQR siano relativamente agevoli da comprendere, di norma esse finiscono occultate dietro il gergo ed  il tecnicismo di formule matematiche poco intelligibili all’accademico medio, soprattutto se estraneo alle discipline che fanno abitualmente uso di formalizzazioni matematiche. Per aiutare il lettore, sgombriamo il campo dai dettagli superflui e spieghiamo il problema della comparabilità dei voti VQR attraverso un esempio che, nella sua semplicità, illustra bene i nodi essenziali. Per facilitare il parallelismo, intercaleremo il testo con delle annotazioni  evidenziate in blu tra parentesi quadrate.

Il Preside [MIUR & ANVUR] vuole assegnare delle borse [FFO premiale] di studio a Qui, Quo e Qua [gli atenei] in base a valutazioni di profitto [esiti VQR] svolte dagli insegnanti delle diverse materie [diversi SSD]. Lo scopo dell’esempio è discutere le conseguenze della diversa severità dei professori [metri di giudizio che variano da un SSD all’altro].

L’ammontare disponibile per le borse di studio viene ripartito a priori tra area umanistica (Italiano, Storia, Inglese, …) e area scientifica (Matematica, Fisica, Scienze) [esempio di Area CUN bibliometrica con i suoi SSD]. Questa ripartizione dei fondi tra le aree è stabilita a monte dal MIUR e, pertanto, il preside deve preoccuparsi solo della ripartizione all’interno di ciascuna area. Per i nostri scopi, basterà discutere il caso dell’area scientifica

Immaginiamo di considerare solo tre materie: Matematica, Fisica e Scienze (MAT, FIS, SCI). Se valutati da tre professori ugualmente severi, Qui, Quo e Qua meriterebbero i seguenti giudizi.

 

Nella tabella, A sta per “Ottimo”, B per “Buono”, C per “Discreto” e “D” per sufficiente. Facciamo le seguenti ipotesi:

  1. riteniamo le tre materie ugualmente importanti;
  2. le valutazioni sono state formulate con la stessa severità.

Così stando le cose, il miglior studente è senza dubbio Quo che ottiene una “A” (medaglia d’oro), una “B” (medaglia d’argento) ed una “D” (medaglia di “legno”), seguito da Qua, con una “B”, una “C” ed una “D”. Da ultimo arriva Qui che ha una “B” e due “D”. In un gergo matematico, si direbbe che i voti di Qui sono “dominati” da quelli di Qua i quali, a loro volta sono dominati dai voti di Quo.

Come vedremo, esistono più modi di ripartire i soldi delle borse di studio senza violare la logica. Tuttavia, sono logicamente errate tutte le ripartizioni che violano l’unica classifica naturale, ovvero:

1° Quo (un oro, un argento ed una “medaglia di legno”)

2° Qua (un argento, un bronzo ed una medaglia di legno)

3° Qui (un argento e due medaglie di legno)

Impossibile dedurre con argomenti esclusivamente logici, quanti soldi, dare a Quo. Però, se Quo riceve meno soldi di Qua e/o di Qui, vuol dire che il criterio di ripartizione va contro logica e giustizia.

3. Una valutazione molto “British”

Se il Preside avesse preso come modello di riferimento la valutazione inglese della ricerca, il Research Assessment Exercise, cosa avrebbe fatto? Avrebbe coordinato i tre docenti di Matematica, Fisica e Scienze in modo da uniformare le loro scale di giudizio. Poi, avrebbe chiesto loro di assegnare i voti agli studenti. Per attribuire le borse di studio, avrebbe deciso il valore pecuniario di A, B, C, D. Per fare un esempio:

A = 700 €

B = 300 €

C = 100 €

D = 0 €

In quel modo, le borse di studio sarebbero state:

Qui (B-D-D): 300 + 0 + 0 = 300 €

Quo (D-A-B): 0 + 700 + 300 = 1000 €

Qua (C-D-B): 100 + 0 + 300= 400 €

Naturalmente, sono possibili altre ripartizioni: basta modificare il valore pecuniario delle valutazioni “A”, “B”, “C”, “D”. In tal caso, cambia l’entità dei premi, ma la logica rimane salva: Quo sarà sempre al primo posto, seguito da Qua e da Qui. Facciamo un esempio, cambiando i valori pecuniari:

A = 900 €

B = 300 €

C = 100 €

In tal caso, risulta

Qui (B-D-D): 300 + 0 + 0 = 300 €

Quo (D-A-B): 0 + 900 + 300 = 1.200 €

Qua (C-D-B): 100 + 0 + 300= 400 €

Adesso, a parità di valutazione, Quo (1.200 €) riceve addirittura il quadruplo di Qui (300 €), ma è chiaro che è una scelta politica, dato che nulla è cambiato relativamente alla preparazione scolastica dei tre studenti.

4. Il metodo ANVUR e la “peggiocrazia” in agguato

Cosa fa, invece, un Preside che si ispira alla VQR italiana? Chiede ai professori di valutare gli studenti mescolando interrogazioni [peer review] e test a crocette [valutazione bibliometrica]. A ciascun docente delle tre materie viene richiesto di mediare i risultati in un voto compreso tra 0 e 10 [nella VQR il voto medio dell’ateneo è compreso tra zero ed uno]. I soldi delle borse vengono distribuiti in proporzione alla media dei voti conseguiti da ciascun studente nelle tre materie. Tuttavia, la severità delle valutazioni cambia da disciplina a disciplina per tre ragioni:

  • non è stato fatto uno sforzo adeguato per uniformare il metro di giudizio usato dai docenti nelle interrogazioni delle tre materie;
  • la difficoltà dei test a crocette, oltre ad essere inferiore a quella delle prove orali non è uniforme per tutte e tre le materie;
  • la percentuale di voti assegnati mediante interrogazioni (più severe) e test a crocette (meno severi) cambia da materia a materia.

Ipotizziamo che i tre professori usino le seguenti scale di giudizio, tutte diverse tra di loro.

 



Il risultato sarà quello riportato nella seguente tabella.

Salta subito all’occhio la disuniformità nei voti. In particolare, Qui – che era lo studente peggiore – vede la sua buona preparazione in Matematica convertita in un ragguardevole gruzzolo pari a 9 punti. Al contrario, in Fisica e Scienze, Quo – che è lo studente migliore – deve fare i conti con voti più stretti. La spiegazione può essere ricondotta a tre circostanze che non si escludono a vicenda:

  • docenti di Fisica e Scienze più severi di quello di Matematica nel valutare le interrogazioni rispetto a quello di matematica [la severità della peer review cambia da SSD a SSD];
  • In Fisica e Scienze c’è una maggior incidenza di interrogazioni, più difficili rispetto ai test a crocette [la peer review è mediamente più severa della valutazione bibliometrica];
  • test a crocette più difficili di quelli di Matematica [la severità della valutazione bibliometrica cambia da SSD a SSD].

In particolare, il docente di Scienze è di manica molto stretta e la buona preparazione di Quo e Qua si tramuta in un misero “4”. Che conseguenze hanno queste disuniformità? Primeggia Qui (che, ricordiamolo, era lo studente peggiore), mentre Quo (che era il migliore) finisce al terzo posto. L’esempio ci mostra che quando i voti delle tre materie sono assegnati con scale non omogenee, l’uso della media aritmetica può condurre a classifiche “peggiocratiche”.

5. Esiste una pillola contro la peggiocrazia?

Immaginiamo ora che il preside, anche in seguito alle giuste proteste di Quo, si renda conto dell’illogicità di mediare valutazioni espresse mediante scale disomogenee. Per puro caso, gli capita di leggere il documento sui criteri di accreditamento dei dottorati e scopre che l’ANVUR ha escogitato un facile rimedio per normalizzare i voti.

La “pillola contro la peggiocrazia” è abbastanza semplice. Invece di usare i voti assoluti, considero l’indicatore R, ovvero il rapporto tra il voto assoluto ed il voto medio nella disciplina considerata. Per fare un esempio, prendiamo il 9 in Matematica di Qui. La media dei voti di matematica della nostra “mini-classe” è pari a (9+1+5)/3 = 5. Pertanto,

R = 9/5= 1,8

In questo caso, l’indicatore R è maggiore di uno perché il voto di Qui è superiore al voto medio di Qui, Quo, Qua. Se il voto risultasse inferiore alla media il valore di R sarebbe invece inferiore ad uno.  È questo, per esempio, il caso dell’indicatore R di Quo per la Matematica:

R = 1/5 = 0,2.

Cosa suggerisce l’ANVUR? Per valutare il singolo studente, invece di mediare i suoi voti grezzi, vanno mediati i suoi indicatori R normalizzati materia per materia [SSD per SSD]. Tutto chiaro, insomma.

Ma funziona? Per rispondere, correggiamo i voti grezzi, applicando ad ogni disciplina la sua normalizzazione.

È immediato constatare due fatti:

  1. è cambiata la classifica degli studenti: Qua ha superato Qui, passando dalla seconda alla prima posizione;
  2. la nuova classifica è ancora sbagliata, dal momento che lo studente migliore (Quo) rimane in terza posizione.

La pillola ANVUR contro la peggiocrazia non è efficace. Può modificare le classifiche, ma i nuovi risultati sono ugualmente arbitrari. Una volta che i voti sono stati assegnati con scale disomogenee, la ricalibrazione dei voti non è per nulla banale.  Calcolare l’indicatore R disciplina per disciplina [SSD per SSD] significa ipotizzare che i voti siano correggibili con una semplice divisione, un’assunzione tutta da verificare, tanto è vero che nel nostro esempio questa divisione non scongiura l’esito peggiocratico. Per venire a capo del problema, bisognerebbe avere un riferimento esterno oggettivo contro cui paragonare i voti di ciascun SSD.

Il problema è del tutto analogo a quello della calibrazione di più strumenti di misura: in assenza di un campione di riferimento (il metro di Sèvres, per intenderci) la calibrazione non è possibile se non a costo di ipotesi che vanno esplicitate e discusse nel merito, evitando di nasconderle dietro formule apparentemente neutrali. Ricalibrare delle valutazioni disomogenee senza avere un”metro campione” è come cercare di separare il caffè dal latte dopo che sono stati mescolati Meglio sarebbe non mescolare latte ed il caffè, ovvero costruire una procedura di valutazione che ponga ogni possibile attenzione all’uniformità di giudizio (il RAE inglese segue questa strada).

A ben pensarci, il cuore del problema è lo stesso che sta dietro l’incresciosa vicenda del bonus maturità. Se i voti di maturità non vengono attribuiti con una scala di giudizio omogenea, è impossibile correggerli senza disporre di un riferimento esterno. In quel caso (anche grazie alla chiarezza delle analisi presentate su Roars) gli effetti peggiocratici delle normalizzazioni basate sui percentili sono risultati così evidenti da indurre il ministro ad abolire il bonus per decreto legge nonostante i test fossero già in corso.

6. Una VQR da rottamare? Analizziamo le prove

Mettiamo ora da parte Paperopoli e torniamo alla VQR, ricapitolando ad uno ad uno i punti fermi a nostra disposizione.

6.1 “Un esercizio senza alcun fondamento metodologico e scientifico”

Fin dall’inizio, l’ANVUR ha preventivato che le scale di valutazione usate nelle diverse aree CUN sarebbero state disomogenee. Una disomogeneità confermata nel Rapporto finale VQR:

Tra le finalità della VQR non compare il confronto della qualità della ricerca tra aree scientifiche diverse. Lo sconsigliano i parametri di giudizio e le metodologie diverse di valutazione delle comunità scientifiche all’interno di ciascuna area (ad esempio l’uso prevalente della bibliometria in alcune Aree e della peer review in altre), che dipendono da fattori quali la diffusione e i riferimenti prevalentemente nazionali o internazionali delle discipline, le diverse culture della valutazione, in particolare la diversa percezione delle caratteristiche che rendono “eccellente” o “limitato” un lavoro scientifico nelle varie aree del sapere e, infine, la variabilità tra le Aree della tendenza, anche involontaria, a indulgere a valutazioni più elevate per migliorare la posizione della propria disciplina.
Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.

Rapporto Finale ANVUR – Parte I, p. 7

La citazione sembra alludere più che altro alle valutazioni effettuate mediante peer review. Tuttavia, sono disomogenee anche le valutazioni bibliometriche effettuate in automatico con i cosiddetti “quadrati bibliometrici”, come riconosciuto nell’Appendice A del Rapporto Finale VQR. A partire dai dati riportati nella Tabella A1.1 di quell’appendice è persino possibile quantificare il grado di disomogeneità.

In estrema sintesi, l’ANVUR riconosce correttamente che in Italia non è stata svolta una VQR, ma sono state svolte 16 VQR separate. Infatti, due delle 14 aree CUN, ovvero le aree CUN 8 e 11, sono state suddivise in due sottoaree, bibliometrica e non bibliometrica. Come già detto, queste 16 VQR forniscono risultati incommensurabili dato che si riferiscono a universi paralleli ed incomunicanti.

6.2 Caveat emptor!

L’intera validità delle classifiche VQR e della ripartizione della quota premiale poggia sull’assunzione che all’interno di queste 16 VQR le scale di giudizio siano omogenee. Se non lo fossero, le classifiche diffuse dall’ANVUR, ma anche i conteggi della quota premiale sarebbero esposti alle distorsioni peggiocratiche illustrate mediante l’esempio di Qui, Quo e Qua.

Cosa dice l’ANVUR? Nel Rapporto finale VQR, l’ANVUR riconosce che “in qualche caso” l’omogeneità di giudizio viene a cadere tra un SSD e l’altro:

Questo stesso caveat riguarda in qualche caso il confronto tra settori scientifico-disciplinari (SSD) interni a un’Area. Mentre in alcuni casi è possibile confrontare la qualità della ricerca tra SSD della stessa Area, in altri casi (evidenziati nei singoli rapporti di Area) tale confronto non è possibile né opportuno.

Rapporto Finale ANVUR – Parte I, p. 7

Rimane da capire se il termine “qualche caso” si riferisca effettivamente ad anomalie sporadiche oppure se siamo di fronte a  disomogeneità generalizzate, tali cioè da invalidare l’intera VQR. L’ipotesi più probabile sembra essere che le disomogeneità siano generalizzate. Difficile credere che le cause strutturali delle disomogeneità da area ad area – sia delle valutazioni peer che di quelle bibliometriche – scompaiano d’incanto una volta che si confrontano le scale valutative degli SSD all’interno delle aree CUN. In effetti, la presenza di disomogeneità generalizzate trova diversi riscontri che illustriamo di seguito.

6.3 I furbetti del quadratino

Un caso appariscente di disomogeneità tra SSD si verifica all’interno dell’area 09 (Ingegneria industriale e dell’informazione). Come denunciato per tempo da Roars, i quadrati bibliometrici del SSD ING-INF/05 (familiarmente noto come “Ingegneria informatica”) sono calcolati secondo regole diverse da quelle usate per tutti gli altri SSD dell’area 09. Come visibile in figura, c’è una significativa differenza tra i due quadrati.

In particolare, nelle valutazioni bibliometriche del SSD ING-INF/05 raddoppia l’area della regione corrispondente a “zero punti”. È lecito domandarsi in che misura questa disparità di trattamento abbia influito sul voto medio complessivo di ING-INF/05, che è risultato esssere il peggiore all’interno della sub-area ING-INF (Ingegneria dell’Informazione).

Da quanto è dato sapere, questa anomalia nasce, seppur indirettamente, dalla collaborazione degli esperti della valutazione del sub-GEV di ING-INF/05 (Area 09) con gli esperti del sub-GEV di Informatica (SSD INF/01 nell’Area 01 – Scienze Matematiche). In modo del tutto sensato, gli ingegneri informatici (appartenenti all’Area 09) e gli informatici (appartenenti all’Area 01) hanno elaborato criteri condivisi e coerenti con quelli adottati in tutte le aree bibliometriche (tranne la 09). In effetti, mentre il sub-GEV ING-INF/05 collaborava con il sub-GEV INF/01, gli altri colleghi del GEV 09 li superavano in curva, adottando un quadrato bibliometrico diverso – e di manica più larga – rispetto a quelli usati negli altri settori bibliometrici.

L’anomalia di ING-INF/05 è macroscopica e tale da gettare un’ombra sui risultati VQR dell’intera Area 09. Ma come sono andate le cose all’interno delle altre aree? Al loro interno, le scale di giudizio bibliometriche possono dirsi ragionevolmente omogenee?

6.4 La fisica di Mondrian

Nella VQR ci sono tanti quadrati bibliometrici quante sono le “Scientific Categories” (SC) del database Web of Science. Le procedure utilizzate dai GEV per determinare le soglie bibliometriche che classificavano automaticamente le pubblicazioni in Eccellenti, Buone, Accettabili e Limitate non erano tali da garantire l’omogeneità delle scale di giudizio tra diverse SC. Ciò nonostante, tutti i GEV tranne uno hanno omesso di discutere e valutare questa disomogeneità. Fa eccezione il GEV 02 (Scienze Fisiche) che nella relazione finale di area scrive (il grassetto è nostro):

Il GEV ha posto la massima attenzione nell’evitare l’uso di criteri bibliometrici complessivi che favorissero una SC rispetto alle altre. Un test molto semplice per controllare la “fairness” di qualunque criterio bibliometrico rispetto alla scelta della SC consiste nell’applicarlo a tutti gli Articoli delle varie SC presenti nel database mondiale e verificare che la valutazione VQR risultante, in termini di punteggio (Rif. Sez. 3.1 per la definizione di punteggio), sia costante al variare della SC. Nel migliore dei mondi possibili dovremmo avere il 20% dei Prodotti valutati come Eccellenti (E), il 20% Buoni (B), il 10% Accettabili (A) e il 50% Limitati (L). […]  applicando i criteri pubblicati al database mondiale WoS si trova che le percentuali di Prodotti E, B, A, L e IR variano in maniera apprezzabile al variare della SC. Dato che il GEV ritiene da evitare un bias, sia pur involontario, a favore di una SC rispetto alle altre, ha fatto in modo che le scelte finali bibliometriche fossero tali che la valutazione media dei Prodotti del database mondiale WoS non dipendessero dalla SC (Rif. App. D).
In questa situazione il GEV si è trovato nella necessità di ricalibrare la valutazione bibliometrica in corso d’opera.

Rapporto finale di Area Gruppo di Esperti della Valutazione dell’Area 02 (GEV02), pp. 20-22

In sintesi:

  • esiste una apprezzabile disomogeneità tra i metri di giudizio impiegati nei quadrati bibliometrici delle diverse Scientific Categories;
  • per evitare di commettere ingiustizie, il GEV 02 ha ritenuto necessario effettuare una ricalibrazione in corso d’opera.

Nel documento del GEV 02 non sono riportati numeri che permettano di quantificare le disomogeneità, ma l’esito della ricalibrazione è illustrato tramite appositi grafici che consentono di apprezzarle visivamente. Nella figura seguente – che ha una curiosa rassomiglianza con alcune opere del pittore Piet Mondrian –  viene mostrato il quadrato bibliometrico nel suo schema base (in alto a sinistra) e cinque esempi di quadrati bibliometrici risultanti dalla ricalibrazione. Le aree colorate in giallo, blu, rosso e verde corrispondono alle classificazioni E, B, A, L. Come si può vedere, per ristabilire l’omogeneità delle scale di giudizio è stato necessario modificare in modo sensibile la forma e la superficie delle aree colorate, a testimonianza del grado non trascurabile della disomogeneità di partenza.

 

Si impongono tre commenti.

  1. La ricalibrazione effettuata dal GEV 02 è resta possibile dall’esistenza di un riferimento esterno (che funge da metro di Sèvres). Questo riferimento è dato dal database mondiale di Thomson-Reuters, consultando il quale è possibile verificare se i prodotti classificati come Eccellenti siano veramente il 20% della produzione mondiale. Naturalmente, una simile ricalibrazione non sarebbe possibile rispetto ad eventuali disomogeneità nella severità delle valutazioni peer review.
  2. È difficile credere che le disomogeneità denunciate e visualizzate dal GEV 02 siano confinate alle scienze fisiche. Si tratta di un problema che va ad impattare sull’intera valutazione bibliometrica della VQR e che è stato ignorato da tutti gli altri GEV che pur hanno utilizzato i quadrati bibliometrici.
  3. Nonostante l’abile “ricalibrazione in corsa” delle soglie bibliometriche, c’è un’ulteriore  fonte di disomogeneità che dipende dalle possibili differenze nella scala di giudizio della peer review rispetto a quella della valutazione bibliometrica. La ricalibrazione, se da un lato ha riequilibrato le valutazioni bibliometriche, dall’altro ha alterato da quadrato a quadrato la percentuale di prodotti sottoposti a peer review creando un’ulteriore disuniformità,.

6.5 Valutazione bibliometrica vs peer: questa o quella pari sono?

Una caratteristica anomala della VQR è il “mix valutativo” tra bibliometria e peer review. Nei cosiddetti settori bibliometrici, alcune pubblicazioni vengono assegnate alle classi di merito in modo automatico mediante i quadrati bibliometrici, mentre altre vengono valutate mediante peer review. Allo scopo di confrontare il grado di concordanza delle due tipologie di valutazione, un campione estratto casualmente è stato sottoposto ad entrambe le valutazioni. I risultati dell’esperimento sono illustrati nell’Appendice B del Rapporto Finale VQR:

Emerge però in tutti i GEV l’evidenza di differenze sistematiche e sempre di segno positivo (ossia, la valutazione bibliometrica è significativamente più favorevole in media rispetto a quella peer) tra i punteggi corrispondenti alle valutazioni peer e bibliometriche; fa eccezione il solo GEV di Scienze economiche e statistiche, per il quale la differenza tra i risultati ottenuti con i due metodi di valutazione non è statisticamente significativa.

Appendice B. Il confronto tra valutazione peer e valutazione bibliometrica, p. 25

Appare sorprendente che solo nel GEV 13 la differenza, pur favorevole alla valutazione bibliometrica, non sia statisticamente significativa. In effetti, una lettura più attenta della documentazione pubblicata dal GEV 13 rivela diverse zone d’ombra nell’esperimento bibliometrico di Area 13, la cui discussione è rinviata ad un articolo specifico.

In questo contesto, basterà sottolineare una conseguenza immediata della diversa severità associata alle due valutazioni. Due soggetti valutati, due strutture o anche due SSD che differiscono per la percentuale di prodotti sottoposti alla peer review si trovano sottoposti ad una disparità di trattamento. A parità di condizioni, chi viene sottoposto con maggior frequenza alla peer review deve attendersi voti più bassi. Si tratta di una disomogeneità nei voti VQR non trascurabile. Per una verifica confrontiamo i voti medi degli SSD dell’Area 09 con la percentuale di prodotti che in ciascun SSD è stata sottoposta a peer review (dati tratti dal Rapporto finale di Area 09; ogni punto rappresenta un diverso SSD).

Balza subito agli occhi la correlazione negativa tra percentuale di lavori sottoposti alla peer review ed il voto medio di SSD. Chi è stato valutato più spesso tramite peer review è stato penalzzato. Qualcuno potrebbe sospettare che siano i settori scientifici con minor impatto internazionale a sottoporre più lavori alla valutazione peer (monografie, articoli in italiano e/o su riviste non indicizzate). Per trovare conferma a questa congettura, mettiamo a confronto la percentuale di valutazioni peer con la percentuale di lavori valutati bibliometricamente che sono risultati nel 5% dei lavori più citati del database Web of Science (dati tratti dal Rapporto finale di Area 09). Se la congettura rispondesse al vero, ci aspetteremo meno lavori eccellenti al crescere della percentuale di valutazioni peer. Tuttavia, la figura non sembra mostrare tendenze significative di questo o di altro genere.

6.6 Una pietra di paragone per la VQR

Conoscere la percentuale dei lavori che entrano nei top 5% più citati secondo Web of Science (un dato che purtroppo è stato reso disponibili solo dal GEV 09) consente un interessante raffronto tra i voti della VQR ed un riferimento esterno che misura l’impatto dei diversi SSD. Se i voti medi di SSD della VQR rispecchiassero in qualche modo l’impatto internazionale di quel settore, sarebbe lecito attendersi una buona correlazione con la percentuale di lavori che entrano nei top 5% più citati, ma non sembra questo il caso.

Quest’ultimo grafico sembra mostrare che l’eccellenza misurata con le inedite metodologie fai-da-te dell’ANVUR non è particolarmente predittiva dell’eccellenza misurata tramite Web of Science (e viceversa). Per fare un esempio, l’ultimo ed il penultimo SSD secondo la VQR risultano quinto e sesto secondo Web of Science, Colpa della disomogeneità della valutazione bibliometrica da SSD a SSD e della diversa severità tra valutazione peer e bibliometrica?

Qualcuno potrebbe obiettare che il voto medio della VQR risente troppo della zavorra dei soggetti inattivi per essere predittivo rispetto alle eccellenze. Proviamo allora a mettere a confronto due indicatori più omogenei tra di loro, ovvero la percentuale di prodotti classificati “Eccellenti” secondo la VQR e la percentuale di lavori che entrano nei top 5% più citati secondo Web of Science.

 

Per quanto la definizione di eccellenza secondo Web of Science sia più restrittiva (il 5% della produzione mondiale che riceve più citazioni) di quella secondo la VQR (il top 20% della produzione mondiale), la correlazione tra le due appare inferiore alle attese, un’osservazione che rinforza i dubbi sull’affidabilità dei voti VQR.

In conclusione, appare singolare che la VQR non sia in grado di evidenziare gli stessi SSD che invece spiccano quando si considerano gli “highly cited papers” nel database Web of Science. Una VQR talmente mal disegnata che le scalibrazioni e le distorsioni indotte dal ricorso ineguale alla peer-review finiscono per contare di più del giudizio di merito scientifico?

6.7 Una conferma che viene dalla CRUI

Che le valutazioni interne alle aree siano disomogenee a seconda degli SSD considerati è opinione condivisa anche da un apposito Gruppo di lavoro della CRUI, che ha proposto all’ANVUR un nuovo modo per calcolare gli indicatori di qualità dei dipartimenti. Ecco cosa ha scritto in una presentazione:

  • le distribuzioni nazionali dei voti nei vari SSD sono molto differenti:
  • Differiscono i valori medi […];
  • Differiscono le larghezze, cioè le dispersioni dei voti […]
  • Spesso nei SSD bibliometrici: valutazioni assai più compatte e mediamente più elevate.
  • Spesso nei SSD non bibliometrici domina l’effetto “discrezionalità”: maggiori “larghezze” della distribuzione e valori medi inferiori.
  • Il campo di votazioni “normali” (non solo le votazioni medie) varia da SSD a SSD.
  • Un problema non piccolo.

Tra l’altro, il Gruppo di lavoro mette già in guardia contro la nuova normalizzazione proposta dall’ANVUR. Infatti, facendo riferimento all’indicatore R normalizzato per SSD, scrive

Quindi nei SSD con valori medi più elevati e larghezze minori: escursione di R strutturalmente minore rispetto ai SSD con valori medi bassi e larghezze maggiori.

In altre parole, la normalizzazione proposta da ANVUR finirebbe per accentuare il peso degli SSD con valori bassi. Tra l’altro, un docente che nella VQR facesse l’en plein (tre punti su tre) in un SSD il cui voto medio è 0,5, vedrebbe raddoppiare i suoi punti in virtù della normalizzazione. In tal modo peserebbe molto di più del premio Nobel che, pur avendo fatto anche lui l’en plein, è incardinato in un SSD dove il voto medio è 0.80, e conta pertanto solo 10/8 = 1,25. Nella numerologia anvuriana, essere il più bravo in un SSD “scarso” (in termini di voti VQR) è più importante che essere il più bravo tra i bravi a livello internazionale.

Il Gruppo di lavoro della CRUI non si è arreso ed ha proposto un’ulteriore formula di normalizzazione più sofisticata. Tuttavia, in assenza di un riferimento esterno, anche questa formula non è  in grado di prevenire valutazioni peggiocratiche. In particolare, uno studioso di valore discreto può contare più di un premio Nobel, se quest’ultimo è incardinato in un SSD molto competitivo a livello internazionale. Di nuovo, è il caso di richiamare il naufragio del “bonus maturità”. In mancanza di votazioni espresse su scale omogenee non esiste alcuna tecnica di calibrazione automatica che consenta di paragonare i voti dell’istituto professionale con quelli del liceo classico. In termini di qualità della ricerca, alcuni SSD saranno paragonabili ad un buon liceo mentre altri potrebbero equivalere, se non ad un professionale, quanto meno ad un scuola con studenti meno selezionati. Impossibile ricalibrare senza condividere un riferimento esterno.

7. Una VQR a perdere

È giunto il momento di tirare le somme.

  • Gli indizi a nostra disposizione mostrano in modo convincente che i voti VQR sono espressi con scale sensibilmente disomogenee da SSD a SSD, violando un’assunzione, caduta la quale gli indicatori di struttura e di dipartimento diffusi dall’ANVUR perdono di significato. Una disomogeneità evidente è quella che esiste tra la severità della valutazione peer e di quella bibliometrica.
  • L’esistenza di una significativa disomogeneità è confermata dal Gruppo di lavoro della CRUI, il quale ne fa la ragione fondamentale per la sua proposta di nuovi indicatori appositamente calibrati per tenere conto della disomogeneità.
  • Per l’accreditamento dei dottorati, l’ANVUR abbandona l’ipotesi che le valutazioni interne alle aree CUN siano espresse su scale omogenee ed introduce una normalizzazione che – nelle sue intenzioni – dovrebbe compensare le differenze da SSD a SSD.
  • Le analisi del gruppo di Lavoro CRUI indicano che la nuova normalizzazione altera significativamente le valutazioni su cui si sono basate le classifiche VQR e la ripartizione della quota premiale.
  • Ne dobbiamo concludere che l’ANVUR ammette, seppur implicitamente, di aver pubblicato classifiche sbagliate e che la quota premiale FFO 2013 è stata distribuita sulla base di numeri che adesso vengono cestinati.
  • La nuova normalizzazione proposta dall’ANVUR ed anche quella, più sofisticata, elaborata dal Gruppo di lavoro CRUI non sono in grado di eliminare le distorsioni perchè manca un riferimento esterno utilizzabile per la ricalibrazione.

Il disegno della VQR contiene pesanti errori strutturali tra cui l’uso di criteri bibliometrici non scentifici e scalibrati ed il ricorso ad un mix valutativo che compromette l’omogeneità delle scale di valutazione. Questi errori – probabilmente non sanabili –  hanno prodotto risultati di attendibilità dubbia e soggetti a distorsioni sistematiche.

Print Friendly, PDF & Email

15 Commenti

  1. Il disegno valutativo della VQR era sicuramente sballato.

    Il “bello” è che dalla VTR 2001-2003 si erano già avute delle “lessons learned”, tematizzate in un buon volumetto a cura di E. Reale et al., dove si evidenziavano svariate criticità (in particolare nella comparabilità fra “Aree”, e quindi nella composizione delle valutazioni) che non sono state minimamente affrontate né “gestite” nella preparazione e nello svolgimento di questo esercito VQR.

    Tali specifiche criticità (oltre al resto dell’impianto, fra cui la scarsa “statistica”) consigliavano l’astensione dell’utilizzo degli esiti della VTR per ogni scopo “meccanico”, ad es. di finanziamento premiale – posizione peraltro espressa esplicitamente e coraggiosamente da uno dei membri dell’allora CIVR, M. Bressan.

    Ma i “pasdaran” dell’ideologia premio-punitiva, dopo alcuni tentativi a vuoto, ottennero comunque un contentino nelle more dell’istituzione della quota “premiale” operata dalla Gelmini, e l’adozione di uno specifico indicatore (seppure con peso non elevato).

    Questo esercizio VQR non solo non ha minimamente affrontato le medesime criticità, ma ne ha ingenerate molte altre, la cui realtà non poteva certo essere occultata dalle grandi narrazioni, relative, ad es., all’elevato numero di prodotti valutati.

  2. Molto chiaro e come sempre interessante. Grazie.
    A proposito di fannulloni “cancellati” mi viene in mente un paper che dimostra che per il decisore pubblico che vuole minimizzare i costi del servizio pubblico è ottimale assumere alcuni fannulloni, perché in questo modo i lavoratori estremamente motivati (a lavorare nel pubblico) accettano salari più bassi.
    Forse all’ANVUR hanno letto il paper, hanno considerato i “fannulloni” necessari e li hanno di conseguenza cancellati.

  3. Oltre alle illuminanti considerazioni dell’articolo, bisognerebbe aggiungere, a mio parere, che anche il processo di revisione non sembra aver seguito gli standard internazionalmente accettati. Infatti, se il giudizio alla base della valutazione non viene dato perché non richiesto (solo il “numero” è richiesto) o comunque non viene reso pubblico, viene a mancare la possibilità di:
    a) accertare l’esistenza di possibili errori materiali;
    b) protestare con “l’editore” per un giudizio che si ritiene profondamente ingiusto.
    Il punto b) è particolarmente importante per mettere al riparo l’autore nei confronti di un possibile revisore ingiusto: il revisore, ancorché anonimo per l’autore, sa che, se tratta troppo male, immotivatamente, un autore o un certo numero di autori, alla fine può venire smascherato dall’editore, tramite le proteste degli autori e vedere compromessa la propria reputazione.
    La mancanza di questo controllo potrebbe contribuire a spiegare alcune delle stranezze che emergono dall’analisi quantitativa dei dati…E inoltre appare non giustificato anche da un punto di vista più propriamente “morale”, se lo scopo di una valutazione è, come dovrebbe, anche quello di dare delle indicazioni costruttive per il miglioramento della propria attività.

  4. Veramente molto interessante. Non vedo l’ora di leggere quello sull’Area 13.
    Un quesito da parte mia: questo discorso di “escludere i soggetti inattivi” per attenuare gli elementi di punizione collettiva vale solo per l’accreditamento dei corsi di dottorato o è/sarà trasposto anche ai fini della VQR?
    grazie
    Corrado

  5. Grazie per questo articolo di approfondimento della VQR.
    Purtroppo c’è troppa rassegnazione in giro.
    Da un pò di tempo in Italia, il MIUR-ANVUR vuol far passare per innovativa o come metodologia adottata a livello internazionale qualcosa che non esiste da nessun parte del mondo.

  6. E’ appena uscita una nuova news sul sito ANVUR (è apparsa pochi minuti fa ma stranamente viene datata 30 gennaio)
    le tabelle VQR sono state modificate ancora… e non solo ne hanno pure aggiunto alcune

    secondo me le hanno modificate ancora per fare un dispetto a voi editorialisti di ROARS …. sempre pronti a trovare l’errore…. volevano vedere se siete attenti! e darvi nuovo materiale su cui sguinzagliare gli 007 durante il fine settimana (per non farvi riposare…. cosi’ sono liberi di pubblicare i risultati della sperimentazione sui dottorati senza tutti gli occhi puntati contro!)

  7. Aggiungerei un altro tema di riflessione. Quanti soldi pubblici e quanto tempo sono stati sprecati in questa valutazione de’ noialtri?

    Soldi che avrebbero potuto essere spesi per sostenere la ricerca.
    Tempo che avrebbe potuto essere speso per fare ricerca.

    Questo è un esempio di come:
    1. Un principio nobile e condiviso (Valutazione del Sistema Universitario);
    2. Viene tradotto male;
    3. Applicato peggio;
    4. Corretto in funzione delle ‘pressioni’;
    5. e fatto diventare l’Università Italiana lo zimbello internazionale.

    E, a seguire l’ASN non è che si sia comportata meglio.

    Nel suo articolo il riferimento al ‘metro campione’ o a un riferimento esterno mi ha fatto pensare che, in verità, esiste! Si chiamano comunità internazionale, standard internazionali, etc… Basta volerlo vedere.

    Il guaio, temo, è che in questo paese siamo vittime di una politica povera (è un eufemismo) di idee e di prospettive che si fa supplire da una oligarchia tecnicistica e procedurista che genera più guai di quanti riesca a risolverne.

    E mi sorge il dubbio. Ma se avessimo affidato l’incarico di valutazione a una agenzia esterna (esterna al nostro paese!), avremmo raggiunto risultati migliori e speso meno?

  8. Caro Giuseppe,
    l’ANVUR ha pubblicato ieri (nella sezione News VQR) i risultati di una elaborazione (dovuto a Giacomo Poggi dell’Università di Firenze) frutto di una collaborazione con la CRUI. Se ho ben capito, vi si propongono indicatori ottenuti aggregando i dati dividuali (normalizzati rispetto alla distribuzione nazionale dei risultati per SSD) all’esplicito fine di ripartire le risorse all’interno degli atenei (oltre che tra atenei).
    Non mi pare che la metodologia proposta sia immune dalle critiche che hai avanzato in questo post (e altrove), ma sono ansioso di conoscere il tuo parere.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.