Le classifiche della VQR confrontano atenei di dimensioni diverse. Per farlo, usano il punteggio medio dei prodotti valutati. Ma ha senso usare le medie per costruire classifiche? Qualche tempo fa, il Gran Mogol aveva dovuto risolvere un problema simile ed aveva chiesto aiuto ad Archimede Pitagorico. Il quale …
Fine agosto, il campo estivo delle giovani marmotte è al termine. Le giovani marmotte sono state sistemate dal Gran Mogol in quattro tende diverse. Nella prima sono ospitate 10 giovani marmotte capitanate da Qui; nella seconda ci sono 11 giovani marmotte al comando di Quo; nella terza le 12 giovani marmotte sono capitanate da Qua; nella quarta ci sono 13 giovani marmotte capitanate da Newton, il nipote prediletto di Archimede.
Il Gran Mogol ha organizzato una gara a squadre di raccolta di frutti di bosco. In premio ci sono delle belle fette di torta preparata da Nonna Papera. Alla prima squadra classificata andrà la fetta di torta più grossa, alla seconda un po’ più piccola e così via. Le quattro squadre che si contendono la torta sono formate dagli occupanti di ciascuna tenda. [N.B. le squadre sono composte da numeri diversi di giovani marmotte]
Il Gran Mogol ha elaborato le regole della gara, che sono in verità abbastanza complicate. Il Gran Mogol le enuncia così:
“Ogni giovane marmotta deve presentare i tre frutti migliori che ha raccolto. Il punteggio della squadra è la somma dei punteggi individuali. Le fragole valgono 1 punto; le more valgono 0,8 punti; i lamponi 0,5 punti; i mirtilli rossi 0 punti. Se per sbaglio qualcuno consegna un mirtillo nero, quello sottrae 0,5 punti al punteggio totale. Se invece fate i furbi e consegnate un frutto che non è mangiabile verranno sottratti 2 punti. Avete un’ora di tempo da questo momento. Via!“
Le giovani marmotte corrono nel bosco. Dopo un ora di raccolta i capitani delle squadre consegnano al Gran Mogol i frutti raccolti. Il Gran Mogol li conta e calcola i punteggi. Ecco la tabella:
I risultati della gara a squadre di raccolta di frutti di bosco organizzata dal Gran Mogol.
______________________________
Una volta terminati i conteggi, il Gran Mogol si accorge di aver un problema: le squadre sono composte da un numero diverso di giovani marmotte e la squadra con più componenti ha un chiaro vantaggio: sarebbe Newton e la sua squadra ad aggiudicarsi la gara. La soluzione non lo convince. Il Gran Mogol pensa di chiamare Archimede Pitagorico per chiedergli se ha una soluzione al suo problema.
Archimede risponde prontamente al telefono:
“Io non mi sono mai posto un problema di questo tipo, però so che in Italia, all’ANVUR, un mesetto fa hanno dovuto risolvere un problema del tutto simile per una cosa complicata come la Valutazione della Qualità della Ricerca. Volevano costruire una classifica di università, e …. Ah ecco come hanno fatto: è semplice basta dividere il punteggio finale di ciascuna squadra per i “frutti di bosco attesi”, cioè per il numero di frutti che ciascuna squadra deve portare al Gran Mogol. Ogni squadra deve portare un numero di frutti di bosco pari al numero dei componenti la squadra moltiplicato per tre.. Aspetta che faccio il calcolo velocemente. La squadra di Qui ha portato 30 fragole: 30 punti che diviso i frutti di bosco attesi (10×3=30) fa 1; La squadra di Quo ha portato 32 fragole e 1 mora per un totale di 32,8 punti che diviso i frutti di bosco attesi (11×3=33) fa 0,99; … “
La classifica ANVUR della gara a squadre di raccolta di frutti di bosco organizzata dal Gran Mogol.
______________________________
Terminati i calcoli, Archimede commenta:
“Ecco fatto, ho risolto il tuo problema! Vince la squadra di Qui, seconda quella di Quo, terza la squadra di Qua ed infine ultima quella di Newton“.
I paradossi della classifica ANVUR applicata alla gara del Gran Mogol: Newton ha raccolto più frutti di Qua in ciascuna delle quattro categorie (Fragole, More, Lamponi, Mirtilli rossi), ma finisce ultimo. Ma lo stesso succede a Qua nei confronti di Quo e a Quo nei confronti di Qui, che si classifica primo pur avendo raccolto meno frutti di tutti gli altri in tutte e quattro le categorie.
______________________________
Il Gran Mogol ci pensa un po’ su e poi esclama:
“A me questa soluzione non convince. Tutti le squadre hanno comunque raccolto almeno 30 fragole come la squadra di Qui; tutte le squadre hanno addirittura raccolto più fragole della squadra che vince. C’è qualcosa che non quadra nel metodo dell’ANVUR.“
Archimede esclama prontamente:
“Hai proprio ragione, c’è qualcosa che non va. Di fatto sei stato tu Gran Mogol che formando squadre di diversa numerosità hai determinato l’esito della gara. Chissà perché in Italia spendono così tante risorse per fare queste classifiche… “
“A me dell’ANVUR non interessa molto, caro Archimede. Meno male che ancora non ho tagliato la torta. Credo che rinuncerò alla classifica ed adotterò un modo diverso per assegnare le fette. Chiederò a Qui di dividere le torte in quattro parti e lui sarà l’ultimo a scegliere la fetta per la sua squadra. Vediamo che succede…“
_______________________
NOTA TECNICA
La storiella del Gran Mogol rappresenta in modo estremamente semplificato il problema dell’uso del punteggio medio nella VQR per confrontare strutture/enti/ssd con dimensioni diverse, cioè con un diverso numero di ricercatori (soggetti valutati). Il problema è noto, tanto che ANVUR ha ritenuto di presentare per le strutture ed i dipartimenti classifiche organizzate per classi dimensionali. In realtà, come prova la storiella, anche una differenza minima (una giovane marmotta in più o in meno) determina problemi.
Questo significa che si può verificare il caso che strutture/dipartimenti/ssd che hanno posizioni migliori in classifica abbiano presentato alla VQR un numero di prodotti eccellenti, buoni, accettabili e limitati inferiori ad altri strutture/dipartimenti/ssd che si trovano più in basso in classifica (a parità di prodotti penalizzati).
Non è facile accorgersi di questo perché ANVUR, a differenza di quanto aveva fatto il CIVR per la VTR, ha deciso di non presentare in chiaro i numeri dei prodotti conferiti per ciascuna classe di merito, ma solo le percentuali. Questo impedisce di accorgersi immediatamente di palesi incongruenze nelle classifiche, a meno di non fare calcoli su, per esempio, un foglio Excel.
Vediamo tre esempi numerici relativi ad Area 3 scienze chimiche. Due università classificate dal GEV come grandi: Padova e Roma La Sapienza.
Area 3 (Scienze Chimiche): I primi sette atenei della classifica per le “grandi università”.
______________________________
Padova ha 329 prodotti attesi (110 ricercatori circa), La Sapienza ha 438 prodotti attesi (circa 146 ricercatori). Padova presenta 229 prodotti eccellenti; 59 buoni, 12 accettabili e 8 limitati, 11 prodotti sono penalizzati. La Sapienza risponde con un numero maggiore di prodotti eccellenti: 250, con più del doppio di prodotti buoni (124) e accettabili (27), un numero più elevato di prodotti di valore limitato (42) ed ha un pari numero di prodotti penalizzati. La Sapienza ha quindi un numero più elevato di prodotti con punteggio positivo di Padova; un numero più elevato di prodotti con punteggio 0; e lo stesso numero di prodotti limitati. Malgrado questo Padova è seconda in classifica (su 7) con voto medio 0,84 e Roma La Sapienza terzultima con voto medio 0,78.
Area 3 (Scienze chimiche): Tra le “grandi università”, Napoli Federico II ha un numero di prodotti maggiore di Roma La Sapienza in ciascuna della quattro categorie (blu: Eccellente, rosso: Buono, verde: accettabile, viola: Limitato) ed un numero inferiore di penalizzazioni (celeste) ma nella classifica ANVUR prevale Roma La Sapienza (quinto posto) che a sua volta è superata da Padova (secondo posto) nonostante l’ateneo patavino presenti numeri inferiori in tutte e quattro le categorie ed abbia un numero di prodotti penalizzati uguale a quello dell’ateneo romano. Questo paradosso, realmente verificatosi nella VQR 2004-2010, illustra l’inadeguatezza dei voti medi come criterio per stilare classifiche.
______________________________
Ancora Area 3. Due università classificate dal GEV come medie: Roma Tor Vergata e Siena. Tor Vergata ha 102 prodotti attesi (34 ricercatori), Siena 137 (45 ricercatori).
Area 3 (Scienze Chimiche): I primi nove atenei della classifica per le “medie università”.
______________________________
Roma Tor Vergata ha 81 prodotti eccellenti, 19 buoni, 1 accettabile e 1 lavoro penalizzato. Siena risponde con 109 prodotti eccellenti; 21 buoni, 4 accettabili, 3 limitati e nessuno penalizzato. Roma Tor Vergata è prima in classifica secondo ANVUR e Siena terza. Nella stessa classifica Salerno occupa il 5° posto presentando quasi il doppio dei prodotti eccellenti di Roma Tor Vergata; più del doppio di prodotti buoni di Tor Vergata, 6 prodotti buoni, 12 accettabili e nessuno penalizzato.
Area 3 (Scienze chimiche): Tra le “medie università”, Siena ha un numero di prodotti maggiore di Roma Tor Vergata in ciascuna delle quattro categorie (blu: Eccellente, rosso: Buono, verde: accettabile, viola: Limitato) ed un numero inferiore di penalizzazioni (celeste), ma nella classifica ANVUR prevale Roma Tor Vergata (primo posto), nonostante quest’ultima sia superata in tutte e quattro le categorie di prodotti persino da Trieste, che è solo nona. Un secondo paradosso, realmente verificatosi nella VQR 2004-2010, che illustra l’inadeguatezza dei voti medi come criterio per stilare classifiche.
______________________________
Ed ancora in Area 3, tra le piccole emerge l’eccellenza di Catanzaro: 17 prodotti eccellenti e 2 buoni. Segue all’12° posto l’Università dell’Insubria che presenta 46 prodotti eccellenti (quasi il triplo di Catanzaro), 25 prodotti buoni (22,5 volte quelli di Catanzaro), 5 prodotti buoni (il 500% in più di Catanzaro), 12 prodotti accettabili (1200% in più di Catanzaro) e nessun prodotto penalizzato.
Area 3 (Scienze Chimiche): I primi dodici atenei della classifica per le “medie università”.
______________________________
Area 3 (Scienze chimiche): Tra le “piccole università”, Insubria ha un numero di prodotti maggiore di Catanzaro in ciascuna delle quattro categorie (blu: Eccellente, rosso: Buono, verde: accettabile, viola: Limitato) e per entrambe non vi sono penalizzazioni, ma nella classifica ANVUR prevale Catanzaro (primo posto). Un terzo paradosso, realmente verificatosi nella VQR 2004-2010, che illustra l’inadeguatezza dei voti medi come criterio per stilare classifiche.
______________________________
Non mi dilungo oltre. La nozione di “punteggio medio” prevista dal bando VQR ed applicata pedissequamente da ANVUR dà luogo sistematicamente (non isolatamente) a risultati che contraddicono il semplice buon senso: strutture con una maggior numero di prodotti in tutte le classi “positive” (quelle che non comportano penalizzazioni) stanno in posizioni di classifica peggiori di strutture con un numero minore di prodotti in ciascuna classe “positiva”. E questo anche a parità di prodotti con punteggio negativo.
Speriamo che sia vero quanto secondo la FLC-CGIL avrebbe detto la ministra Carrozza:
Per queste ragioni la stessa Ministra Carrozza ha ribadito che i dati dell’Anvur non devono essere utilizzati per stilare classifiche sulla base delle quali distribuire le risorse.
Purtroppo il decreto del fare dice di usare la VQR per distribuire parte del FFO. Dato il pessimo modo in cui la VQR è stata concepita, anche buttando al macero le classifiche – come sembra voglia fare la Ministra – trovare un modo ragionevole per distribuire le risorse non sarà impresa da poco.
Pur riconoscendo che la valutazione dell’ANVUR sia passible di miglioramenti, l’argomentazione che “strutture/dipartimenti/ssd che hanno posizioni migliori in classifica abbiano presentato alla VQR un numero di prodotti eccellenti, buoni, accettabili e limitati inferiori ad altri strutture/dipartimenti/ssd che si trovano più in basso in classifica” mi sembra un po’ debole. E’ chiaro che se ho una struttura con 10 persone, con ogni probabilità presenterò meno prodotti eccellenti di una struttura che di persone ne ha 100; sefeundo questa strada, è facile che la classifica rifletta semplicemente al numerosità
Appunto, questo è il problema del Gran Mogol. Se si calcola il punteggio totale vince la squadra di Newton che è la più numerosa. Ma la soluzione “voto medio” non risolve perché da luogo ad un ordinamento piuttosto strano. E’ l’idea di classifica che non ha senso. Ed infatti il Gran Mogol decide di usare una altro modo per distribuire la torta.
In effetti anche nel RAE/REF britannico non si fanno classifiche; e non si distribuiscono risorse sulla base delle classifiche.
Innanzitutto la media è in realtà una media pesata, ovvero i E contano più dei B ecc. Giusto o sbagliato possiamo discuterne. Poi non mi è chiaro il senso. PD sta prima di Roma Tor Vergata e questo è sbagliato (secondo l’articolo) dato che Roma ha ‘conteggi’ più alti di PD? Ma non è l’uso delle % proprio pensato per evitare (ridurre) l’effetto dimensionale? Ipotizzando che TUTTI i prodotti fossero E, ovviamente lo score medio sarebbe stato 1 sia per PD che Roma (pari merito) ma la conta non lo sarebbe stata. Quindi meglio Roma di PD in tal caso? Infine, a quanto ho capito io, lo score per la distribuzione dei fondi non sarà il puro e semplice indicatore I, né l’indicatore R (I/(voto medio di Area a livello nazionale)) bensì una combinazione lineare di R per le diverse Aree (IRAS se non ricordo male) che per la ricerca conta al 50% (sempre a memoria). Non facciamola così semplice. Detto ciò dalla prossima tornata eliminiamo VQR. Bene…sostituiamo con…? Questo non l’ho capito. Il VQR è indubbiamente da rivedere, ed avendo i dati credo si possa rimodulare, ricalibrare, rivedere, ma poi qualcosa deve rimanere, di oggettivo. Chi di voi abita in un condominio con riscaldamento centralizzato preferisce ripartizione spese su mera base dei millesimi o con contatori di calorie e ripartizione in base ai consumi?
In Italia sembra difficile (impossibile?) far capire a persone che sono pur sempre istruite (come i colleghi del mondo dell’università e della ricerca) che le classifiche hanno poco o nulla a che fare con gli esercizi nazionali di valutazione della ricerca. L’esperienza inglese viene spesso citata come il modello a cui ispirarsi. Ebbene, gli inglesi (che non possono certo essere accusati di egualitarismo o scarsa attenzione alla meritocrazia, anzi) escludono nel modo più assoluto che le classifiche abbiano a che fare con la valutazione.
“RAE2008 results are in the form of a quality profile for each submission made by an HEI [Higher Education Institution]. We have not produced any ranked lists of single scores for institutions or UoAs [Units of Assessment], and nor do we intend to.”
RAE2008-Frequently asked questions
http://www.rae.ac.uk/faq/default.asp?selcat=15&q=225
Si possono distribuire le risorse in base all’attività svolta (in modo “meritocratico”) senza compilare alcuna classifica. Per essere più chiari, ecco la formula del RAE/REF (Research Assessment Exercise). Se usiamo i coefficienti del 2008, per una generica struttura il finanziamento sarebbe proporzionale a
7*NA + 3*NB + NC
dove NA, NB, NC indicano il numero di prodotti di livello A, B e C, rispettivamente. Nel RAE non esistono le penalità negative (vedi anche http://blogs.warwick.ac.uk/davidfirth/entry/rae_2008_how/)
Riformulo la similitudine. Meglio ripartizione su base dei millesimi o ripartizione in base ai consumi calcolati con un contatore rotto? O con un contatore difettoso?
Ci sono due ordini di problemi da tenere distinti.
1. Le classifiche non servono per ripartire le risorse e non hanno base scientifica. Sono fonte di equivoci perché non si possono confrontare atenei di dimensioni diverse. Introdurre le classi dimensionali è un palliativo che non risolve perché il numero di classi e le linee di demarcazione sono elementi discrezionali con cui è possibile far vincere o perdere gli atenei. Ad essere maliziosi, qualcuno potrebbe pensare che l’ANVUR abbia prodotto classifiche “double-face”, fornendo alla stampa classifiche diverse da quelle del rapporto finale, perché le classifiche dei dipartimenti prodotte dai GEV e quelle degli atenei del rapporto finale davano risultati “non soddisfacenti”. Un’agenzia seria dovrebbe fare di tutto per tutelare la propria reputazione di imparzialità. Imbarcarsi in un’impresa (inutile a scopo di ripartizione delle risorse) che non può essere condotta senza decisioni discrezionali è un rischio del tutto gratuito. Se poi si diffondono alla stampa classifiche diverse da quelle dei documenti ufficiali, si finisce per gettare discredito sull’agenzia e sulla valutazione stessa.
2. I voti della VQR non sono ancora stati analizzati a fondo, ma ci sono buone ragioni per dubitare della loro affidabilità. A suo tempo, avevamo evidenziato l’esistenza di due metriche di giudizio clamorosammente divergenti all’interno dell’area 09 (https://www.roars.it/vqr-tutte-le-valutazioni-sono-uguali-ma-alcune-sono-piu-uguali-delle-altre/). Da quanto si legge nell’Appendice A del rapporto finale (http://www.anvur.org/rapporto/files/Appendici/VQR2004-2010_AppendiceA.pdf), si desume che le metriche delle diverse aree “bibliometriche” non sono comparabili tra loro. Nulla viene detto per le metriche dei diversi Settori Scientifico-Disciplinari (SSD) interni alle aree, ma appare del tutto improbabile che le divergenze tra le metriche si arrestino magicamente una volta che ci si muove all’interno della stessa area. In caso di divergenza tra le metriche usate per misurare bibliometricamente la produzione di diversi SSD interni alla stessa area, i risultati dell’intera VQR risultano invalidati dato che i voti aggregano valutazioni espresse su metriche diverse. Se così fosse, ci troveremmo di fronte ad un fallimento di dimensioni colossali.
Alt! Non ho mai detto che il VQR vada bene e preso come oro colato. Dico solo che il concetto di dare i fondi in base ad indicatori quantitativi sia l’unico (secondo me) perseguibile.
Quindi spero che il VQR venga rivisto, corretto, ecc. E’ un inizio (nel mio Ateneo i dati rispecchiano più o meno quello che in effetti si percepiva) forse sbilenco, forse troppo, ma è un inizio.
Domanda: dove avete letto esattamente come verranno ripartiti i fondi? Ovvero non capisco perché ci si fissi sul concetto di ‘classifica’, al di là dell’effetto mediatico. Non dovrebbero essere usati gli indicatori IRFS (1 o 2)? Che non prevedono una classifica ma una funzione (probabilmente inutilmente complessa) della % di E,B, ecc… In effetti non vedo il senso delle classifiche se non per puro gioco del ‘io sono più bravo di te’. Ma i fondi, se ho capito male chiedo sin d’ora perdono, dovrebbero essere ripartiti in base ad uno score (IRFS appunto, formula 8c “Rapporto Finale” ). E’ un indicatore confrontabile con la semplice “% di prodotti attesi” (i.e. dimensione Ente). Padova ad esempio conta per un 3.73% della popolazione Universitaria (dei prodotti attesi) ma corretto ‘meritocraticamente’ (??) dovrebbe aver diritto a qualcosa intorno al 4.8-5% (IRFS1 o 2, 14 o 16 aree: Tabella 6.10a “parte prima”). Ovviamente il tutto è moooolto più complesso del RAE/REF, molto probabilmente in modo inutile. Però fornisce un ‘peso’, così come il RAE. Quindi SE (e sottolineo SE) usassero quei pesi (io davo per scontato fosse così dalla lettura del testo…errore mio forse), se li si rivedesse magari, la cosa sarebbe più accettabile? Delle “classifiche I, II, ecc…” chi se ne frega?
Complimenti a baccini e de nicolao per queste delucidazioni. Il problema e’ che tutti sembrano impazziti e ossessionati dall’idea della classifica. E’ una follia!
[…] delle università. Questo a dispetto del fatto che i metodi usati per la valutazione, la trasparenza della gestione dei dati, i percorsi seguiti per la nomina dei valutatori, ecc. ecc., sono oggetto di innumerevoli […]