«Messina, miracolo a San Siro. Travolto il Milan delle stelle». E’ il 22 settembre 2004. E il Messina, appena tornato in A, batte a San Siro il Milan campione d’Italia. C’è chi su Facebook ha creato addirittura una pagina per dire “Io c’ero”. Chissà se verranno creati guppi Facebook per celebrare un exploit altrettanto clamoroso, avvenuto nella VQR, il campionato delle università italiane, appena concluso. L’Università di Messina si è presa il lusso di battere Milan e Juve, ovvero il Politecnico di Milano e di Torino. No, non è una burla. In quella specie di fantacalcio accademico che è la valutazione della ricerca amministrata dall’ANVUR, può accadere pure questo. Un risultato certificato, con tanto di tabelle e numeri scolpiti negli annali della VQR. Ma fu vera gloria? Come mai l’HEFCE, l’equivalente britannico dell’ANVUR si rifiuta di produrre classifiche come quelle dell’ANVUR? Forse perché sanno che quelle classifiche non hanno base scientifica e producono risultati inaffidabili. Vediamo perché.
Questo post è la prima parte del nostro Dossier VQR 2011-2014. Questi i link alle altre parti:
- Antefatto: La VQR? Uno spreco. Il premio vale 58 MLN, la gara ne costa almeno 30.
- Prologo: VQR, la classifica dei baroni. Unicusano e Messina travolgono i Politecnici. E se osi fiatare …
- Parte 2: VQR: classifiche prêt à porter.
- Parte 3: Storie di ordinaria baronia nella VQR di area 13.
1. VQR: «una valutazione accurata, rigorosa e imparziale»
Lo scorso 21 febbraio si è svolta la presentazione ufficiale dei risultati della VQR 2011-2014, la valutazione della qualità della ricerca delle università e degli enti di ricerca. Un vero e proprio campionato, anzi una girandola di campionati, giocati in tanti diversi gironi, ovvero 16 aree scientifiche. Il risultato è una valanga di rapporti e tabelle con i “voti” di atenei, enti di ricerca, dipartimenti, gruppi di ricercatori della stessa disciplina, disaggregati per atenei e per dipartimenti. E, insieme alle tabelle, tante, tantissime classifiche.
Ma ci si può fidare?
Sentiamo cosa ha detto Sergio Benedetto, il coordinatore e responsabile della VQR 2011-2014 (minuto 45′ 31″):
Perché la VQR? Per presentare al paese una valutazione accurata, rigorosa e imparziale della ricerca svolta nelle università, ma anche per offrire una valutazione delle istituzioni nelle diverse aree scientifiche. […] Per chi la VQR? Gli organi di governo delle istituzioni per intraprendere azioni volte a migliorare la qualità della ricerca nelle aree che appaiono deboli rispetto al panorama nazionale. I giovani ricercatori per approfondire la propria formazione e svolgere attività di ricerca negli atenei ed enti di ricerca più qualificati nell’area scientifica di interesse. Le famiglie e gli studenti per orientarsi nelle difficili scelte collegate ai corsi di studio e alle università (soprattutto corsi di laurea magistrale e dottorato)
Il campionato dell’ingegneria si è svolto in due gironi:
- Area 08b: Ingegneria civile e mineraria;
- Area 09: Ingegneria industriale e dell’informazione (che, per intenderci, include settori di tutto rispetto come l’Ingegneria Meccanica, Elettrica, Elettronica, Informatica, …).
Ebbene, cosa dice l’accurata, rigorosa e imparziale classifica VQR dell’Ingegneria industriale e dell’informazione?. Per saperlo, prendiamo la Tabella 3.1 del Rapporto di Area 09 della VQR e riordiniamola in base alla posizione degli atenei nella graduatoria complessiva. Ecco il risultato.
Come già accaduto nel 2013, la graduatoria complessiva (terza colonna) dice che l’Università di Messina (18-esima) batte il Politecnico di Milano (24-esimo su 63). Il quale è lontano dal podio anche in tutte le altre aree scientifiche e tecniche:
- Scienze matematiche e informatiche: 31-esimo su 59
- Scienze fisiche: 13-esimo su 55
- Scienze chimiche: 44-esimo su 56
- Scienze della terra: 42-esimo su 43
- Ingegneria civile: 13-esimo su 44
- Architettura: 36-esimo su 51
Non solo: Messina si toglie la soddisfazione di battere anche il Politecnico di Torino, solo trentesimo. A dire, quello di Messina non dovrebbe essere l’unico ateneo ad esultare per un exploit inaspettato. Che dire dell’Università telematica UNICUSANO che dalla sua sesta posizione, infligge venti posizioni di distacco al Politecnico di Milano?
E si potrebbe andare avanti anche con le altre discipline: nelle Scienze fisiche la prima in classifica è l’Università Kore di Enna, come aveva denunciato Giuseppe Mingione in un’intervista rilasciata al Corriere. E la Normale di Pisa? Solo sesta.
Secondo la Ministra Fedeli, la VQR offre
attraverso un’analisi dettagliata della produzione degli atenei la possibilità da parte del MIUR di effettuare una policy consapevole finalmente basata su dati attendibili e affidabili.
Se i dati sono attendibili e affidabili, ci aspettiamo una solenne tirata d’orecchi all’ateneo milanese e la richiesta che si faccia da parte nel progetto Human Technopole lasciando spazio a Messina o altri atenei ancor più validi.
E che i mezzi di informazione, così avidi di classifiche, diano ascolto a Sergio Benedetto. Se la VQR è una valutazione accurata, rigorosa e imparziale, il Corriere e la Stampa, loro malgrado, dovranno spingere i giovani lombardi e piemontesi a trasferirsi sullo Stretto, se vogliono frequentare le migliori lauree magistrali o i migliori dottorati nel campo dell’ingegneria meccanica, elettronica e informatica. Oppure, ancor meglio, spingerli a iscriversi ad un ateneo telematico come UNICUSANO che offre corsi di laurea magistrale in Ingegneria Meccanica ed Elettronica.
2. L’ANVUR non crede alla “legge dell’imbuto”
State scuotendo la testa? Beh, non avete tutti i torti a dubitare di questi risultati. Un’agenzia meno folkloristica dell’ANVUR, ovvero l’HEFCE britannica, sa bene che questo genere di classifiche è privo di basi scientifiche e sul suo sito scrive a chiare lettere:
Have you produced a league table of institutions’ results?
The REF team and UK funding bodies do not produce league tables from the REF results.
(REF frequently asked questions)
Qualcuno si meraviglierà che proprio i britannici, che hanno inventato queste valutazioni della ricerca su larga scala (la nostra VQR è una brutta copia del loro REF – Research Excellence Framework), rifuggano dallo stilare la classifica dei vincitori e dei perdenti. Buonismo? Poca fede nella meritocrazia? Niente di tutto questo. Ci sono due ragioni di natura tecnico-scientifica:
- Per distribuire i fondi in modo premiale non è necessario stilare classifiche: basta assegnare una certa quota di finanziamento ad ogni articolo giudicato di categoria A (eccellente), una certa quota un po’ minore agli articoli giudicati di categoria B (elevati) e così via. A ben vedere non è molto diverso dal metodo usato in Italia per convertire in finanziamento premiale i risultati della VQR. Anche se a molti, sfugge, non ci sarebbe nessuna necessità di produrre classifiche di qualità più o meno dubbia.
- Quando si costruisce una classifica che include istituzioni di dimensioni diverse (l’Università Kore di Enna e la Sapienza di Roma, per esempio), non è possibile sfuggire ad una trappola statistica che conduce, in modo quasi inevitabile, a risultati paradossali.
Già nel 2013, Roars aveva provato a spiegarlo all’ANVUR mediante questo grafico.
L’articolo, dal tono scherzoso, si intitolava: L’ANVUR, la classifica degli atenei della VQR e la legge dell’imbuto
Il punto chiave era ricordare che, in base alle leggi della statistica, le variazioni casuali sono più ampie per campioni poco numerosi. Ecco la ragione della disposizione “a imbuto” dei risultati della valutazione. Per i mega-atenei è difficile scostarsi molto dalla media (parte stretta dell’imbuto) mentre tra quelli piccoli (parte larga) si trovano i risultati eccezionali, sia nel bene che nel male. Ecco perché nelle classifiche globali della VQR capita quasi immancabilmente che Davide (Messina) sconfigga Golia (Politecnico di Milano).
Sergio Benedetto non si era però dato per vinto e aveva scritto un articolo in cui negava che le classifiche della VQR fossero contaminate da fenomeni statistici concludendo in modo perentorio:
Il caso non ha dunque nulla a che fare con i risultati della Vqr.
Per smontare la tesi degli “imbuti”, aveva anche riportato dei grafici relativi ai risultati della vecchia VQR 2004-2010. Ecco quello dell’Area 09.
In effetti, non sembra esserci grande traccia dell’imbuto.
3. Un bel braghettone e – cucù – l’imbuto non c’è più
E qui bisogna fare un excursus storico-artistico. Le nudità dipinte da Michelangelo nella Cappella Sistina furono fonte di scandalo per i contemporanei al punto da dare incarico a Daniele Ricciarelli (1509-1566), di coprire con panni e foglie di fico i genitali dell’affresco. Sebbene gli interventi di censura proseguissero anche nei secoli successivi, fu l’autore dei primi interventi a passare alla storia con il beffardo soprannome “Braghettone” con cui ancor oggi viene ricordato. In occasione dell’ultimo restauro, concluso nel 1994, sono state rimosse solo le “braghe tarde” mentre sono state mantenute, quelle cinquecentesche, a loro modo testimonianze della cultura del tempo.
Cosa c’entra “Braghettone” con Sergio Benedetto? Beh, se guardate attentamente il grafico dell’area 09 riportato da Benedetto, potete notare che l’asse delle x non parte da zero, ma da 100 (1). Tutti gli atenei che sottoponevano alla valutazione un numero di prodotti da 1 a 100 sono diventati invisibili, come se Sergio Benedetto e Roberto Torrini (coautore dell’articolo e, a quell’epoca, Direttore dell’agenzia) ci avessero dipinto sopra un bel “braghettone”.
Difficile entrare nella testa degli anvuriani. Lecito sospettare che, ingannati dal tono ironico dell’articolo di Roars, abbiano pensato che la “legge dell’imbuto” fosse una trovata più o meno estemporanea, priva di consistenza scientifica. Il grafico li contraddiceva? Niente paura! Basta metterci un “braghettone” e le “vergogne” non si vedono più.
4. Tutto il mondo sa … (ma non ANVUR)
In realtà, basta una spolverata di conoscenze statistiche per sapere che in tutto il mondo, per analizzare quel tipo di dati, si fa uso di speciali grafici, chiamati, guarda caso, “funnel plot” (grafico a imbuto).
Nel 2011, David Spiegelhalter, uno dei più noti (e citati) studiosi di statistica aveva demolito l’utilizzo delle classifiche per valutare i centri per l’adozione dei minori proprio sulla base di un funnel plot. Spiegelhalter ha un blog, intitolato “Understanding uncertainty”, su cui pubblica articoli divulgativi con l’intento di mettere in guardia i lettori nei confronti dei trabocchetti della statistica. Il titolo dell’articolo era eloquente:
Un’altra classifica di dubbio valore?
Il problema era lo stesso che troviamo nella VQR: stilare classifiche di istituzioni di diverse dimensioni (2).
Se a qualcuno venisse il dubbio che Sergio Benedetto e gli “alti esperti di valutazione” (non è uno scherzo, alcuni valutatori anvuriani ricevono questo titolo) siano rimasti vittima di qualche esoterica diavoleria statistica nota a pochi eletti, può levarselo con una veloce ricerca su Google. A conti fatti, l’interrogazione “funnel plot” restituisce circa 275.000 risultati.
Ma se c’è questo problema degli imbuti, come fanno allora le classifiche internazionali ad essere rigorose? La risposta è molto semplice: non sono per nulla rigorose e cadono vittima degli stessi paradossi delle classifiche VQR. Basterà ricordare l’exploit di Alessandria d’Egitto nei World University Rankings 2010-2011 di Times Higher Education (THE). Non solo si classificò 147-esima nella classifica generale (meglio di tutte le italiane), ma si collocò al quarto posto nella classifica delle citazioni, considerata da THE il fiore all’occhiello della sua metodologia. Se il rettore del Politecnico prova vergogna ad essere superato da Messina, può consolarsi pensando a cosa devono aver pensato i rettori di Stanford e Harvard, superati da Alessandria d’Egitto.
Infortuni ormai superati? No, non sono superati per la semplice ragione che gli imbuti sono sempre lì, in agguato. L’anno scorso, Times Higher Education ci ha fatto sapere che nella sua prestigiosa classifica la Libera Università di Bolzano precede Roma Sapienza, la Statale di Milano, Padova e Pavia. Non solo, ma nella classifica delle citazioni è la prima delle italiane.
Ma torniamo alle nostre classifiche anvuriane. Questo benedetto imbuto c’è o non c’è nell’Area 09, dove Messina supera il Politecnico di Milano? Giudicate voi stessi.
Cosa diceva Sergio Benedetto? “Una valutazione accurata, rigorosa e imparziale“. Ebbene, ci sia lecito coltivare qualche dubbio, quanto meno sui primi due aggettivi (per il terzo, rimandiamo all’ultimo capitolo del nostro Dossier VQR: Storie di ordinaria baronia nella VQR di area 13).
Ciò nonostante, nei nostri atenei abbondano i docenti che gonfiano il petto, inorgogliti dai propri successi nella VQR, mentre, con aria di sufficienza, guardano dall’alto in basso i colleghi “meno eccellenti”. Senza rendersi conto che per prendere sul serio le classifiche VQR è necessario dimenticare non solo il rigore che guida la ricerca scientifica, ma anche il semplice buon senso. Proprio come hanno fatto gli inventori di questa lotteria senza né capo né coda.
5. Ma non finisce qui
In realtà, l’ANVUR non è del tutto ignara dell’esistenza degli imbuti. Infatti, in aggiunta alla graduatoria complessiva, calcola anche le graduatorie per segmenti dimensionali: università piccole, medie e grandi. Non a caso, sono queste le classifiche a cui viene data la maggiore enfasi nei comunicati per la stampa. “Meno male!” dirà qualcuno, tirando un sospiro di sollievo. Non ci saranno più sorpassi umilianti e verranno finalmente ripristinati un pò di rigore e di imparzialità. In realtà, dividere l’imbuto in più parti è solo un palliativo, perché i problemi già visti nelle graduatorie complessive si ripropongono tali e quali all’interno dei segmenti dimensionali. Ma soprattutto, chi ha in mano la possibilità di decidere le linee di confine tra piccolo, medio e grande ha in mano le chiavi per assegnare le medaglie. “Impossibile!” obietterete voi. Se la definizione di ateneo piccolo, medio è grande viene stabilita prima di iniziare la gara, questi giochi delle tre carte sono chiaramente impossibili. Ma queste definizioni erano state data prima dell’inizio della gara? Oppure, sono state mantenute le definizioni usate nella precedente VQR 2004-2010? Se volete scoprire come sono andate le cose, restate con noi e aprite il prossimo capitolo del nostro Dossier VQR, che si intitola
_________
(1) La scelta di omettere gli atenei di “piccole dimensioni” era stata giustificata in questo modo: «Nella categoria dei microatenei si concentrano infatti sia le scuole superiori, ultra specializzate nella ricerca, sia le università telematiche, nate per soddisfare la didattica a distanza più che per fare avanzare la ricerca: non dovemmo attenderci che in questo segmento dimensionale i risultati siano molto polarizzati sulla base di scelte consapevoli ma niente affatto casuali?». Nella nuova VQR, per una singolare coincidenza, Roma UNICUSANO, un’università telematica che secondo Benedetto e Torrini dovrebbe finire nei bassifondi, si colloca al sesto posto nella graduatoria nazionale.
(2) Nel post sul suo blog, Spiegelhalter spiega che la forma dell’imbuto della figura deriva da una distribuzione cosiddetta “binomiale”. Sebbene i voti della nostra VQR non obbediscano a tale distribuzione, è lo stesso Spiegelhalter nei suoi lavori scientifici a spiegare come utilizzare i funnel plot anche negli altri casi. Negli uni e negli altri casi, rimane problematico il ricorso alle classifiche. In relazione alle Figure 1-2 qui sotto, che mostrano una classifica di ospedali ed il relativo funnel plot, Spiegelhalter scrive:
Figure 1 shows a league table of hospitals based on mortality following a fractured hip—this display is similar to that of the original publication. Such presentations have been criticized as leading to a spurious focus on rank ordering, when it is known that the rank of an institution is one of the most di cult quantities to estimate.
[…]
This funnel plot clearly reveals the bulk of the institutions as lying within the 95 per cent limits, and in particular emphasises that there is no basis for ranking the hospitals.