La bufala del giorno / VQR

Una lezioncina di aritmetica per il Consiglio direttivo dell’Anvur

Con l’ultimo comunicato stampa dell’ANVUR, anche la valutazione della ricerca entra a pieno diritto nell’era della post-verità. I risultati della VQR non escono dal cassetto, ma in compenso il Presidente Graziosi ci informa che «L’università italiana si è messa in moto convergendo verso uno standard comune e più elevato della qualità della ricerca. In media, gli atenei che avevano un livello della qualità della ricerca relativamente basso si sono rimboccati le maniche e, se non hanno scalato posizioni, almeno hanno ridotto lo svantaggio». La prova della convergenza? Se si considera l’indicatore che confronta qualità e dimensione, la distanza tra i primi e gli ultimi atenei si sarebbe accorciata. A Peppe, però, basta qualche semplice calcolo aritmetico per mostrare a Gedeone che la convergenza sbandierata dall’ANVUR  è solo un’illusione ottica. Infatti, come effetto collaterale della nuova scala dei punteggi usata nella VQR 2011-2014, l’indicatore che confronta qualità e dimensione viene riscalato verso il basso rispetto alla vecchia VQR. Di quanto? Di un fattore 0,7 che è più o meno proprio quello che ha fatto gridare al miracolo la nostra agenzia di valutazione.

tg1_vqr

1. La guerra per la valutazione, ininterrotta e asprissima, è vinta

Gedeone fischiettava dalla gioia mentre con passo spedito si dirigeva verso l’ufficio di Peppe, il suo collega e amico-rivale. A metterlo di buon umore era stata l’improvvisata del Presidente dell’Anvur che all’inizio della settimana aveva tenuto una conferenza stampa  in cui aveva anticipato alcuni risultati della nuova VQR [ripresi dai principali organi di informazione, TG1 incluso, NdR]. Gedeone, come tanti colleghi era ansioso di conoscere i voti e le classifiche per sapere se il suo ateneo e il suo dipartimento avevano guadagnato o perso posizioni, ma anche perché c’erano in vista decisioni importanti sui collegi di dottorato e, in cuor suo, sperava che qualche votaccio nella VQR gli togliesse dai piedi un paio di colleghi che non aveva mai sopportato.

Con un certo disappunto, aveva dovuto prendere atto che per le tabelle complete dei voti ci sarebbe stato ancora da aspettare (fino a fine febbraio dicevano i soliti bene informati), ma l’impazienza aveva subito ceduto il posto alla soddisfazione per quello che il presidente Graziosi aveva spiegato ai giornalisti:

Oggi, invece, vediamo che le differenze tra atenei si riducono e tutto ci fa pensare che la qualità media del lavoro delle università si sia innalzata. Si può, dunque, ipotizzare che gli esercizi di valutazione abbiano raggiunto uno degli obiettivi che si erano prefissati: favorire una convergenza verso uno standard comune e più elevato della qualità della ricerca.

Insomma, a dispetto di gufi e colleghi ipercritici, la valutazione cominciava a dare i suoi frutti. E lui, Gedeone, era uno di quelli che ci aveva creduto fin dall’inizio. Non aveva  perso la fede neppure quando i consiglieri Anvur paragonavano Suinicultura (sì l’avevano scritto proprio così) al Caffè di Pietro Verri oppure quando il presidente Graziosi teorizzava che in una selezione pubblica per accedere al ruolo di consigliere Anvur, non ha senso discutere di possibili plagi, perché gli elaborati presentati dai candidati sarebbero documenti privati.

Episodi discutibili, ma niente più che episodi, dopo tutto.

Nella sua euforia, gli sembrava persino che il tono del comunicato stampa riecheggiasse la prosa altisonante del bollettino della vittoria di Armando Diaz. In effetti, sotto i colpi di quel grafico che Gedeone teneva in mano, i resti degli oppositori dell’Anvur non potevano che ritirarsi “in disordine e senza speranza”.

old_vs_new_graziosi

Il grafico, nella sua semplicità, evidenziava un fatto incontrovertibile: i risultati della nuova VQR, sintetizzati dalla curva blu, più alta e più stretta, dimostravano che la forbice tra più bravi e meno bravi si andava restringendo. La curva rossa, più bassa e larga, mostrava che nella prima VQR c’erano brocchi impresentabili (a sinistra) che potevano scorgere solo col binocolo i fuoriclasse della coda all’estrema destra. Adesso, invece, il plotone si era ricompattato e si marciava finalmente uniti verso un radioso futuro:

L’università italiana si è messa in moto convergendo verso uno standard comune e più elevato della qualità della ricerca. In media, gli atenei che avevano un livello della qualità della ricerca relativamente basso si sono rimboccati le maniche e, se non hanno scalato posizioni, almeno hanno ridotto lo svantaggio.

Non era vero che la competizione era destinata ad aggravare gli squilibri e che avrebbe portato al collasso gli atenei più deboli, quelli del mezzogiorno in testa. Insomma, si poteva ben dire che «la macchina è stata messa in moto».

Mentre pensava compiaciuto che la guerra per la valutazione era finalmente vinta, Gedeone era arrivato a destinazione. Anche quel bastian contrario di Peppe, messo di fronte all’evidenza, avrebbe dovuto ammetterlo.

2. La convergenza immaginaria

-Ciao Peppe, hai saputo della VQR? Guarda qui …

-Senti, oggi è meglio che mi lasci stare. Sono ancora qui che friggo per il consiglio di classe di mio figlio a cui ho partecipato ieri sera.

Peppe sembrava veramente fuori di sé e Gedeone non osò interromperlo, sebbene morisse dalla voglia di prendersi la sua rivincita sul collega. Una bella testa – non c’è che dire – ma totalmente e ingiustamente prevenuto nei confronti della valutazione.

-Lo sai cosa è successo? Il professore di Latino all’inizio dell’anno aveva somministrato un test di ingresso che aveva restituito un quadro assai preoccupante. I più bravi prendevano 9 e 10, ma c’era anche una buona parte della classe che stazionava dal 4 in giù. A distanza di tre mesi, ha svolto un altro test e ieri, tutto trionfante, è venuto a mostrarci il confronto delle distribuzioni dei voti delle due prove. Più o meno, il discorso era questo:

la distribuzione è ora molto più concentrata attorno al valor medio. In altri termini, a 3 mesi di distanza dal primo test, i voti degli studenti appaiono molto più vicini tra loro. In media, i ragazzi che avevano un livello di preparazione relativamente basso si sono rimboccati le maniche e, se non hanno scalato posizioni, almeno hanno ridotto lo svantaggio. Oggi, invece, vediamo che le differenze si riducono e tutto ci fa pensare che la qualità media si sia innalzata. Si può, dunque, ipotizzare che il corso di recupero abbia raggiunto uno degli obiettivi che si erano prefissati: favorire una convergenza verso uno standard comune e più elevato della qualità della preparazione.

Gedeone taceva, cercando di capire se Peppe stava scherzando. Si trattava di un’allusione alla VQR? No, non era un’allusione. Peppe ce l’aveva proprio con il Professore di Latino di suo figlio.

-Nonostante la sua boria, questo qui  il latino se lo ricorda peggio di me e te, tanto è vero che il suo corso di recupero è andato poco oltre ripasso di  rosa-rosae. Ma questa volta ci ha rimesso la faccia. Aveva appena finito di parlare che, Gianni, mio figlio, alza la mano e, papale papale, gli ricorda che nella seconda prova era stata cambiata la regola per convertire il numero di risposte esatte in voto decimale. Nella prima prova il voto era proporzionale al numero di risposte esatte: con 10 su 10 prendevi 10, con 9 su 10 prendevi 9 e così via. Nella seconda prova, invece, ha cambiato regola e, per dare i voti, ha usato questa formula:

voto = 1.5 + 0.75 x N

dove N è il numero di risposte esatte. Con 10 risposte su 10, il voto non era più 10 ma 1.5 + 7.5 = 9. Inoltre, non potevi più prendere meno di 1,5, persino quando non ne azzeccavi neppure una. Insomma, l’intervallo dei voti, che andava da 0 a 10, si è accorciato e ora va da 1,5 a 9.

Gedeone stava sbiancando, ma Peppe era talmente infervorato che non se ne accorse.

-Per forza che la distribuzione diventava più stretta! Perfido come suo padre, Gianni si era già stampato una trentina di fogli con la distribuzione dei voti del primo test, ricalibrati in base alla nuova regola. Li fa girare tra genitori e compagni di classe e tutti si accorgono che la distribuzione è praticamente identica a quella della seconda prova. Il restringimento era solo dovuto alla diversa scala dei voti. A distanza di tre mesi, ad essere cambiata  non era la preparazione degli studenti ma la metrica usata per misurarla. Il professore ha tentato di balbettare qualche giustificazione, ma poi ha visto che alla sua destra il collega di matematica stava per scoppiare a ridere. Allora, ha preso le sue carte e se n’è andato con la coda tra le gambe. Che figura!

Ma tu cosa volevi dirmi sulla VQR?

3. Per fortuna che ci sono Beltram e la Terracini

Gedeone, ormai terreo, cercò invano di cambiare discorso, invocando la fretta di andare alla festa di Natale del dipartimento. Peppe insisteva e non capiva l’improvvisa ritrosia dell’amico. Gedeone, sull’orlo della disperazione, ebbe un’improvvisa illuminazione: non era possibile che l’ANVUR fosse caduta nello stesso infortunio del professore di Latino. Senza alcun dubbio, il comunicato stampa era stato rivisto dagli altri consiglieri, tra cui vi sono matematici e fisici di tutto rispetto.

Rincuorato da questo pensiero, Gedeone tirò fuori dalla tasca il foglio con la figura delle due distribuzioni. Per il nervosismo, l’aveva un po’ accartocciato, ma una volta disteso sulla scrivania, si leggeva ancora bene.

Mentre Gedeone riassumeva il comunicato stampa dell’ANVUR, Peppe lo guardava sbalordito.

-Scusa, Gedeone, mi stai prendendo per i fondelli? Vorresti farmi credere che Graziosi ha usato lo stesso ragionamento del professore di Latino di mio figlio? Lo sai che non ho molta stima degli anvuriani, ma c’è un limite a tutto …

-No, Peppe, non ti prendo in giro. E poi, non vorrai mica mettere sullo stesso piano un professore di Latino con due fuoriclasse della Fisica e della Matematica che avranno sicuramente aiutato Graziosi ad interpretare i risultati della VQR. E poi, non stiamo usando due scale dei voti diverse, ma i risultati di due VQR che …. ehm …

Nello stesso momento in cui pronunciava queste parole, Gedeone si era ricordato che la scala dei voti della VQR 2011-2014 era diversa da quella della VQR 2004-2010. «Maledizione, non sarà mica possibile che …» pensò, mentre si mordeva la lingua.

– Appunto: due VQR che usano due diverse scale dei voti, proprio come ha fatto il professore di Latino di mio figlio. Se te le sei scordate, te le ricordo io:

VQR 2004-2010

  • Percentile 80-100: 1,0
  • Percentile 60-80: 0,8
  • Percentile 50-60: 0,5
  • Percentile 0-50: 0,0
  • Prodotto mancante: -0,5
  • Non valutabile: -1.0
  • Plagio – frode: -2.0

VQR 2011-2014

  • Percentile 90-100: 1,0
  • Percentile 70-90: 0,7
  • Percentile 50-70: 0,4
  • Percentile 20-50: 0,1
  • Percentile 0-20: 0,0
  • Non valutabile: 0,0

Gedeone, che sudava freddo, fece del suo meglio per ostentare sicurezza.

-Figurati se i consiglieri ANVUR non ci hanno pensato! E comunque l’equazione che lega nuovi e vecchi punteggi non è una retta come nel caso dei test di Latino. La situazione non si lascia analizzare in modo così semplice. Avranno fatto i loro calcoli e avranno concluso che la riduzione delle differenze tra atenei non può essere ricondotta al cambio delle regole, ma riflette un fenomeno reale. Ora, però, sarà meglio che ci occupiamo d’altro. Tra un quarto d’ora inizia la festa di Natale del dipartimento. Lascia stare la VQR. Lo sai bene che, messi di fronte ad un buffet, i nostri colleghi sono peggio delle cavallette e non vorrei rimanere a bocca asciutta dopo che ho versato i miei dieci euro.

4. Per il debunking di Anvur basta un quarto d’ora

Peppe esitò un attimo. Sentiva l’odore del sangue, ma anche lui ci teneva al rinfresco dipartimentale. Effettuare il debunking del comunicato Anvur in un quarto d’ora sembrava una vera mission impossible. Stava per desistere, quando gli si accese la classica lampadina.

-Tranquillo, Gedeone, ti chiedo 15 minuti, non uno di più. Se ci dividiamo i compiti ce la possiamo fare. Usa il mio PC per recuperare e aprire le tabelle del Rapporto della prima VQR. Mi serve sapere quale è stato il voto medio di tutti i prodotti valutati. Io intanto, faccio un pò di calcoli con gli IRAS1.

Gedeone acconsentì di malavoglia e, collegatosi al sito dell’ANVUR, si mise a rovistare tra gli esiti della prima VQR. Finalmente, nella Tabella 6.1, trovò i dati che servivano. Per ottenere il voto medio bastava un semplice calcolo in Excel. Intanto, Peppe aveva armeggiato febbrilmente sulla tastiera del suo portatile. Proprio mentre Gedeone annunciava soddisfatto

-Il voto medio della VQR 2004-2010 è stato 0,570 …

Peppe faceva comparire il seguente grafico.

old_vs_old_recal_rev2

Gedeone, si sentì sollevato.

-Vedi, Peppe, che i conti dell’Anvur erano giusti? Anche tu trovi le stesse curve: nella nuova VQR la distribuzione diventa più alta e stretta rispetto a quella della vecchia VQR, un chiaro segno della convergenza verso uno standard comune …

-No, Gedeone, non è quello che pensi. Aspetta che metto anche la legenda.

old_vs_old_recal_legend_rev2

-La curva arancione è la distribuzione della vecchia VQR, ma la curva blu non è quella della nuova VQR. La curva blu è la distribuzione che avremmo visto nel luglio 2013 – data di pubblicazione degli esiti della VQR 2004-2010 – se i punteggi fossero stati assegnati con la scala adottata nella nuova VQR 2011-2014.

La “convergenza” che ti sembra di vedere è un’illusione. Le due curve si riferiscono agli stessi prodotti, ma misurati con due scale diverse. Quando si adotta la nuova scala, la distribuzione si alza e si restringe. Ho fatto lo stesso esercizio che aveva fatto mio figlio ricalcolando i voti del primo test di Latino, utilizzando la nuova scala.

-Ma … ma … come hai fatto??

-Mi sono ricordato che l’anno scorso un collega mi aveva spiegato che con un po’ di pazienza era possibile ricalibrare gli indicatori IRAS1 della vecchia VQR, in modo da simulare l’effetto della nuova scala di punteggi. Purtroppo, è un lavoro un po’ noioso che va fatto per ognuna delle 16 aree CUN. Avevo anche iniziato a farlo, ma dopo 5-6 aree mi ero stufato. Poco fa, però, mi è venuta un’idea. Se la conversione da vecchi a nuovi punteggi viene approssimata con una retta, la ricalibrazione degli indicatori IRAS1 si ottiene in un batter d’occhio.

Gedeone ascoltava a bocca aperta.

-Mentre tu rovistavi nel Rapporto VQR, io ho considerato questa approssimazione lineare

v_new = a + b v_old

dove v_new è la conversione nella nuova scala del voto v_old assegnato con la vecchia scala. Ho fatto un po’ di conti (che ti posso spiegare dopo il rinfresco) e ho trovato

  • a = 0,136
  • b = 0,627

 

old2new_rev2

-Va bene, Peppe, fin qui ti seguo, ma come hai fatto ad ottenere la distribuzione della differenza % tra IRAS1 e quota dimensionale?

-È un gioco da ragazzi. Per ricavare le formule bastano pochi minuti. Le ho scritte su questo foglio:

dimostrazione_rev3

Gedeone diede un’occhiata. Erano conti abbastanza facili, alla portata di uno studente delle superiori. Intanto, Peppe procedeva inesorabile.

-Se chiamo Ai la distribuzione della differenza % tra IRAS1 e quota dimensionale per l’i-esimo ateneo, si ottiene facilmente la seguente formula:

Ai_new = 0,724 Ai_old

In soldoni, il cambiamento delle regole con cui vengono assegnati i punteggi comporta una riduzione uniforme di tutti gli indicatori Ai che vengono moltiplicati per 0,724. Di conseguenza, la distribuzione diventa più alta e stretta, nonostante i prodotti della ricerca siano sempre quelli. Quello che hai davanti agli occhi è lo stesso identico miraggio dei voti dei test di Latino della classe di mio figlio.

Facciamo un’ultima verifica. Nel seguente grafico riportiamo tre curve:

  • distribuzione di Ai per VQR 2004-2010 con vecchia scala (arancione);
  • distribuzione di Ai per VQR 2004-2010 dopo conversione nella nuova scala  (blu);
  • distribuzione di Ai per VQR 2011-2014 con nuova scala (giallo).

old_recal_vs_new_rev2

Mio caro Gedeone, come puoi vedere, la curva blu e quella gialla sono abbastanza simili: la distribuzione della nuova VQR è simile a quella che potevamo predire ricalibrando i voti della vecchia VQR.

[Qui Peppe omise di dire che, proprio quella mattina, una “gola profonda” gli aveva mandato il file Excel degli IRAS1 della nuova VQR, senza i quali non avrebbe potuto tracciare la curva gialla. Ma Gedeone era troppo groggy per domandare come mai Peppe avesse a disposizione i dati non ancora pubblicati. NdR]

5. La “convergenza”: un esempio di post-verità?

Gedeone sembrava una statua di sale, mentre Peppe chiudeva il portatile e si alzava in piedi.

-Non vieni al rinfresco? Se ci muoviamo subito, arriviamo appena in tempo Hai visto che i 15 minuti sono bastati?

-Ma allora tutti i bei discorsi sugli atenei che “si sono rimboccati le maniche” e che “se non hanno scalato posizioni, almeno hanno ridotto lo svantaggio”?

Peppe non rispose. Si limitò a prendere dalla scrivania la stampa del grafico di Graziosi e la strappò in quattro parti che lasciò cadere nel cestino con un sorriso di compatimento.

-Dai, non stare impalato, andiamo a scalare posizioni nella coda per il buffet. Ho bisogno di mettere sotto i denti qualcosa di concreto.

 

Send to Kindle
Tag: , , , , , , , , ,

46 Comments

  1. roberto moscati says:

    Grazie al “disvelamento” di ROARS. Ottimo per un promettente inizio dell’anno!
    Auguri a tutta la redazione!

Sostieni ROARS

Sostieni ROARS