In questo breve contributo viene discusso l’effetto dell’ “errore di misura” sulle classifiche delle strutture nella VQR. Mediante delle semplici simulazioni numeriche viene mostrato che anche una piccola probabilità di errore da parte delle commissioni nella valutazione del singolo articolo può comportare un significativo cambiamento del ranking. Inoltre, viene discussa la sensibilità delle classifiche alla particolare scelta dei punteggi numerici assegnati ai lavori: persino la modifica di un singolo valore assegnato ad una classe di merito – ad esempio, l’attribuzione di 0.7 invece di 0.8 per i lavori ritenuti “buoni” – può incidere sostanzialmente sulla classifica delle strutture.
Sono i primi giorni di agosto. Giorni di ferie, in cui mi sono ripromesso di non occuparmi di ricerca o didattica per un po’. Ma continua a frullarmi nella mente una battuta con un collega all’indomani della pubblicazione dei risultati della VQR e delle relative classifiche: “ma hanno tenuto conto dell’errore di misura?”. Ed allora decido di rompere parzialmente la promessa, aprire il portatile e fare qualche semplice simulazione.
Prima di procedere vorrei formulare una triplice premessa.
Per prima cosa non concordo con molti degli assunti e dei metodi adottati dall’ANVUR, anche se li riproporrò nel seguito in maniera semplificata: a mio modestissimo parere, credo che diversi aspetti della VQR, nella sua attuale impostazione, non la rendano adeguata ad effettuare una valutazione scientificamente seria dell’università e degli enti di ricerca, come ampiamente suggerito nei vari contributi di ROARS.
Secondo: pur non rientrando direttamente tra i soggetti valutati, in quanto nel periodo di riferimento ero prima addottorando e poi assegnista di ricerca, faccio presente che il mio dipartimento ed il mio gruppo di ricerca hanno ottenuto una buona valutazione; pertanto non è certo con spirito di rivalsa che sono arrivato alle considerazioni che riporterò di seguito.
Come ultimo punto, vorrei inoltre sottolineare che le riflessioni espresse in questa sede devono essere prese con le dovute cautele, a causa delle varie e già menzionate semplificazioni, che renderanno le mie valutazioni poco più di un sudoku estivo. Un sudoku che però potrebbe risultare piuttosto istruttivo.
La domanda da cui sono partito è la seguente: come vengono influenzati i vari ranking e le relative valutazioni della VQR dalla presenza dell’ “errore di misura”? I valutatori, infatti, in virtù della loro natura umana, non sono infallibili e potrebbe capitare – ad esempio – che un prodotto buono sia classificato come eccellente e viceversa. Anche nel caso in cui la classificazione fosse eseguita in modo automatico, potrebbe capitare che qualcuno dei parametri bibliometrici considerati risulti erroneo: con una citazione in più o in meno si passa facilmente da una classe di merito all’altra. E’ pertanto più che lecito chiedersi come questi fenomeni possano influenzare la valutazione finale di un’intera struttura.
Non avendo a disposizione i dati reali procederò ad effettuare alcune simulazioni su dei soggetti fittizi. Considererò 100 strutture di ricerca con un numero di ricercatori valutati compreso tra 20 e 40. Per ogni ricercatore supporrò che la valutazione di ciascuno dei suoi tre lavori possa aver assunto con uguale probabilità i valori numerici [0, 0.5, 0.8, 1] adottati dall’ANVUR (per semplicità ho escluso i casi relativi ai valori -1 e -2, statisticamente meno frequenti). La fotografia dell’insieme di strutture che si ottiene in questo modo è riportata nella figura 1. Come si può osservare dal grafico, la media della valutazione varia tra 0.48966 e 0.68667, con una distribuzione della media che sembra affetta solo moderatamente dall’effetto imbuto, a causa della relativa omogeneità tra le dimensioni delle strutture. Mi preme sottolineare che la scelta di considerare ugualmente probabile la classificazione di merito di un lavoro è arbitraria e intesa unicamente a generare lo scenario iniziale, che resterà fisso per il resto delle simulazioni.
Figura 1: Media della valutazione dei prodotti al variare del numero di ricercatori per le 100 strutture considerate. |
Supponiamo ora che le valutazioni possano essere soggette ad errore, con una probabilità relativamente bassa. In particolare, ipotizziamo che nel solo 1% delle singole pubblicazioni, la valutazione possa aver sopravvalutato (o sottovalutato) il prodotto di una classe di merito (passando ad esempio da 0.5 a 0.8, o da 1 a 0.8). Con una terminologia derivata dal calcolo delle probabilità mi riferirò con il termine “realizzazione” ad una fotografia delle strutture valutate, nell’ipotesi che siano stati effettuati degli errori casuali con la probabilità considerata.
In figura 2 ho riportato un esempio di realizzazione, confrontando la media tra i soggetti in assenza ed in presenza dell’errore di valutazione. Come era prevedibile, in alcuni casi l’errore ha effetti positivi sulla media, in altri ha un effetto negativo. In figura 3 ho invece riportato l’effetto dell’errore sul rank delle strutture, che arriva, in questa particolare realizzazione, ad un’oscillazione massima di ben 18 posizioni.
Figura 2:Variazione della media per i soggetti valutati in caso di probabilità di errore dell’1% |
Figura 3: variazione della posizione in classifica in caso di probabilità di errore dell’1% |
Naturalmente, le due figure viste in precedenza, trattando una singola realizzazione, non possono assumere un elevato valore statistico. Per ovviare a questo problema in figura 4 viene riportata la probabilità di avere una differenza delle posizioni nel ranking maggiore o uguale di una certa soglia, ottenuta considerando 1000 realizzazioni. La probabilità di avere una variazione del ranking di 5 o più posizioni è del 10%!
Figura 4: Probabilità di avere una variazione nella classifica maggiore o uguale al valore riportato in ascissa con una probabilità di errore di valutazione del singolo prodotto dell’ 1% |
C’è da sottolineare che i valori ottenuti sono relativi alla particolare popolazione di strutture considerata, ma l’aspetto interessante è che anche una probabilità minima di errore pari all’1% sulla valutazione del singolo lavoro porta ad avere delle differenze non trascurabili sulla classifica globale. Per vedere l’effetto di una maggiore incidenza di errore di valutazione ho considerato anche una probabilità di errore sul singolo articolo del 5%, il che significa sbagliare di una sola classe la valutazione di un lavoro su 20 – ipotesi in fondo non così irragionevole. In tal caso si ottiene il grafico riportato in figura 5. Lascio a voi lettori i commenti.
Figura 5: Probabilità di avere una variazione nella classifica maggiore o uguale al valore riportato in ascissa con una probabilità di errore di valutazione del singolo prodotto del 5% |
C’è poi un secondo aspetto della VQR che mi ha fatto riflettere molto, ossia l’assegnazione dei valori numerici [0, 0.5, 0.8, 1] alle quattro “classi di merito” considerate. Tale scelta è del tutto arbitraria, ma le sue conseguenze sulla valutazione e sui ranking delle strutture sono tutt’altro che banali.
In via ipotetica, se le classi di valutazione dei lavori fossero solo due, la classifica ottenuta risulterebbe sempre la medesima, qualunque fosse il valore assegnato a ciascuna delle due classi (purché si trattasse di valori numerici distinti). Ma da tre classi di merito in su, i valori assegnati contano in modo considerevole. Considerando un banale esempio, un’ipotetica struttura con due lavori valutati 0.5 e 1 otterrebbe una media inferiore ad una struttura con due lavori stimati 0.8 e 0.8. E cosa accadrebbe se invece di 0.8 si scegliesse il punteggio di 0.7 o 0.75? La posizione relativa in classifica delle due strutture cambierebbe.
Qual è dunque il criterio giusto per scegliere i punteggi da attribuire alle singole classi di merito? Le possibili scelte numeriche equivalgono, ovviamente, a pesare in maniera diversa ciò che si ritiene eccellente, buono ed accettabile. Per fare un paragone sportivo, è come passare da un campionato con tre punti assegnati alla squadra vincitrice piuttosto che due – con tre punti la vittoria è più “premiata” rispetto al pareggio. Io, nel mio piccolo, non saprei quale criterio adottare, ma sono curioso di capire come le classifiche possano essere influenzate da quella che, alla fine dei conti, è una scelta del tutto arbitraria.
Ad ogni modo, in figura 6 è possibile vedere qual è la variazione nella media se consideriamo la sola variazione del valore numerico scelto per i prodotti di buona qualità, passando da 0.8 a 0.7, mentre in figura 7 viene mostrato l’effetto della stessa variazione sul ranking. A parte un’ovvia diminuzione del valore della media, in ben 16 casi abbiamo una variazione della posizione in classifica maggiore o uguale a 5 posizioni!
Figura 6: Variazione della media dei prodotti con un cambiamento di un solo valore di una classe. |
![]() |
Figura 7: Variazione del ranking delle strutture con un cambiamento di un solo valore di una classe. |
Variazioni ancora più significative possono essere ottenute se a cambiare sono i valori numerici assegnati a due classi di merito invece che ad una sola. In figura 8 è riportata la variazione nel ranking ottenibile se i valori numerici assegnati sono [0, ⅓, ⅔, 1]. Il grafico che se ne ricava ha qualcosa di grottesco se si pensa all’eventuale studente che deve scegliere tra la Facoltà A e la Facoltà B alla quale iscriversi (mi si perdoni il termine Facoltà, ma sono un nostalgico).
![]() |
Figura 8: Variazione del ranking delle strutture con un cambiamento del valore di due classi. |
Vorrei ora esprimere una considerazione finale sui risultati ottenuti. Ho esaminato due diversi aspetti per cercare di capire la “sensibilità” di alcuni dei procedimenti adottati nella VQR. Le prove che ho effettuato non hanno la pretesa di fornire dei risultati validi in senso assoluto, ma di mostrare, da un punto di vista un po’ diverso da quelli espressi in precedenza su ROARS, che le classifiche sono degli strumenti caratterizzati da un tale livello di sensibilità ed arbitrarietà che il loro impiego dovrebbe essere inteso solo come un dispettoso sudoku estivo. E non certo per dividere i buoni dai cattivi o per “indirizzare” le scelte degli studenti.
Un appunto filologico/epistemologico: sono personalmente contrario a stringere eccessivamente le consonanze fra “misurazione” e “valutazione”, e cerco sempre di usare in maniera semanticamente disgiunte i due concetti.
Non possiamo parlare di “errore di misura” per quanto riguarda la valutazione, anche se possiamo ben usare tutti gli attrezzi della statistica per analizzare il campione delle valutazioni concretamente effettuate.
Scusate, ma personalmente io trovo che dare un punteggio pari a zero alla fascia D (che riepiloga anche riviste internazionali con IF a 5 anni ed AIS) non tenga adeguatamente in conto il lavoro dei ricercatori per pubblicare su tali riviste. Proposta? un punteggio di 0.2.
Va anche considerato che esiste una rilevante differenza tra riviste nell’ambito della stessa fascia.
Il punto è proprio questo: quando si assegnano dei valori numerici a degli indicatori qualitativi, qualsiasi scelta di valori numerici crescenti è tanto valida quanto arbitraria (perchè non -0.1 o 0.3333?) e si troverà sempre qualcuno scontento. Lo ribadisco, io, nel mio piccolo, non saprei proprio qual è la scelta migliore per “pesare” i lavori.
per capire meglio: stai assumendo in pratica che una struttura che presenta 100 lavori, se uno di questo viene classificato male, puo’ perdere/guadagnare 5 posizioni nel 10% dei casi? possiamo dire, se leggo bene la fig 4, che nel 30% dei casi l’errore e’ >= 2.3 posizioni e quindi nel 70% dei casi minore di 2.3? e che quindi lo scarto a 1 sigma sia di circa 2.3 posizioni? questa sarebbe una semplice rule-of-thumb per misurare l’incertezza sul ranking.
Volendo è possibile estrarre alcune “rule of thumb” dalle simulazioni (come quelle che citi), ma le semplificazioni considerate nel modello che ho implementato sono tali da non rendere tali regole empiriche affidabili. Se avessi a disposizione i dati reali, e con un po’ di lavoro sul modello, si potrebbe fare un’analisi statistica dettagliata ma, come ho già detto nel contributo, mi interessava solo mostrare l’elevata sensibilità dei ranking, per i quali piccole probabilità di errore possono portare a “stravolgimenti” nelle classifiche.
Adesso BASTA! Ho finalmente visto le mie valutazioni individuali sui prodotti presentati alla VQR. Un Meridiano Mondadori, un libro pubblicato in Francia per le Presses de la Sorbonne (testi strarecensiti e stracitati)e un articolo uscito su “Critique” (più che fascia A)sono stati valutati in maniera uniforme 0,8, cioé Buono. Me lo aspettavo. Però che faccia tosta. Chiederei quali prodotti sono stati giudicati eccellenti in 10/H1 (Lingua, letteratura e cultura francese). Certo non quelli dei Gev e capi Gev di area, dei quali ho avuto occasione, su Roars, di denunciare i limiti scientifici e di prestigio. Chiedendomi, come mi chiedo ancora: chi li ha designati e perché?
Mi scuso per l’arroganza (apparente), ma non si può scherzare sulla qualità della ricerca. In questo campo. la privacy non esiste.
Mariella, non ti scusare di nulla. Però ti contraddico: penso proprio che a questo punto l’unica cosa che si possa fare è scherzare. Io ho avuto due 0,8 in un libro e in un articolo e nella mia ultima serissima monografia (fra l’altro in collana antica e prestigiosa) ho avuto 0. Cioè: zero. A questo punto mi è solo venuto da ridere! Certo, chiederò spiegazioni, ma mi pare tutto talmente farsesco che non si può prendere sul serio.
Suvvia un po’ di modestia, che sarà mai curare un meridiano mondadori e un libro per la sorbonne dedicati a qualche sfigato scrittore francese. Per di più senza Impact Factor.
Proviamo a metterla sul ridere. Perché c’è solo da piangere.
E state sicuri che non cambia niente a breve.
In realtà, a pensarci bene, a meno che nel mio caso non sia un errore materiale (possibilissimo data la quantità di dati che hanno gestito, ho comunque già chiesto spiegazioni), io farò ricorso. E’ un provvedimento amministrativo quindi il TAR è sicuramente competente.
Tra le varie assurdità, il referee potrebbe aver scritto:
Mondadori = editore commerciale e non scientifico;
Presses de la Sorbonne = piccolo editore universitario;
“Critique” = rivista non in fascia A…
Il problema vero, però, è che non ci sono stati trasmessi dei giudizi, ma dei numeretti.
Suvvia. I numeri sono valutazioni oggettive.
Grazie a Sandy e ad Alberto Baccini, Hanno ragione. Come scriveva Stendhal: “Un po’ di allegria può salvarci dalla nostra miseria” (durante la Campagna di Russia). Chiedo scusa ai Gev per la citazione.
Inizio a pensare che l’ipotesi di un errore di valutazione in un caso su venti sia un po’ ottimistica…