L’ANVUR ha appena pubblicato le linee guida per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD). In mezzo all’abituale pot-pourri di indicatori, spicca un test “scova-fannulloni” che dovrebbe penalizzare gli SSD di un dipartimento la cui produttività è molto più bassa della media nazionale. Gedeone, un professore che fa del suo meglio per restare aggiornato sulle metodologie di valutazione, ha dei dubbi sulla correttezza statistica del test e si rivolge al collega ed amico Peppe. L’analisi dell’ultimo ritrovato bibliometrico dell’ANVUR diventa l’occasione per rievocare i bei vecchi tempi dell’università ed in particolare la disavventura in cui era incappato il loro comune amico Sergio B., inventore di un test assai simile a quello dell’ANVUR …
1. Evviva! ANVUR inventa il test scova-fannulloni
Era da prima dell’estate che Gedeone non faceva visita al suo collega Beppe. Oggi, però, Gedeone aveva un’ottima ragione per chiedere aiuto al suo consulente in tema di valutazione. L’ANVUR aveva appena pubblicato le linee guida per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD). A pagina 8 delle Linee Guida, nella sottosezione 3.1.2., “Criteri di valutazione della produzione scientifica”, c’era una specie di test “scova-fannulloni” che lo lasciava perplesso
Arrivò davanti allo studio di Peppe proprio mentre uno studente se ne usciva mogio mogio. Doveva essere venuto a farsi spiegare il perché della sua insufficienza nella prova scritta. A corroborare questa ipotesi c’era un compito sulla scrivania di Peppe, marchiato con un “insufficiente” scritto in rosso sulla prima pagina.
– Ciao, Peppe, come ti va?
– Non male, grazie. Andrebbe meglio se gli studenti smettessero di venire a provare lo scritto senza aver studiato la teoria.
Pur essendo un buon diavolo, Peppe non era immune dalle tirate retoriche sugli studenti sfaticati.
– Senti Peppe, mi daresti una mano a decifrare queste linee guida dell’ANVUR? In particolare, dai un occhio a queste righe evidenziate in giallo.
Prima della valutazione, verranno calcolate, per ognuno degli SSD presenti nel Dipartimento, la media e la deviazione standard del numero di pubblicazioni, distinte per categoria, per persona, inserite dai Dipartimenti di tutti gli Atenei. Se il numero di pubblicazioni per persona inserite dal Dipartimento per un dato SSD rientra in un intervallo di ampiezza pari al doppio della deviazione standard intorno al valor medio, esso sarà considerato nella norma e si procederà alla valutazione. Se risulta inferiore al valor medio diminuito di 2 volte la deviazione standard, l’indicatore finale verrà moltiplicato per un peso inferiore a 1 che dipende dalla distanza dal valor medio nazionale.
Linee guida per la compilazione della SUA-RD (parte prima e seconda) pag.8
Mentre Peppe prendeva in mano il foglio, Gedeone proseguì.
– Ti dirò: a me piace l’idea di introdurre un test scova-fannulloni per gli atenei poco produttivi, ma questo test ha qualcosa che non mi convince. Ho un vago ricordo di aver già visto un procedimento simile quando eravamo studenti e che fosse errato. Tu che sei un indiscusso esperto di analisi dati, cosa ne pensi?
2. La giustizia anvuriana è uguale per tutti?
Peppe esaminò in silenzio quelle poche righe. Pochi secondo ed un lampo gli passò negli occhi, come se d’improvviso avesse diradato ogni dubbio. Stava per aprire bocca, ma la prima lettera, una “S” sibilante, gli morì sulle sue labbra, come se avesse repentinamente cambiato idea. Non voleva bruciarsi l’effetto sorpresa. Giocare al gatto e al topo con Gedeone era uno dei suoi svaghi preferiti.
– Caro Gedeone, credo che la via più rapida e convincente per valutare questo criterio sia metterlo alla prova mediante delle simulazioni. Ho il sospetto che questo criterio possa favorire gli atenei grandi e danneggiare quelli piccoli. Senza fare troppi calcoli, vediamo come funziona e giudichiamolo dagli effetti. Prendiamo un Settore Scientifico Disciplinare a caso e facciamo un po’ di conti
Mentre parlava, Peppe era già andato sul sito della VQR, aveva aperto la tabella 4.9 del foglio Excel relativo all’Area 09 e stava copiando in Matlab i dati sulla numerosità del SSD ING-INF/04 nelle diverse università italiane.
Gedeone, pur affascinato dalla destrezza del collega, non poté fare a meno di chiedere:
– Adesso, però, ti mancano i dati sulla produttività delle diverse sedi. Dove vai a prendere il numero di articoli che hanno pubblicato nell’ultimo anno?
– È semplice, mio caro Gedeone – in queste circostanze Peppe assumeva un tono paternalista francamente insopportabile – sto per costruire degli esperimenti artificiali in cui gli atenei hanno tutti la stessa produttività media a meno di una fluttuazione casuale. Quando applico il test scova-fannulloni, qualche ateneo “sfortunato” potrà essere penalizzato proprio a causa di queste fluttuazioni. Però se ripeto l’esperimento migliaia di volte, la sfortuna dovrebbe ripartirsi equamente tra tutti, senza favorire o sfavorire gli atenei in funzione della loro dimensione …
– Credo di aver capito: userai un generatore di numeri casuali per assegnare il numero di articoli prodotti da ogni ricercatore che poi userai per calcolare la produttività media di ogni singolo ateneo …
– Proprio così. Nel programma che sto scrivendo, il numero di articoli di ogni ricercatore è una variabile casuale uniforme con media pari alla mediana della produttività annuale dei professori associati di ING-INF/04. Sto considerando il caso in cui la “produttività potenziale” è uguale per tutti. Poi, come ben sappiamo, ci sono mille ragioni per cui in un dato anno si pubblica un numero maggiore o minore di articoli. L’estrazione di un numero casuale compreso tra zero e il doppio della mediana serve a riprodurre questa aleatorietà
– Ma non è realistico – obiettò Gedeone – prima di tutto non è vero che tutti i ricercatori sono uguali, nemmeno come potenzialità e, in secondo luogo, ipotizzare una casualità di tipo uniforme mi sembra una forzatura
– Hai ragione, non è realistico, ma il mio scopo è diverso. Per capire se il test scova-fannulloni è iniquo, ho bisogno di un esperimento in cui gli eventuali sbilanciamenti nell’attribuzione delle penalità dipendano solo dalla regola e non da altri fattori. Il mio è un esperimento di laboratorio, una specie di dimostrazione per assurdo. Sei d’accordo con me, se dico che in un contesto di perfetto equilibrio statistico, la falce dell’ANVUR non dovrebbe fare preferenze tra atenei grandi e piccoli?
– Non posso che essere d’accordo …
Peppe aveva preso un foglio dalla stampante e, dopo aver disegnato due assi cartesiani, lo porse a Gedeone insieme ad un pennarello rosso.
– E allora disegna su questo foglio quello che ti aspetti che venga fuori dall’esperimento
– Mi vuoi fare l’esame? Guarda che io sono già laureato ed ho anche un PhD, oltre che essere professore ordinario di …
– Poche storie. Taci e disegna, che io intanto finisco di scrivere il programma Matlab che esegue la simulazione.
Gedeone voleva replicare, ma Peppe gli aveva già girato le spalle per immergersi nel codice. Dopo qualche minuto di riflessione Gedeone tracciò sul grafico i punti che avrebbero dovuto rappresentare la percentuale dei casi un cui gli atenei sarebbero stati penalizzati se il test scova-fannulloni.fosse stato equo.
Gedeone stava contemplando il foglio, quando Peppe si girò e glielo strappò di mano.
– Bravo! Vedo che hai afferrato il punto – l’odio di Gedeone era al culmine – adesso possiamo confrontare il tuo grafico con il risultato di 10.000 esperimenti: come se avessimo usato la scheda SUA-RD per 10.000 anni di seguito su gruppi di ricerca le cui produttività differiscono solo a causa di fluttuazioni casuali. Ecco il risultato, completamente diverso da quello che avevi immaginato.
Gedeone non poté fare a meno di notare che per i gruppi di ricerca con 4-5 ricercatori la probabilità di essere penalizzati era superiore al 3%, con punte superiori al 5%, mentre dai dieci ricercatori in sù la probabilità era inferiore all’1%. Con 25 ricercatori la probabilità era minima. Dando una sbirciata ai numeri Gedeone vide che il gruppo di 25 ricercatori era stato penalizzato una volta sola su 10.000 esperimenti, ovvero nello 0,01% dei casi.
– Peppe, hai ragione tu. Come al solito. La regola è fortemente iniqua. Premia i grandi e punisce i piccoli … ma dimmi, non ti ricordi dove avevamo già visto un caso del genere?
– Te lo ricordi quel nostro compagno di corso? Maledizione, mi sfugge il cognome. Mi sembra che fosse con la B. Però il nome, quello lo ricordo: si chiamava Sergio.
– Ah Sergio! Indimenticabile! Il protagonista del più memorabile episodio dei nostri cinque anni di università.
3. Formidabili quegli anni
Peppe, che sorrideva con aria beffarda, lasciò che fosse Gedeone ad aprire il capitolo dei ricordi.
– Ma come ho fatto a scordarmelo? Sergio, quello che pensava di essere un genio ed aveva la fissa delle classifiche. Mitica quella volta che abbiamo scoperto che nel suo quaderno aveva costruito una classifica delle ragazze, assegnando un peso 0,3 punti alla circonferenza del seno, 0,2 a quella dei fianchi, 0,1 alla media degli esami e così via. E poi aveva segnato in rosso tutte quelle che stavano sotto la mediana del suo indicatore composito. Avevamo riso per una settimana, non prima però di aver fotocopiato il suo ranking ed averlo affisso alla bacheca della facoltà. Ma quella fu una cosa da nulla in confronto a quell’altra giornata indimenticabile. Il professore di statistica, Trinciabue, ci aveva assegnato un “compito a casa” …
-… esattamente – interruppe scortesemente Peppe – si trattava di individuare tra diverse fabbriche quella la cui produttività era fuori controllo statistico. Il punto cruciale era che ciascuna fabbrica aveva un numero diverso di linee produttive, proprio come i gruppi di ricerca di ING-INF/04 che possono essere più o meno numerosi
Gedeone riprese la parola.
– Sergio era convinto di aver trovato la soluzione e, qualche giorno dopo la consegna del compito, era stato chiamato alla lavagna per esporla davanti a duecento compagni seduti nell’aula ad anfiteatro. Vedo la scena davanti ai miei occhi come se fosse oggi. Trinciabue seduto che assiste impassibile all’esposizione. Sergio che scrive alla lavagna, visibilmente fiero di essere il prescelto. Alla fine, Trinciabue si alza, va alla lavagna e scrive lentamente una sigla: H. I. T.. Ti ricordi cosa significava?
– Certo!
Peppe andò alla lavagna che occupava una delle pareti del suo studio e, mentre scriveva
proseguì con il racconto.
– Dopo aver spiegato scrupolosamente il significato di heteroscedastic Sergio se ne stava sorridente e impettito, convinto com’era di essersi assicurato un bonus di almeno tre punti sul voto finale di Statistica. A quel punto, Trinciabue gli chiede come si chiama e – preso il gesso – aggiunge una riga»
Sull’aula calò un gelo surreale. Dopo un lungo interminabile istante, i duecento banchi esplosero in un’irrefrenabile risata liberatoria. Freddamente, Trinciabue rispedì Sergio al posto (per poco non si ammazzò inciampando sui gradini – una ragazza submediana aveva allungato il piede per fargli lo sgambetto). Il professore cancellò con ribrezzo la lavagna, piena delle formule di Sergio …
Gedeone fu interrotto da Peppe, che non seppe trattenersi dal chiarire i dettagli dell’errore:
– … e spiegò per filo e per segno come si doveva risolvere l’esercizio e, più in generale, come regolarsi in presenza di campioni di numerosità variabile. In queste linee guida, l’ANVUR è inciampata nella stessa trappola. Non ha senso calcolare la varianza di medie provenienti da campioni di numerosità variabile. E non solo. Per individuare i casi fuori controllo non posso usare una soglia unica per tutte le sedi. A ben vedere è questa la ragione che invalida le classifiche della VQR. La statistica è piena di insidie. È davvero ora di smetterla con le promozioni facili – aggiunse sovrappensiero mentre guardava soddisfatto il compito marchiato in rosso sulla sua scrivania.
Gedeone, più interessato ai risvolti umani, concluse la rievocazione:
– Una figura tremenda. Povero Sergio: divenne famoso per il suo Heteroscedastic Index Test e non riuscì più a levarsi di dosso la fama di quell’exploit.
– A dire il vero, glielo ricordo anch’io quando lo incrocio in qualche congresso. Per risposta, mi dà certe occhiatacce. Mah, credo che gli manchi il sense of humour.
– No, Peppe, non è che gli manchi il sense of humour. Lui percepisce benissimo che lo tratti dall’alto in basso ed ha ragione a risentirsi. Comunque sia, Sergio aveva una volontà di ferro e la sua disavventura non gli ha impedito di fare carriera. In un’altra città, naturalmente. È persino prorettore alla ricerca del suo ateneo … oddio, non oso immaginare cosa possa diventare nelle sue mani la valutazione della ricerca.
– Caro Gedeone, ti ho appena mostrato che il test scova-fannulloni dell’ANVUR presenta delle grosse crepe. Ti dirò di più. Se l’ANVUR fosse un po’ meno naïve anche in campo bibliometrico, sarebbe a conoscenza di un fatto noto da quasi un secolo, ovvero che la distribuzione della produzione individuale è di tipo power-law (Lotka 1926). Per tali distribuzioni, non è detto che la media e la varianza esistano. Che il criterio S.H.I.T. si fondi su una loro stima, lo rende ancora più degno del suo nomignolo. Cosa succederà in pratica? Se le distribuzioni di tipo power-law finiranno per gonfiare le stime della varianza, potrebbe persino accadere che il test scova-fannulloni non scatti mai, rivelandosi privo di qualsiasi utilità che non sia quella di testimoniare l’ingenuità tecnica di chi l’ha ideato.
Nel frattempo Gedeone aveva accartocciato il foglio, prendendo la mira in direzione del cestino della carta. La parabola perfetta fu accompagnata dal commento di Peppe:
– Visto il suo nome, più che nel cestino questo test andrebbe buttato dove si può tirare lo sciacquone.
grazie per questo articolo, veramente illuminante. Mi pare allora che il Re sia nudo, finalmente! E’ dimostrato che il vero scopo dell’ANVUR sia quello di portare alla chiusura dei piccoli atenei, che poi, guarda caso, sono i più virtuosi dal punto di vista economico.
se il piano si collega al ridimensionamento del trasporto pubblico in alcune zone d’Italia si vede bene che il risultato sarà catastrofico per l’ uguaglianza delle opportunità sul territorio nazionale.
“E’ dimostrato che il vero scopo dell’ANVUR sia quello di portare alla chiusura dei piccoli atenei,”
_______________________
Per parlare di “vero scopo” bisogna presumere l’intenzionalità dell’ANVUR, ovvero che chi ha escogitato il test “scova-fannulloni” avesse una seppur vaga consapevolezza tecnica di cosa stava facendo. Personalmente, avrei qualche esitazione a spingermi così in là nelle ipotesi di fantasia.
Alcuni miei colleghi mi dicono che la categoria degli “utili idioti” sarebbe forse piu’ calzante.
Credo pero’ che il vero problema non sia piu’ l’ ANVUR ma tutti quelli (potere politico, rettori, colleghi) che di fronte a queste indecenze vanno avanti come se niente fosse. Ogni tanto sogno una CRUI che dichiari pubblicamente di fare obiezione di coscienza rispetto a valutazioni basate su criteri cosi’ fuori dal ragionevole (e pr certi aspetti dal legittimo). Poi mi sveglio.
Sono appena stato eletto come presidente CCS e sapevo che era un lavoro improbo, burocratico, fuori dei nostri obblighi (didattica, ricerca e partecipazione agli organi di governo) ma per evitare che fossero costretti a candidarsi, e quindi esser eletti, ricercatori o associati, coattati per un eventuale posto di avanzamento di carriera in quanto abilitati, come ordinario ho ritenuto fosse più giusto. Mi sono subito scontrato cn la stesura del documento del riesame mentre dovevo presentare un progetto, fare le lezioni e scrivere articoli oltrechè portare in gita gli studenti, fare il revisore come associate editor. Con la grande responsabilità finale del FFO!!! Ma scherziamo siamo volontari!!! Ho rietnuto il sistema ANVUR un baraccone burocratico all’italiana e ora sono disposto a combatterlo e ho convocato una riunione di tutti i presidenti di ateneo (UNITUS) per organizzaesi a livello nazionale. Ma dove è questa semplificazione? Un grazie a Voi per l’impegno. F. Mencarelli