Home MIUR Ludi dipartimentali Le incongruenze dell’ISPD e i dipartimenti di eccellenza

Le incongruenze dell’ISPD e i dipartimenti di eccellenza

3 Agosto 2017

Immaginate una VQR in cui i prodotti eccellenti nel vostro Settore Scientifico Disciplinare (FIS/04) valgono solo 0,44 punti mentre quelli eccellenti in un altro SSD (SECS-P/11) valgono 2 punti abbondanti, cinque volte di più dei vostri. Oppure, dove ci sono degli SSD (SPS/07) in cui un prodotto accettabile vale 0,2 punti, mentre in altri (FIS/01) un prodotto “elevato” vale -0,64 punti e i prodotti accettabili valgono -3 punti. Una specie di “VQR ubriaca”, vero? Immaginate ora di sommare proprio questi punti per costruire una classifica nazionale dei dipartimenti: una follia al quadrato, senza dubbio. Ebbene, la classifica dei dipartimenti di eccellenza sulla base della quale verranno distribuiti 1,35 miliardi è stata costruita proprio in questo modo, sulla base di una “VQR ubriaca”, in cui si usano 369 scale di voti, tutte diverse tra loro, una per SSD. Ma non solo: quanto più un SSD è internazionalmente eccellente, tanto più i suoi punteggi standardizzati saranno bassi. A Lucio Bertoli-Barsotti il merito di aver decifrato l’enigma dell’ISPD rendendolo comprensibile a tutti: una gara truccata che punisce gli SSD eccellenti a livello mondiale e premia quelli che arrancano nel confronto internazionale. In fondo all’articolo, la tabella con le 369 scale di voti usate da ANVUR. Potrete così sapere se i vostri prodotti eccellenti valgono 0,5 oppure 2 punti. Perché, tutti i prodotti eccellenti dovrebbero essere uguali ma, se interviene ANVUR, alcuni sono più eccellenti degli altri.

Scarica il pdf dell’articolo: download

Come è noto, l’Indicatore Standardizzato della Performance Dipartimentale (ISPD), attualmente in uso per stabilire la graduatoria a livello nazionale della qualità della ricerca dei Dipartimenti ai fini della selezione dei “180 Dipartimenti di eccellenza”, è basato sui giudizi di qualità ottenuti nell’ultimo esercizio VQR 2011-2014.

A loro volta, i giudizi di qualità dei prodotti di ricerca sono definiti su 6 livelli. In ordine decrescente di merito: (A) eccellente, (B) elevato, (C) discreto, (D) accettabile, (E) limitato e (F) non-valutabile. A questi livelli ANVUR fa corrispondere valutazioni numeriche, più precisamente proxy forfettari del rango del percentile che definisce il livello di merito del prodotto.

Il livello (A) “eccellente” è infatti attribuito a un prodotto che si colloca nel primo 10% della produzione scientifica internazionale dell’area a cui appartiene: a questo livello viene fatto corrispondere il valore numerico di rango massimo, 1. Questo livello è paradigmatico perché si tratta di un “fondo scala” e il riferimento alla produzione scientifica “internazionale” ne garantisce la fattispecie di caso limite per certi versi assoluto. E’ un punto interessante nello sviluppo seguente.

Abbiamo poi il livello (B) “Elevato”, che significa che il prodotto si colloca nel successivo segmento del 20% della produzione scientifica internazionale dell’area cui appartiene: a questo livello viene fatto corrispondere un valore di rango un po’ più basso, 0.7.

Infine abbiamo: (C) “Discreto” che corrisponde a 0.4, (D) “Accettabile” che corrisponde a 0.1 e (E) “Limitato” che corrisponde a 0. Quest’ultimo livello, in particolare, corrisponde al giudizio di un prodotto che si colloca nel 20% più basso della produzione scientifica internazionale. Qui il punteggio nullo attribuito viene stranamente equiparato al giudizio di merito di un prodotto mancante, livello (F) “Non valutabile”, anche se potrebbe apparire più logico che produrre un lavoro che si colloca nel 20% più basso della produzione scientifica internazionale sia assai meglio che non produrre niente. Ad ogni modo, essendo di pari rango, le categorie E ed F si possono tranquillamente equiparare, nel seguito, agli effetti della valutazione della ricerca.

I proxy forfettari distinguibili 1, 0.7, 0.4, 0.1 e 0 vengono intesi come punteggi (score grezzi) e all’occorrenza ritenuti sommabili. In verità, come è stato ribadito più volte –anche dagli stessi GEV-, questi valori non hanno alcun significato a livello individuale (nonostante abbia malauguratamente preso piede da più parti la pratica ingenua e maldestra del loro utilizzo per caratterizzare singoli docenti e ricercatori), ma possono sperare di avere qualche utilità solo in termini aggregati.

Di fatto, il giudizio di merito complessivo di un insieme di prodotti, p.es. quelli di un intero settore scientifico (SSD) nell’ambito di un Dipartimento, viene computato da ANVUR con semplice somma dei rispettivi score grezzi, sebbene siano ben noti in campo statistico sofisticati approcci, giustificati da adeguate teorie, per trasformare opportunamente score grezzi in misurazioni autenticamente additive, in contesti come questo.

L’assunzione sottostante a questa pratica è l’ipotesi di additività degli score grezzi (IPOTESI 1).

Ai fini del calcolo dell’ISPD, gli score grezzi vengono poi standardizzati, ovvero ri-scalati linearmente sulla base di media e scarto quadratico medio degli score grezzi dei prodotti appartenenti allo stesso SSD su base nazionale. Ciò, nell’ottica ANVUR, dovrebbe consentire un confronto non solo fra settori disciplinari diversi ma anche fra aree scientifiche diverse, e quindi una più libera comparazione interdipartimentale.

Ora, la tacita assunzione sottostante a questa ulteriore trasformazione è ancora più forte della precedente ed è che la produzione scientifica abbia mediamente il medesimo valore di merito in qualsiasi SSD (IPOTESI 2).

(In sostanza si nega che esistano SSD oggettivamente più o meno scientificamente evoluti, nella ricerca, a livello internazionale)

Equiparare medie (e varianze) per ciascun SSD ha l’effetto di ri-definire i punteggi, in particolare quello dell’eccellenza: ci saranno quindi prodotti “più eccellenti” (sic) di altri prodotti, pure eccellenti, a seconda del SSD, anche se ciò confligge con il principio del 10% di rango.

Si produce così una sorta di slittamento semantico. A un prodotto, che in prima battuta è classificato (A) “Eccellente”, nel SSD XXX può esser poi attribuito un punteggio standardizzato anche inferiore di quello attribuito a un prodotto classificato (C) “Discreto” nel SSD YYY (vd il caso: FIS/04 vs SECS-P/11). In pratica, il giudizio “eccellente” può diventare “discreto” con un riverbero, per transitività, sul primo 10% della produzione scientifica internazionale dell’area a cui appartiene il SSD XXX, anch’essa declassata (tipicamente ciò accade quando XXX ha uno score grezzo medio molto più alto di YYY; più un SSD raggiunge l’eccellenza nei ranghi internazionali più bassi saranno i suoi punteggi standardizzati in Italia). In altri termini, visto che per definizione un prodotto “eccellente” sta nel primo 10% della produzione scientifica internazionale dell’area cui appartiene, l’effetto di equiparare, in Italia, le medie per ciascun SSD sarà quello di sbilanciare il giudizio sul reale valore dell’eccellenza mondiale di alcune aree scientifiche rispetto ad altre.

C’è qualcosa di poco soddisfacente a livello logico in tutto ciò, ma forse ciò che più conta è prendere pragmaticamente atto dell’output di questo processo di standardizzazione, ossia dei punteggi standardizzati associati a ciascun SSD e per ogni livello (A), (B), (C), (D) e (E-F), perché ciascuno possa farsene una impressione di persona.

Chiaramente, i punteggi standardizzati non potevano essere dichiarati a priori da ANVUR nel Bando perché questi sono determinabili solo ex post, in virtù di una elaborazione statistica sulla base dei dati empirici di tutta la VQR. Poiché questi punteggi standardizzati, ancorché non segreti, non sembrano essere riportati da nessuna parte, ne fornisco un quadro esaustivo con la seguente tabella –che si può intendere come una vera e propria “tabella di conversione” del valore di punteggio originale del prodotto di ricerca.

Si ricorda che il punteggio standardizzato di un Dipartimento è determinato dalla somma dei punteggi standardizzati dei prodotti attesi di tutti i suoi addetti alla ricerca. La somma ottenuta viene poi ri-scalata dividendola per la radice quadrata del numero dei prodotti attesi, ottenendo il punteggio standardizzato del Dipartimento, VS(d). Il punteggio ISPD è il valore della funzione di ripartizione della normale standard in corrispondenza di VS(d), moltiplicato per 100, e arrotondato al semi-intero.

La tabella è riordinata in base all’Area scientifica e, in ordine decrescente, in base al valore di merito attribuito a un prodotto classificato “eccellente”, per ciascun SSD.

Confronti fra Aree vanno interpretati con cautela, ma sono comunque ammessi, nell’ottica di ANVUR, almeno nei limiti e ai fini della valutazione complessiva di un Dipartimento (p.es. agli effetti della compilazione della graduatoria dei “180 Dipartimenti di eccellenza”) quando questo fosse costituito da diverse Aree scientifiche, più o meno “limitrofe”.

A livello globale, si osserva che i SSD non-bibliometrici hanno uno score grezzo medio significativamente più basso dei SSD bibliometrici. Di conseguenza, i primi guadagnano un punteggio standardizzato medio significativamente più elevato dei secondi, almeno per i prodotti classificati nelle categorie di più alto rango, “eccellente” o “elevato”. Lo score grezzo medio è significativamente correlato in senso negativo con il numero di prodotti mancanti, ovvero di addetti inattivi-silenti.

(Nota. Il SSD L-FIL-LET/03 non è presente in tabella perché non ha addetti)

Tabella. Punteggi standardizzati dei prodotti di ricerca classificati (A), (B), (C), (D) o (E-F).

Scarica il pdf dell’articolo: download

Share this on WhatsApp

6 Commenti

paola sonia gennaro 4 Agosto 2017 At 00:58

Ringraziando BB per il magnifico lavoro, resto convinta che il finanziamento premiale ai dipartimenti di eccellenza (comunque selezionati) sia di per sè un paradosso.
Infatti se sono eccellenti significa che dispongono già delle risorse sufficienti: è probabile che abbiano accesso a fondi su bandi competitivi nazionali e internazionali o a rapporti privilegiati con primari operatori economici.
Da chi distribuisce fondi pubblici vorremmo invece sapere, a seguito di scrupolosa e trasparente analisi, di che cosa necessitino le strutture che non raggiungono gli obiettivi ritenuti adeguati e quali misure intenda assumere nella direzione della perequazione tra le aree scientifiche e del riequilibrio territoriale, nell’interesse generale del paese.

Entra per lasciare un commento
carlostadio 4 Agosto 2017 At 07:54

Davvero grazie per questo lavoro! Dimostra due cose (almeno): 1) che tanto lavoro e tanta intelligenza non andrebbe sprecata in questo modo;
2) che a tale “follia” (ma io la chiamerei cialtroneria da strapaese) non si risponde con aggiustamenti e rimaneggiamenti, ma con un deciso e netto rifiuto. Basta!
Ma l’agguerrita compagine degli universitari riuscirà mai a prendere posizione?

Entra per lasciare un commento
- Alberto Baccini 4 Agosto 2017 At 08:16
  
  Secondo me l’agguerrita compagine degli universitari starà già macchinando cose del tipo: “Caro Rettore/direttore/eccellenza come si può vedere il mio SSD vale molto di più dell’SSD del prof. Tizio. Per cui quel centesimo di punto organico sarebbe meglio darlo a me invece che a lui”.
carlostadio 4 Agosto 2017 At 10:47

Ahimè, è proprio così…

In ogni caso, grazie per le preziose (sebbene scoraggianti) informazioni

Entra per lasciare un commento
Beniamino Cappelletti Montano 4 Agosto 2017 At 11:18

Articolo molto interessante.

C’è un altro aspetto tecnico in questa vicenda – un “peccato orginale” della VQR – collegato a quanto pone in evidenza l’articolo.

La questione riguarda il fatto che, a causa di trend di pubblicazione diversi tra settori, anche a parità di “qualità”, i docenti di SSD diversi hanno diversa probabilità di conseguire un voto eccellente.

Prendiamo l’esempio dei docenti incardinati in FIS/01 (Fisica
sperimentale). Si tratta di docenti con molte collaborazioni e un trend medio di diversi articoli l’anno (spesso con moltissimi coautori). Nella stessa area c’è FIS/08 (Didattica e storia della fisica), dove invece, per l’intrinseca natura di questo settore, si pubblica molto meno, spesso a nome singolo.

L’errore dell’ANVUR è stato quello di valutare lo stesso numero di articoli (2) per due situazioni talmente diverse come FIS/01 e FIS/08. E’ evidente che in queste condizioni per un docente di un SSD dove si pubblicano diversi articoli l’anno, con moltissimi coautori, sia più probabile aver pubblicato 2 articoli eccellenti nel quadriennio, rispetto al docente medio di un SSD con un trend molto ridotto, indipendentemente dalla qualità.

L’ANVUR ha cercato di porre rimedio a questo “peccato originale” confrontando gli esiti di un dato SSD con i valori medi (e le varianze) di quel SSD a livello nazionale. Ma la toppa è stata peggiore del buco, come ha dimostrato l’articolo.

Vi è inoltre una ulteriore ipotesi su cui poggia tutta la costruzione dell’ANVUR. La chiamerei

“Ipotesi 3: le distribuzioni dei voti in ogni SSD sono normali”.

Mi chiedo se realmente tale ipotesi sia verificata PER TUTTI i SSD. Se l’ANVUR avesse pubblicato i dati grezzi di queste distribuzioni avrebbe contribuito a fugare questo dubbio.

Entra per lasciare un commento
Beniamino Cappelletti Montano 21 Agosto 2017 At 09:41

No, rettifico. Non è necessario che le distribuzioni dei singoli SSD siano normali. E’ necessario che siano indipendenti e – pensavo – indenticamente distribuite (ma quest’ultima ipotesi in questo caso si rivela non necessaria).

Entra per lasciare un commento

LASCIA UN COMMENTO Cancella la risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.