Come segnalato da ROARS, le classifiche VQR dei dipartimenti sono doppie: l’ANVUR non ha diffuso alla stampa le classifiche di area elaborate dai “Gruppi di Esperti della Valutazione” (GEV), ma ne ha costruite di nuove, infilandole nel Rapporto Finale e in un instant-book venduto dal Corriere della Sera. Una volta scoppiato il caso, quasi tutti i GEV hanno tolto dall’imbarazzo l’ANVUR rinunciando alle loro classifiche, tranne il GEV 1 (Scienze matematiche e informatiche) che non ha fatto passi indietro. Pertanto, le classifiche dipartimentali di Area 1 contenute nell’instant-book sono errate. Un articolo del Corriere prende atto della “correzione”, ma lascia in ombra alcuni aspetti della vicenda. Proviamo ad illuminarli.

Chi mastica di valutazione e scientometria sa bene che la costruzione di classifiche, vuoi di atenei vuoi di dipartimenti, è un terreno minato, ricco di insidie metodologiche e problemi etici. Le classifiche internazionali degli atenei, che tanta eco hanno sui media, poggiano su basi scientifiche alquanto fragili. Non solo sono state oggetto di severe analisi scientifiche che ne hanno rilevato le falle metodologiche (vedi per es. Billaut et al.: “Should you believe in the Shanghai ranking?”), ma sono incorse in infortuni memorabili, uno tra tutti il quarto posto nella classifica citazionale attribuito nel 2010 da Times Higher Education all’università di Alessandria d’Egitto, davanti a Stanford, Rice e Harvard. Quell’exploit era valso all’università egiziana  il 147° posto nella classifica globale. Peccato, che lo straordinario risultato fosse dovuto ai record citazionali di un singolo ricercatore, abituato a pubblicare massicciamente sulla rivista di cui era direttore.

Questionable science behind academic rankings. Questo il titolo dell’articolo del New York Times che denunciò il clamoroso infortunio della classifica 2010 di THE (Times Higher Education). Nella classifica citazionale, l’Università di Alessandria d’Egitto si era piazzata quarta, davanti a Stanford, Rice e Harvard (vedi figura), un exploit che aveva contribuito a proiettarla al 147° posto nella classifica globale. Sul sito di THE si erano persino congratulati, senza sospettare che il risultato degli egiziani era frutto di indicatori bibliometrici talmente fragili da schizzare alle stelle a causa di un singolo ricercatore abituato a pubblicare massicciamente sulla rivista di cui era direttore. In Italia, le classifiche vengono spesso accolte in modo acritico e addirittura scambiate per strumenti di valutazione della ricerca, anche perché la fragilità delle loro basi scientifiche è sconosciuta ai più sia dentro che fuori le mura dell’accademia.

___________________

Non è pertanto un caso che un’agenzia di valutazione che può vantare una lunga esperienza come quella inglese, si rifiuti categoricamente di stilare classifiche di atenei o dipartimenti:

 

We have not produced any ranked lists of single scores for institutions … and nor do we intend to

FAQ-RAE 2008

1. Size matters

Senza entrare in troppi dettagli, uno dei principali problemi tecnici delle classifiche è la difficoltà, se non l’impossibilità, di confrontare strutture di dimensioni molto diversificate. Un palliativo consiste nello stilare classifiche separate a seconda dei segmenti dimensionali considerati, per esempio atenei grandi, medi e piccoli. Tuttavia, non solo i problemi di eterogeneità dimensionale si ripropongono all’interno dei tre segmenti, ma emerge anche il problema della determinazione delle linee di demarcazione. Un ateneo che è primo tra quelli grandi può scendere dal podio se un cambiamento di soglie lo catapulta nel segmento degli atenei di medie dimensioni. Chi ha il potere di fissare in modo discrezionale le soglie ha il potere di aiutare o danneggiare i concorrenti, con ovvie conseguenze sulla loro reputazione. Questa discrezionalità solleva questioni etiche che da sole sconsigliano la produzione di classifiche da parte di un’agenzia nazionale come l’ANVUR, la cui reputazione in termini di imparzialità dovrebbe essere mantenuta al di sopra di ogni sospetto .

Ciò nonostante, fin dalla famosa intervista sulla VQR di Sergio Benedetto, l’ANVUR ha mostrato un’affezione del tutto particolare per lo strumento delle classifiche. Però, vuoi per distrazione vuoi per insufficiente consapevolezza delle insidie tecniche, l’ANVUR ha dato un’ulteriore picconata alla propria reputazione, mettendo in circolazione classifiche che si contraddicevano a vicenda. Lo sdoppiamento delle classifiche si è verificato sia a livello di atenei che di dipartimenti.

Per gli atenei, l’ANVUR ha utilizzato due diverse segmentazioni dimensionali nel Rapporto Finale VQR e nelle classifiche per la stampa. La conseguenza è stata che le classifiche apparse sui giornali erano diverse da quelle desumbili dai documenti ufficiali. In una delle classifiche, l’ANVUR ha cambiato anche la formula usata per calcolare gli indicatori, con il risultato di cambiare i bollini verdi (atenei virtuosi) e rossi (atenei canaglia) diffusi alla stampa rispetto a quelli riportati nei documenti ufficiali.

Non è andata meglio per i dipartimenti. L’ANVUR ha scavalcato le classifiche elaborate dai Gruppi di Esperti della Valutazione (GEV), per costruire ex-novo altre classifiche da inserire nel Rapporto Finale e diffondere alla stampa. Queste “classifiche strabiche” sono risultate particolarmente imbarazzanti perché una delle due versioni è stata diffusa attraverso un instant-book del Corriere della Sera, messo in vendita nelle edicole. Se si dovessero tenere per buone le classifiche del GEV (consultabili nei loro 14 rapporti di area), le classifiche contenute nell’instant book sarebbero in gran parte sbagliate. Un flop che coinvolgerebbe anche uno storico quotidiano nazionale.

 

2. “Carte truccate”, “bluff della classifica ANVUR”, “classifiche fuffa”

Questi sono stati i termini usati da diverse testate cartacee ed anche on-line che, grazie alle analisi di ROARS, si sono accorte che c’era qualcosa che non andava nelle classifiche VQR. La stessa ANVUR, dopo aver ammesso l’uso di due formule diverse per il calcolo dei bollini verdi e rossi, ha dovuto ammettere anche lo sdoppiamento delle classifiche dei dipartimenti. A questo punto, il Corriere della Sera non poteva esimersi dall’informare i suoi lettori che i problemi delle classifiche toccavano anche l’instant-book venduto nelle edicole. Lo ha fatto con un articolo di Gianna Fregonara che, per le ragioni che diventeranno più chiare in seguito, si focalizza sulle classifiche elaborate dal GEV 1, quello di Scienze matematiche e informatiche.

Da un lato è positivo che il Corriere si unisca agli altri organi di informazione nel rendere conto del “caos classifiche” in cui è inciampato l’ANVUR; dall’altro, se ci mettiamo nei panni del lettore-tipo, una volta giunti alla fine dell’articolo, rimangono alcune domande inevase:

  1. Se, come sembra dall’articolo, le uniche classifiche in circolazione erano quelle dell’ANVUR, come mai i GEV ne sono venuti al corrente solo al momento della diffusione alla stampa?
  2. Come mai i matematici – e solo loro – nel mezzo del mese di luglio si sono messi a costruire classifiche alternative a quelle ANVUR?
  3. Se la metodologia proposta dai matematici è migliore di quella ANVUR, perché viene ritoccata solo la loro classifica. Non sarebbe meglio adeguare anche le altre?
  4. Chi è più vicino agli standard internazionali di valutazione della ricerca? L’ANVUR oppure chi lo critica?

Siamo perfettamente consapevoli che i limiti di spazio imposti da un quotidiano non aiutano a restituire un quadro fedele di quanto accaduto e del suo significato. Ci lanciamo pertano in un esercizio: immaginare di avere più spazio a disposizione ed integrare l’articolo della Fregonara con le informazioni che avrebbero aiutato il lettore del Corriere a farsi un’idea più completa di quanto realmente accaduto e del dibattito sulla valutazione attualmente in corso in Italia. A conclusione del nostro articolo daremo la risposta alle domande lasciate in sospeso.

3. Tutto quello che il lettore del Corriere avrebbe voluto sapere …

_______________________________

ARRIVANO CORREZIONI DAI MATEMATICI
SULLE CLASSIFICHE UNIVERSITARIE

(le parti in blu e le figure sono integrazioni proposte da Roars per illuminare le zone d’ombra)

Dopo quindici giorni di ”pressanti richieste” anche l’Anvur, l’Agenzia per la valutazione delle università, ha alzato bandiera bianca e ha accettato di modificare la prima delle sue classifiche, quella che misura i dipartimenti di matematica e gli atenei italiani in base al lavoro e alla qualità della ricerca.

Bandiera bianca. L’ANVUR ha ritirato le sue classifiche dell’Area 01 (Scienze matematiche e informatiche) che, oltre ad essere riportate nel Rapporto Finale VQR, erano state diffuse alla stampa e pubblicate anche nell’instant-book del Corriere. Come mai gli esperti di valutazione dell’Area 01 hanno insistito con l’ANVUR per ottenere questo (imbarazzante) ritiro?

__________________________

E curioso ma non paradossale che siano stati proprio i matematici, il gruppo di esperti e valutatori dell’Anvur stessa guidato dal professor Alfio Quarteroni del Politecnico di Milano, a contestare il metodo di classificazione per dimensione dei dipartimenti usato nel rapporto finale a chiedere la modifica.

Le nostre classifiche non si toccano! Gli esperti di valutazione dell’Area 1 non hanno chiesto una modifica, ma hanno difeso le loro classifiche originali. L’ANVUR aveva incluso nel rapporto finale e diffuso alla stampa classifiche diverse da quelle originali fornite dagli esperti di valutazione del GEV 1 (le cui piazze d’onore sono riportate qui sopra). Nelle classifiche che l’ANVUR ha dovuto ritrattare, i dipartimenti di Milano, Padova e Milano Bicocca scendevano dal podio a favore di Salerno, Bolzano e Insubria. Alla luce del successivo braccio di ferro con il GEV 1, è lecito pensare che ANVUR avesse stilato le classifiche di Area 1 da diffondere alla stampa senza il consenso del GEV 1.

__________________

Anche se a ben vedere, non si tratta di una modifica, ma di un ripristino. Come dimostrato dal blog Roars con una dettagliata analisi di tutti i rapporti d’area dei 14 GEV, è stata l’ANVUR a scavalcare il lavoro dei GEV costruendo delle nuove classifiche. È così che è nato il caos delle classifiche “double-face” denunciato da ROARS: da una parte le “classifiche GEV”, contenute nei rapporti d’area, e dall’altra le “classifiche ANVUR”, elaborate solo in un secondo tempo dal Consiglio Direttivo, che le ha inserite nel Rapporto finale, diffondendole al pubblico tramite la conferenza stampa ed un apposito instant-book del Corriere. Un autentico caos, dato che – come dimostrato da ROARS – un dipartimento che era primo nella “classifica-GEV” poteva provare l’amara sorpresa di non essere più in testa nel librettino venduto dal Corriere. In questo contesto, il GEV 1 non ha chiesto (e ottenuto) una modifica: ha solo rifiutato di abbandonare la sua classifica a favore di un classifica imposta dal consiglio direttivo dell’agenzia. L’ANVUR ha invece trovato maggiore accondiscendenza presso gli altri GEV che “consultati suggeriscono di utilizzare le graduatorie del Rapporto Finale“. La giustificazione ufficiale è che solo nell’Area 1, “le soglie diverse inducono differenze particolarmente significative nelle graduatorie all’interno dei segmenti dimensionali dei dipartimenti”. In realtà, la dettagliata analisi condotta da ROARS per tutte e 14 le aree scientifiche mostra che le “classifiche-GEV” sono significativamente diverse dalle classifiche-ANVUR anche al di fuori dell’Area 1.

Ma che conseguenze comporta il caos delle classifiche double-face? È un sintomo del naufragio dell’intera VQR? L’ANVUR non è di questo parere.

I dati non cambiano, le misurazioni sono corrette, la realtà ben fotografata nel rapporto. E le modifiche, ha precisato l’Anvur prima di mettere online le nuove tabelle, “sono ininfluenti e non incidono minimamente sul valore degli indicatori di qualità  e finali” né tantomeno sull’assegnazione dei fondi del ministero dell’Istruzione e dell’Università che avverrà in base ai dati assoluti raccolti e alla classifica complessiva dello stato della ricerca.

Sembrerebbe dunque una correzione non grave, che non smentisce l’enorme sforzo di classificare in ordine al merito gli atenei italiani (classifica che è stata pubblicata anche nell’instant book del Corriere “I voti all’Università»).

Questa è la versione dell’ANVUR che nel momento in cui le classifiche traballano, cerca almeno di salvare  dal naufragio gli indicatori di qualità che verranno usati per l’assegnazione dei fondi. Ma la sicurezza si incrina quando si va a leggere il Rapporto Finale: “Mentre in alcuni casi è possibile confrontare la qualità della ricerca tra SSD della stessa Area, in altri casi (evidenziati nei singoli rapporti di Area) tale confronto non è possibile né opportuno.” Una crepa che si cerca di minimizzare subito dopo: “gli indicatori finali di struttura, così come l’indicatore finale di dipartimento, non sono influenzati in maniera significativa da eventuali differenze nei metri di valutazione utilizzati dalle singole Aree.” Insomma: le differenze nei metri di valutazione esistono e toccano anche i confronti interni alle aree (Matematica, Fisica, Chimica, etc), infuenzando voti di atenei e dipartimenti. Ci viene però assicurato che queste influenze non sono significative. Che dire? A metà luglio anche le classifiche sembravano scolpite nella pietra, mentre adesso mostrano diverse incrinature. Incidentalmente, l’ANVUR sembra dare ragione al blog ROARS che, già nel marzo 2012, aveva evidenziato una sostanziale disomogeneità nei metri di valutazione interni all’Area 9 (Ingegneria Industriale e dell’Informazione), capace di mettere in crisi valutazioni e classifiche di quell’area. Comunque sia, la versione ufficiale è che non è successo nulla di grave.

Ma l’ammissione dell’Anvur rende evidente che i dati assoluti, i numeri non sono neutri perché a seconda del criterio scelto per “leggerli” si scoprono valori differenti, un dipartimento che era primo nel suo segmento diventa terzo, un altro che era sesto diventa quarto e così via. L’ammissione, non tanto di un errore che in tremila pagine di indicatori ci sarebbe pur potuto essere ma dell’esistenza di un criterio migliore di valutazione rispetto a quello scelto inizialmente dall’Anvur nel suo rapporto, dà fiato a quanti si sono opposti in questi anni di poderosi sforzi per poter imporre il giusto principio che anche nel nostro Paese come già avviene altrove in Europa e negli Stati Uniti il merito e la ricerca si possono misurare.

Abbiamo intervistato la Redazione di ROARS che respinge questa chiave di lettura ideologica: “da tempo si cerca di diffondere una versione caricaturale del dibattito apertosi intorno alle carenze tecnico-scientifiche dell’ANVUR”. In realtà è l’agenzia italiana a muoversi in controtendenza rispetto alle esperienze internazionali. L’agenzia di valutazione inglese, l’HEFCE, non solo ha scartato l’uso di metodi bibliometrici automatici nel proprio esercizio di valutazione, ma sul suo sito scrive di non avere stilato e di non avere intenzione – nemmeno nel futuro –  di stilare classifiche di atenei e dipartimenti, essendo probabilmente consapevole dei trabocchetti tecnichi in cui la nostra ANVUR, a dispetto di numerosi avvertimenti, è invece immancabilmente precipitata. ROARS non usa mezzi termini: “giustificare gli errori dell’ANVUR in nome dell’adeguamento agli standard internazionali è emblematico dell’arretratezza della cultura della valutazione in Italia: si escogitano maldestre soluzioni fai-da-te evocando modelli internazionali che però si muovono in direzione opposta (gli Inglesi) oppure un’America del tutto immaginaria”. Chi non è del tutto a digiuno di valutazione – continua ROARS – sa bene che negli USA non c’è nessuna agenzia nazionale che svolga esercizi di valutazione della ricerca paragonabili alla VQR italiana. Insomma, si rifilano argomenti-patacca confidando nell’ignoranza dei lettori e dei giornalisti. È ora di cominciare a distinguere la valutazione della ricerca dalla sua parodia, dannosa per la scienza, ma utile per chi ne controlla le leve – conclude ROARS.

 ________________________

 

4. Le risposte alle domande in sospeso

  • Se, come sembra dall’articolo, le uniche classifiche in circolazione erano quelle dell’ANVUR, come mai i GEV ne sono venuti al corrente solo al momento della diffusione alla stampa?
    Quelle dell’ANVUR non erano le uniche classifiche in circolazione. I GEV avevano costruito le loro classifiche e, successivamente, l’ANVUR ne ha costruite altre e le ha diffuse alla stampa.
  • Come mai i matematici – e solo loro – nel mezzo del mese di luglio si sono messi a costruire classifiche alternative a quelle ANVUR?
    I matematici non hanno costruito nuove classifiche, ma si sono rifiutati di abbandonare le proprie classifiche originali a favore di quelle che l’ANVUR ha diffuso tramite la stampa. Gli altri GEV sono stati meno irremovibili: una volta consultati, “suggeriscono di utilizzare le graduatorie del Rapporto Finale“. Sono stati pertanto accantonati i “motivi di affidabilità statistica” (Rapporto finale Area 9, p. 29) che il GEV 9 aveva invocato nel suo rapporto di area per giustificare la scelta di particolari segmenti dimensionali e anche il GEV 11 ha abbandonato senza troppi rimpianti “le classifiche di strutture e dipartimenti, della cui solidità il GEV è convinto” (Rapporto finale Area 11, p. 46).
  • Se la metodologia proposta dai matematici è migliore di quella ANVUR, perché viene ritoccata solo la loro classifica. Non sarebbe meglio adeguare anche le altre?
    Cambiare le altre classifiche vorrebbe dire ritrattare le informazioni fornite alla stampa e smentire l’instant-book del Corriere della Sera.
  • È più vicino agli standard internazionali di valutazione della ricerca l’ANVUR oppure chi lo critica?
    Le critiche circostanziate di ROARS ai metodi dell’ANVUR fanno riferimento allo stato dell’arte della letteratura scientometrica e alle esperienze internazionali di altre agenzie di valutazione. Gli approcci bibliometrici dell’ANVUR non hanno precedenti internazionali di rilievo (No bibliometrics please, we’re British), ad eccezione forse della Serbia, dove però stanno emergendo preoccupanti degenerazioni bibliometriche che sconfinano nella frode (Bibliometrics? Yes, please! We are Serbian (and Italian)). Che le critiche siano fondate è testimoniato anche dalla sequenza di ritrattazioni dell’ANVUR che in più di un caso – classifiche strabiche incluse – ha dovuto ammettere gli errori segnalati da ROARS.

 

Send to Kindle

14 Commenti

  1. Intanto, Parma rivendica con sempre maggior convinzione il quinto posto che avrebbe ottenuto se nelle classifiche per la stampa l’ANVUR non avesse modificato le linee di demarcazione tra segmenti dimensionali. Un vero esempio di classifiche double-face: sui giornali Parma era ottava, ma alla luce dei dati contenuti nel rapporto finale VQR, l’ateneo rivendica il quinto posto, citando le analisi di ROARS. È evidente la consapevolezza che un cambiamento della posizione in classifica non è irrilevante ai fini delle immatricolazioni.
    Le classifiche sono influenzate da decisioni discrezionali sulle soglie dei segmenti dimensionali. Una ragione in più per cui l’agenzia nazionale di valutazione dovrebbe astenersi dal pubblicare classifiche. Impossibile, altrimenti, evitare il sospetto di favorire o sfavorire alcuni atenei in funzione della loro collocazione nei segmenti dimensionali.
    ___________________________
    http://www.unipr.it/notizie/lateneo-di-parma-al-quinto-posto-la-qualita-della-ricerca
    ___________________________



  2. Il ministro Carrozza: «Docenti privilegiati, devono fare ricerca»
    http://www.ilmattino.it/primopiano/politica/carrozza_mattino_docenti_ricerca/notizie/312181.shtml
    Fa un po’ senso l’approccio del Ministro,’scientista’, apparentemente neutrale e decontestualizzato, destoricizzato, alla questione Anvur e a quella della valutazione in generale. “La legge è chiara” – ripete due volte. Nuotiamo, da tre lustri, nel mare torbido provocato dalla chiarezza delle leggi riformatrici nonché epocali riguardanti l’università.

  3. Negli USA non esiste un’agenzia nazionale di valutazione della ricerca con compiti paragonabili all’HEFCE inglese o all’ANVUR italiana. Scrivere che la VQR italiana ci aiuta ad avvicinarci alla misurazione del merito e della ricerca come già avviene negli USA è un po’ come credere all’esistenza della NEREA (National Education and Research Evaluation Agency), un organizzazione di fantasia evocata su roars per burlarsi di chi cita le esperienze d’oltreoceano senza conoscerle. Se invece si considera l’HEFCE inglese, è stato ripetuto alla nausea che le soluzioni tecniche dell’ANVUR vanno in tutt’altra direzione (https://www.roars.it/online/no-bibliometrics-please-were-british/).

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.