A.F. Uricchio, A. Celletti: Valutare la valutazione
Antonio Felice Uricchio (Presidente Anvur), Alessandra Celletti (Vice Presidente ANVUR): Valutare la valutazione
Quarto Convegno Roars, Trento 24-24 febbraio 2023
Tavola rotonda: COSA «MERITANO» LA SCUOLA E L’UNIVERSITÀ ITALIANA
Poco dopo la creazione di questo sito il Consiglio Direttivo di ANVUR pubblicò un curioso comunicato in cui affermava che non avrebbe più discusso col “sito in questione” cioè Roars. Dunque una Agenzia Nazionale che pubblicamente dichiarò di non voler discutere con un blog autogestito da un gruppo di docenti, in teoria anche colleghi. Restammo semplicemente basiti Oggi prendiamo atto che il presidente e la vice presidente di ANVUR sono stati disponibili al confronto.
Antonio Banfi: Ringrazio il presidente dell’Anvur, prof. Antonio Felice Uricchio , e la vice presidente prof. Alessandra Celletti e passerei a loro la palla. Pensavamo, come dire, di discutere con loro dei rischi che comporta una valutazione quantitativa quando collegata al reclutamento. Personalmente, come commissario ASN, osservo sia una certa inflazione, diciamo così, dei prodotti della ricerca, sia numerosi comportamenti opportunistici. C’è poi una piccola quota anche di comportamenti contrari all’etica della ricerca. Ci chiedevamo quindi insomma non fosse da ripensare un po’ il sistema. Se davvero le mediane venissero adeguate periodicamente, probabilmente ci porterebbe ad avere delle mediane tendenti ad infinito, come giustamente ha detto Lucio Russo. Per fortuna che ci sono gli ebook, perché sennò non basterebbero gli alberi di tutta l’amazzonia per stampare le cose spesso qualitativamente modeste che si vedono comparire in questo periodo. Quindi chiederei loro cosa ne pensano.
Giuseppe de Nicolao: Aggiungerei già da subito un secondo tema: noi sappiamo che Anvur ha aderito anche a un ruolo nella agreement of performance od reserach assessment. E questo ci sembra importante perché in questo programma ci sono, c’è anche dei passaggi, c’è l’adesione ad COARA che sono temi su cui noi abbiamo insistito fin dal 2011. Anvur è stato decisamente dall’altra parte della barricata sull’uso degli indicatori quantitativi anche per misurare cose qualitative, sull’uso degli impact factor e di indicatori analoghi. Cosa pensa di fare Anvur trovandosi a dover ribaltare completamente il suo paradigma di valutazione, ammesso che l’adesione sia un’adesione reale e non di facciata?
Alessandra Celletti: Vorrei innanzitutto ringraziarvi per l’invito a questo workshop. Sono molto contenta di poter partecipare e di avere un colloquio diretto. Mi spiace di non essere presente, forse il colloquio sarebbe stato ancora più fruttuoso, perché veramente credo che sia importante avere un’interazione. Mi sono collegata pochi minuti fa, perché non sapevo di poter vedere anche le relazioni precedenti, ma ho già preso degli spunti di riflessione molto interessanti, su cui ritornerò a breve. Inizierò con la prima parte sulla valutazione e sugli indicatori, ma vorrei prima presentarmi: sono in Anvur da qualche anno, sono una matematica e mi occupo di meccanica celeste, quindi faccio parte di quei ricercatori che fanno la cosiddetta “curiosity driven research”. A tale tipo di ricerca è stato fatto un cenno prima e vorrei sottolineare che mi sta particolarmente a cuore la scienza non necessariamente indirizzata verso applicazioni concrete.
Detto questo, in ambito Anvur, la mia principale esperienza di valutazione della ricerca è consistita nel coordinamento dei lavori della valutazione della qualità della ricerca 2015-19, quella che chiamiamo VQR3, che penso sia la questione di maggiore interesse per chi ci sta ascoltando. È stata un’attività svolta da Anvur per circa due anni, terminata a luglio 2022; i lavori sono stati svolti in condivisione con tutta la struttura e con il consiglio direttivo di Anvur: in particolare ogni singolo consigliere ha seguito le aree di propria competenza scientifica. È stata un’attività molto complessa, perché ha coinvolto più di 130 istituzioni, cioè 98 università, 14 enti di ricerca vigilati dal MUR e 22 istituzioni che hanno partecipato volontariamente alla valutazione. In totale hanno partecipato circa 65.000 ricercatori, che hanno conferito più di 183.000 prodotti, ovvero articoli, monografie, contributi in volumi e così via.
Inoltre, sono stati conferiti 676 casi di studio per le attività di terza missione. In totale abbiamo avuto 18 Gruppi di Esperti della Valutazione (GEV) con oltre 600 ricercatori italiani e stranieri, coadiuvati da 24 assistenti e oltre 11.000 esperti italiani e stranieri per la valutazione peer.
Ad ogni occasione ricordo due punti importanti, lasciatemeli dire anche qui. Primo, la valutazione riguarda le istituzioni nel loro complesso, non riguarda i singoli ricercatori, e credo che questo sia un punto fondamentale da sottolineare. Secondo, ogni confronto a livello di SSD, in particolare all’interno delle stesse istituzioni, va preso con molta cautela anche in considerazione dei meccanismi stabiliti dal decreto ministeriale, per conferire i prodotti.
Rispetto alle precedenti edizioni, la Terza VQR ha visto l’introduzione di due importanti differenze, che, a mio avviso, sono quelle della peer review informata e della Terza Missione. Qui entriamo nel tema della valutazione che può essere puramente quantitativa o piuttosto una peer review informata. Prima di parlare della peer review informata, vorrei dire due parole sulla Terza Missione, perché anch’essa è stata valutata.
Per Terza Missione, ricordo che si intende tutto quell’insieme di attività con cui le istituzioni entrano in interazione diretta con la società, affiancando le due missioni tradizionali di insegnamento e di ricerca. Sono stati presentati casi di studi in diversi campi di azione, che spaziavano dalla divulgazione scientifica, o Public Engagement, alla valorizzazione della proprietà intellettuale e industriale, alla formazione permanente, per arrivare fino alla scienza aperta e alle attività collegate all’Agenda ONU 2030. Questi casi di studio dovevano riguardare attività svolte sia prima che durante il periodo 2015-19, con un impatto generato, in parte o nell’intero periodo 2015-19.
Come è avvenuta la valutazione di questi casi di studio? È stata svolta da gruppi di lavoro formati all’interno del GEV di Terza Missione; i casi di studio sono stati valutati attraverso un processo di peer review, ma in questo caso supportato da indicatori che potevano, senza obbligo di farlo, essere forniti direttamente dalle istituzioni a seconda delle specificità dei casi di studi conferiti. Quindi, con un processo che ha coinvolto direttamente l’istituzione.
La seconda novità importante è stata l’introduzione della peer review informata, come stabilito dal decreto ministeriale 1110 del 2019, secondo cui la valutazione doveva tener conto della peer review dei prodotti, e poteva essere informata, laddove ritenuto opportuno in base alle caratteristiche dell’area, da indicatori citazionali e informazioni bibliometriche internazionali, tenendo eventualmente conto delle autocitazioni. Per quei settori che non erano supportati da indicatori bibliometrici, si è invece adottata la peer review pura. Nei documenti dei GEV è scritto esplicitamente che l’utilizzo di indicatori citazionali non può, in ogni caso, determinare una valutazione automatica del prodotto. Quindi, la valutazione non poteva essere puramente quantitativa, cioè gli indicatori citazionali non potevano determinare automaticamente la valutazione, ma potevano essere usati a supporto della valutazione per quei prodotti pubblicati sulle riviste indicizzate nei due database principali (Web of Science e Scopus).
Successivamente, ciascun GEV ha deciso in autonomia quale indicatore utilizzare. Faccio un esempio: il GEV 01 di matematica e informatica ha scelto alcuni indicatori: l’Article Influence, SNIP, SJR, e un indicatore tipico della matematica che si chiama MCQ. Ha escluso altri indicatori come l’Impact Factor e Citescore. Inoltre, e questo è un altro fattore importante per quanto riguarda la valutazione bibliometrica, non ha utilizzato le subject categories che vengono stabilite dai database Web of Science e Scopus, ma ha formato un proprio elenco di riviste. Partendo dall’elenco di riviste utilizzato nella VQR precedente, non sono state inserite riviste multidisciplinari perché hanno una modalità di pubblicazione diversa da quella tipica dell’Area 1 e avrebbero distorto l’informazione bibliometrica. Gli articoli non presenti nelle liste preparate dal GEV 01 sono stati valutati con revisione peer review. Questo esempio dell’Area 01 mostra che non solo è stata effettuata una peer review informata dalla bibliometria, ma che, pur non affidandosi ad una valutazione puramente quantitativa, è anche necessario equilibrare l’informazione bibliometrica per renderla più adeguata alla valutazione dei prodotti dell’area.
Credo che questa sia una questione importante che debba essere poi estesa, eventualmente, alle altre aree: non prendere, necessariamente, le subject categories dei database come punto di riferimento fondamentale. Un’altra novità importante che mi preme sottolineare è stata la disponibilità dei prodotti in Open Access, perché al momento del conferimento le istituzioni dovevano indicare se i prodotti erano disponibili in accesso aperto e fornire il link al documento. Io credo che sia importante ricordare che al termine della VQR Anvur ha pubblicato sul proprio sito la lista completa dei metadati dei prodotti valutati, rendendo disponibile, quando possibile, il link e i prodotti in accesso aperto.
È indubbio che la peer review informata ha rappresentato un cambiamento rilevante, ma ha anche richiesto un grande numero di esperti per poter effettuare la valutazione tra pari, come anche si legge in alcuni dei vostri articoli. Allora andiamo a vedere quale è stata la proporzione delle revisioni interne ed esterne ai GEV. Tale proporzione mostra una differenza sostanziale tra le aree STEM+Life Sciences e i settori umanistici; in questi ultimi la maggioranza dei prodotti è stata valutata da revisori esterni.
Per concludere, voglio sottolineare che al termine della VQR abbiamo avviato una sorta di valutazione della valutazione, perché ritengo che sia importante capire quale meccanismo ha funzionato e quale non ha funzionato; quindi, abbiamo individuato un piccolo gruppo di esperti internazionali, provenienti da diverse istituzioni, con cui lavoreremo in questi mesi in modo da poter analizzare criticamente assieme a loro il lavoro svolto e cercare di proporre cambiamenti che possano migliorare la procedura. Stiamo anche lavorando ad un progetto di un database nazionale di esperti ed auspichiamo uno sforzo congiunto con la Commissione Europea e altre istituzioni; inoltre, riteniamo opportuno avviare una riflessione per valutare una maggiore omogeneizzazione tra le due aree STEM+Life Sciences e i settori umanistici.
Infine, un punto molto importante, anche in funzione di quello che è stato detto prima dal professor Baccini, è di chiarire l’affidabilità dei dati che vengono forniti dai database. Per esempio, quali sono i criteri per poter inserire una rivista nei database internazionali, soprattutto in Web of Science e Scopus, che sono i maggiori database internazionali? I gestori di tali database sono disponibili a collaborare e ad aiutarci modificando i propri indicatori, per esempio, per aggiustare problematiche importanti come quella delle autocitazioni o delle citazioni di cortesia, o delle riviste predatorie? Ecco, su questi aspetti stiamo cercando di sollecitare i database internazionali, e credo che sia un argomento molto rilevante.
Aggiungerei alle varie questioni un’altra molto importante: dare una volta per tutte la definizione di giovani. “Giovane” è una parola troppo inflazionata. A volte può essere 25-30 anni, a volte diventa 30-40 e ho sentito una volta anche 35-45 anni. Insomma, è un po’ eccessivo arrivare a fasce d’età così alte e credo che anche su questo aspetto abbiamo bisogno di effettuare una riflessione, che non c’entra niente con la bibliometria, ma mi sento in dovere di doverlo dire. Grazie per l’attenzione.
De Nicolao: Bene, grazie. Ringraziamo la professoressa Celletti. E passerei subito la parola al presidente dell’Agenzia di Valutazione, professore Uricchio. Io ripeterei a lui la domanda rispetto all’adesione di ANVUR all’agreement per DORA?
Uricchio: Grazie per l’invito. Mi associo a quanto diceva la professoressa Celletti e al piacere di un confronto sicuramente proficuo, costruttivo e che credo meriti di essere ulteriormente sviluppato. Saluto tutti i partecipanti, consentitemi anche una menzione affettuosa per Francesco Sinopoli, che è stato mio studente anche durante il corso di dottorato e quindi lo ritrovo oggi in questo ruolo nazionale. Il tema che è stato posto dell’adesione di Anvur al COARA è per noi particolarmente significativo. Anvur è il luogo in cui la valutazione viene praticata, ma è anche quello in cui si promuove la riflessione, lo studio e il confronto, prima interno e poi esterno, e vorremmo sempre più partecipato. La valutazione non è un modello statico che ha delle regole immutabili ed eterne, ma è un processo che necessita di essere implementato assumendo una prospettiva finalistica, che è quella della qualità. In questa prospettiva, la condivisione di modelli validi e di regole valutative credo che sia una condizione essenziale e Anvur ne è pienamente convinta e pertanto si è aperta al confronto. Abbiamo promosso anche attraverso il modello di AVA una valutazione partecipata che è durata ben due anni; attraverso la VQR, come diceva poc’anzi la vicepresidente, abbiamo coinvolto ben 11 mila referees nel processo, sia con riferimento alle aree umanistiche giuridico-sociali, sia con riferimento alle aree scientifiche. Abbiamo avviato un confronto internazionale, come diceva poc’anzi la professoressa, di valutazione della valutazione con sette esperti internazionali che sono stati individuati da tutte le istituzioni che operano in Europa nel mondo della ricerca, dall’ERC all’OCSE. E ora abbiamo aderito, e non è un’adesione di facciata, a COARA, all’interno della quale è stato eletto il prof. Menico Rizzi, consigliere del direttivo ANVUR delegato alla ricerca sulla valutazione.
Il confronto, quindi, internazionale è per noi particolarmente importante, e Anvur fa parte anche di ENQA come socio effettivo. Ha anche promosso l’adesione a EQAR il registro europeo delle agenzie di valutazione e poi alla WFE, World Federation of Education, e anche avviato importanti accordi di cooperazione con le più importanti agenzie europee e mondiali.
Il confronto internazionale ci ha persuaso della necessità di promuovere sempre più una valutazione qualitativa che sappia, ovviamente, assumere le informazioni necessarie per poter anche supportare la valutazione qualitativa ma che debba essere fondata sulle metodologie che siano condivise. Il Coara offre, quindi, una prospettiva di valorizzazione di questi strumenti e diventa anche il luogo in cui il confronto viene praticato e si rende possibile. Certo, i vari sistemi valutativi che sono adottati in altri paesi sono abbastanza diversi. La VQR che noi abbiamo in Italia viene utilizzata in modo diffuso e soprattutto per distribuire quote premiali. In altri paesi avviene su base volontaria ovvero sono promosse soprattutto metodologie legate alle strategie adottate nel promuovere la ricerca, cosa che Anvur valuta all’interno di Ava. Però, è indubbio che, pur nella differenza di diversi modelli, proprio l’agreement COARA ci persuade della opportunità di definire delle regole condivise e di affinare anche gli strumenti per contrastare doping citazionale, fenomeni di frode o di abuso che certo sono sempre possibili e che devono essere prima di tutto verificati e poi soprattutto contrastati anche attraverso codici etici , pratiche editoriali e attraverso regole definite dalle autorità governative, con ovviamente anche il supporto della comunità scientifica. E quindi, un percorso, quello che abbiamo voluto promuovere attraverso il direttivo ANVUR che ho l’onore di presiedere e che portiamo avanti con la preziosa collaborazione dei colleghi dell’agenzia mi fa piacere poter richiamare in questa sede e portare avanti anche attraverso il costruttivo confronto odierno.
Noi seguiamo con grande attenzione anche i vostri contributi, le riflessioni che vengono sviluppate anche in contesti così qualificati, e ci fa piacere anche poter fare evolvere le metodologie valutative che poi offriremo al decisore politico. Il ministro Bernini, più volte intervenuta sul tema della valutazione, è stato anche presente in agenzia dove abbiamo anche un confronto proficuo. Credo che abbia anche avviato una riflessione sul reclutamento, come ha detto in altre occasioni; per cui siamo fiduciosi che possiamo anche insieme lavorare e offrire delle risposte rispetto a quelle problematiche che, certo, noi non ignoriamo, ma che credo possano essere anche affrontate riconoscendo il valore della valutazione, l’importanza della valutazione come strumento essenziale per promuovere la qualità e valorizzare un sistema universitario che è essenziale per la crescita del nostro paese.
De Nicolao: Grazie, grazie mille, grazie mille al presidente dell’agenzia di valutazione che è stato anche particolarmente virtuoso e è riuscito a mantenere dei tempi molto contenuti. Questo significa che potremmo avere anche tempo per un paio di veloci domande, se ci sono, altrimenti, io anche avrei qualche domanda.
Pensando appunto al problema di una riforma della valutazione, io vedo due aspetti di emergenza. Un primo aspetto, che aveva richiamato il collega Antonio Banfi, è proprio quello legato alle soglie ASN, perché quel fenomeno che è stato illustrato da Baccini che ha fatto dell’Italia un campione di doping citazionale a livello mondiale è verosimilmente dovuto proprio a queste soglie. Da questo punto di vista, mentre su alcune cose è possibile che ANVUR abbia delle difficoltà perché alcune cose vengono richieste per legge, e ne dico una subito, nel caso delle soglie, Anvur viene consultata e c’è un approccio facile per disinnescare la bomba, ed era stato suggerito da intere aree CUN e da società disciplinari nel 2016. Il modo è quello di abbassare le soglie in maniera tale che il giudizio sulle abilitazioni torni a essere un giudizio non più sull’accumulo di quantità, ma un giudizio invece di merito sulla qualità degli studiosi.
Il secondo punto su cui c’è un’emergenza è sicuramente quello dei dipartimenti di eccellenza che distribuiscono una quantità di soldi notevole, basandosi su indicatori a dir poco stregonesco che è l’SPD. Esiste qui l’Anvur, forse a minor libertà, perché purtroppo alcune cose sono state scritte per legge. Tuttavia, ha l’autorevolezza di chiedere al legislatore di disinnescare questa seconda bomba. Quindi, una prima bomba probabilmente innescabile da ANVUR stessa, abbassare le soglie come era stato chiesto da gran parte della comunità scientifica, la seconda bomba, invece, richiederebbe un intervento nei confronti dell’opinione pubblica e della ministra e della politica, dicendo che questo sistema di valutazione dei dipartimenti di eccellenza va, sicuramente modificato. Noi probabilmente saremo dell’idea che sarebbe meglio tornare alla distribuzione basata sulla sola VQR senza dipartimenti di eccellenza. Ma se devono esistere, non con questi strumenti. Ecco la domanda: “Anvur non potrebbe reagire a questo discorso della riforma con questi due interventi, uno autonomo e l’altro invece chiedendo una revisione forte?”
Celletti: Se permetti, Antonio, intervengo prima io e ti lascio la parola sulla parte di carattere normativo. Personalmente vorrei innanzitutto capire se questi indicatori sono ragionevoli, ovvero se sono validi. Fermo restando che ancora non siamo stati coinvolti per le ASN, abbiamo comunque iniziato recentemente una interlocuzione con i database internazionali, perché bisogna partire da lì valutando cosa offrono. In particolare, l’impact factor o l’h-index sono indicatori ragionevoli? I database hanno uno strumento per dire quali sono le autocitazioni di cortesia? Io sono molto preoccupata della questione posta anche dal professor Baccini nelle slide precedenti: l’autoreferenzialità non può andar bene, così come è importante guardare alla qualità degli articoli, non alla quantità di pagine che vengono scritte. Credo che questa sia una questione importante da trasmettere anche ai giovani. Purtroppo, qualche mese fa, in un curriculum internazionale ho letto uno studente straniero che scriveva: “Questi sono i miei articoli, in totale la mia produzione è di 164 pagine.” Permettetemi di dire che non si può misurare la qualità scientifica sul numero di pagine prodotte. Ricordiamoci che l’articolo di Einstein sul moto browniano era di 11 pagine e che l’esposizione della formula E=mc^2 è presentata in un articolo di 3 pagine. Non è il numero di pagine a fare la differenza, ma sono i contenuti. E’ importante riportare il discorso sui contenuti e, eventualmente, su indicatori che ci dicano quando i contenuti sono stati distorti da eventuali interessi inappropriati. Non voglio eludere la domanda sull’ISPD, perché sono consapevole che tale indicatore necessita di uno studio mirato ed approfondito. Siamo ancora nella fase di valutazione della VQR e non abbiamo ancora iniziato un ragionamento sull’ISPD. Tuttavia, ci proponiamo di iniziare a breve e abbiamo già alcune idee su come procedere. Dopodiché, come lei stesso ha detto, bisogna vedere se i nostri suggerimenti verranno recepiti dal legislatore. Su questo, lascio la parola al presidente Uricchio.
Uricchio: Noi abbiamo offerto al Ministro una totale collaborazione con riferimento al tema della revisione delle regole della ASN. Siamo alla vigilia del riordino dei gruppi scientifico-disciplinari; quindi, è evidente che l’impatto che anche questa riforma produrrà riguarderà inevitabilmente il tema delle soglie. Ma ovviamente ad oggi non siamo in grado di prevedere se le soglie continueranno ad essere utilizzate nell’ambito delle procedure di reclutamento oppure saranno completamente riviste, in quanto è un tema politico che credo a brevissimo sarà affrontato. Quindi, prima di intervenire sulle soglie, dobbiamo capire le regole che dovranno governare i modelli di reclutamento e probabilmente la valorizzazione anche di modelli qualitativi che non sono estranei al modello ASN, perché ricordiamo, la soglia è una condizione di accesso per una procedura di valutazione di qualità. Sui dipartimenti di eccellenza è stato ricordato poc’anzi dalla vicepresidente. Noi abbiamo applicato la formula del 2016, quella che poi era contemplata anche nello studio Poggi, che è stata alla base dell’elaborazione degli ISPD. Siamo aperti al confronto anche rispetto ad una ridefinizione delle regole che possa eventualmente assicurare la selezione di strutture di eccellenza, magari anche su base progettuale, ma che possa, per esempio, consentire anche di utilizzare dei modelli di promozione di tipo perequativo. Stiamo a vedere. È una fase di avvio di una legislatura e quindi il confronto e supporto che intendiamo dare al Ministero su questo è pieno, ma ci fa piacere confrontarci con la comunità scientifica e oggi con Roars. Dall’incontro sono emersi tanti spunti di riflessione per poter avviare anche un ripensamento di alcuni modelli e guardare in modo più deciso rispetto al tema della qualità, che per noi è fondamentale.
Eppure il punto di partenza sembra semplice e Roars ha il grosso merito di avercelo ricordato più volte: la legge di Goodhart!
Emanuele Martelli
Come faccio a mettere un (facepalm) come commento?