In riva al fiume, c’era una volta un antico e glorioso reame il cui il Primo Ministro si era procurato uno specchio stregato che deformava le sembianze bibliometriche di chi vi si specchiava. Nell’immagine riflessa, persino il successore designato al trono sembrava un deplorevole fannullone. Un giorno giunse in quella contrada un gattino con gli stivali, che svelò l’incantesimo al re – anzi al rettore – appena salito al trono. Con sollievo dei sudditi, lo specchio stregato fu infranto, il Primo Ministro rinunciò a tutti gli incarichi e tutti vissero felici e contenti … Se la trama fosse questa, saremmo di fronte ad una fiaba un po’ zuccherosa e, tutto sommato, stucchevole. La storia che stiamo per raccontare è invece molto più simile ad una “favola nera” senza lieto fine.

L’oggetto di questo articolo non è un racconto di magia, ma riguarda vicende reali. E tuttavia ha in qualche modo a che fare con il rapporto tra magia e scienza. Per gli ingenui la stessa scienza è una forma di magia e questa mancanza di confini non è senza conseguenze, anche drammatiche, per la vita delle persone.

In Italia, più di quarant’anni fa scoppiò il caso del siero Bonifacio, un composto a base di feci e di urina di capra che secondo il suo inventore aveva effetti terapeutici per la cura dei tumori:

La presunta cura ottenne grande risalto nei giornali nel 1969; venne anche promossa una raccolta di fondi per consentire a Liborio Bonifacio di produrre il siero per la moltitudine di persone che lo chiedeva, che alla fine portò alla raccolta di 25 milioni di lire.[6] Il risalto mediatico dato dai giornali alla vicenda spinse l’allora Ministro della Sanità Camillo Ripamonti ad autorizzarne la sperimentazione:[1] essa interessò 16 pazienti, con risultati deludenti (4 morirono durante la sperimentazione) tanto da essere interrotta dopo 16 giorni. Nonostante questo, Liborio Bonifacio, dopo ulteriori tentativi di sperimentazione, continuò a produrre e distribuire il suo siero.

Siero Bonifacio – Wikipedia

Alla fine degli anni ’90 è stata la volta del cosiddetto “metodo Di Bella“, sempre per il trattamento dei tumori. Ancora una volta, la pressione dei malati ed il clamore giornalistico indussero l’allora ministro della Sanità a finanziare una sperimentazione che non fu in grado di evidenziare elementi a supporto dell’efficacia della multiterapia Di Bella.

È di questi giorni, infine, la discussione sulla validità del metodo Stamina. Ancora una volta sembrano riproporsi una serie di ingredienti:

  • una sfida terapeutica costituita da malattie gravi per cui non sono disponibili cure risolutive;
  • terapie fai-da-te escogitate negli scantinati di geni incompresi dalla scienza ufficiale, ma abili nel mescolare discorsi pseudo-tecnici con appelli emotivi;
  • la credulità di un’opinione pubblica che fatica a distinguere i pericoli del ricorso a terapie artigianali, prive dei crismi di una rigorosa validazione scientifica costituita per esempio dalla pubblicazione su riviste scientifiche e dalla registrazione presso gli enti di regolamentazione;
  • la pressione esercitata dai mezzi di comunicazione pronti a cavalcare gli aspetti sensazionalistici senza esercitare la dovuta critica nei confronti di proclami privi di supporto scientifico;
  • gli allarmi sulla stampa scientifica internazionale che rimangono circoscritti alla cerchia degli esperti;
  • il rovesciamento dell’onere della prova, caricato sulle spalle di chi avanza dubbi invece che su quelle di chi sviluppa e pratica terapie al di fuori di ogni regola scientifica;
  • autorità ed amministratori pubblici che faticano a tutelare l’interesse pubblico tenendo dritto il timone nella tempesta (nel caso Stamina desta sensazione il coinvolgimento degli Spedali Civili di Brescia).

È proprio di fronte a queste sbandate dell’opinione pubblica per la “medicina fai da te”, che diventa evidente l’importanza del ruolo dell’università e della ricerca nella tutela della salute e del bene pubblico.

Ma le minacce non provengono solo dall’esterno della cittadella scientifica. In Italia, la ricerca scientifica deve anche confrontarsi al suo interno con le metodologie parascientifiche, se non proprio pseudoscientifiche, di chi si improvvisa valutatore, pur essendo digiuno della relativa letteratura scientifica, delle sue metodologie e delle esperienze internazionali. Questi gli ingredienti:

Qualcuno potrà pensare che nel campo della valutazione della ricerca le conseguenze di metodologie errate non siano così gravi. In realtà, sono sempre più frequenti e autorevoli i segnali di allarme lanciati da singoli ed organizzazioni scientifiche. Non senza interesse è la preoccupazione che il ricorso a valutazioni bibliometriche automatiche finisca per legittimare terapie pseudo-mediche. Questa potenziale connessione tra pseudo-medicina e pseudo-valutazione meriterebbe più attenzione soprattutto in un paese in cui sono ricorrenti i casi Bonifacio-Di Bella-Stamina .

Nei suoi due anni di vita, Roars non solo ha cercato di rendere la comunità accademica italiana più consapevole del dibattito internazionale sulla valutazione della ricerca. Ha anche sistematicamente messo sotto la lente di ingrandimento le soluzioni escogitate e sperimentate dall’ANVUR. La dimensione amatoriale della scientometria anvuriana è ormai nota, insieme ai suoi paradossi e ai pericoli di contenzioso che ingenera.

Nessuna sorpresa che anche le valutazioni svolte all’interno degli atenei soffrano di un deficit di professionalità. A suo tempo avevamo già segnalato che gli atenei di Roma Sapienza, Messina e un dipartimento di Milano Bicocca erano stati vittime della “tentazione irresistibile” di farsi consegnare i voti VQR dei propri docenti, anche se l’ANVUR aveva ripetutamente messo in guardia gli Atenei rispetto all’utilizzo dei voti VQR per le valutazioni individuali. Lo scopo di questo articolo è quello di aggiungere un ulteriore quadro a questa galleria degli errori. Questa volta, il tema è la cosiddetta “valutazione interna” e, più precisamente, l’uso di uno strumento bibliometrico privo di validazione scientifica per valutare in un colpo solo scienze dure e scienze umane e sociali.

NOTA: Il presente articolo rielabora ed integra testi e illustrazioni originariamente apparsi sul blog del Circolo Universitario Giorgio Errera di Pavia a cui si rimanda il lettore interessato ad avere ulteriori dettagli – http://www.circoloerreraunipv.it/wordpress/

1. “We discourage users from using these numbers ”

Negli ultimi anni, il modello per la ripartizione delle risorse di ateneo adottato dall’Università di Pavia si è servito di una valutazione bibliometrica della produzione scientifica basata sul database Google Scholar. Una scelta riapplicata anche nell’ultimo riparto dei punti organico relativo alla programmazione 2013-2015. In particolare, è stato utilizzato

il data base Scholar Search che consente di ottenere indicatori di prodotti e citazioni pro-capite, nonché l’indice H individuale per ogni singolo ricercatore affiliato ai Dipartimenti e medio per ogni aggregato desiderato (Area, SSD, Facoltà, Dipartimento, Università) sia a livello nazionale che di Ateneo) incrociando i dati tratti da Google Scholar con quelli dei settori scientifico disciplinari del MIUR.

(Proposta per la costruzione di un modello di valutazione delle attività didattiche e di ricerca dei Dipartimenti, Maggio 2012, p. 8)

La prima osservazione da fare è che non esiste un data base “Scholar Search” dato che (come spiega lo stesso documento) “Scholar Search” (http://160.80.35.6/ScholarSearch/) è un’applicazione che consulta il database Google Scholar, messa a punto dal Molecular Genetics Group (Dipartimento di Biologia) dell’Università di Roma “Tor Vergata”. Gli stessi sviluppatori declinano ogni responsabilità (o quasi) sull’affidabilità dei risultati (il grassetto è nostro):

DISCLAIMER: only publications reporting University affiliations were considered. Thus academics that have changed affiliation during two times windows are underrated in this evaluation. All the data was collected automatically without any attempt of manual curation.

As such we are aware that the database may contain errors and may under(over)-rate the productivity of some individuals. Thus we discourage users from using these numbers for ranking researchers without further critical evaluation. The inconsistencies may be due to a number of issues that are difficult to identify and correct: homonymy, inconsistency between names at CINECA and on the manuscripts, coverage of the Google Scholar Database, unidentified errors on our side.

http://160.80.35.6/ScholarSearch/

Il beneficio rispetto all’uso diretto di Google Scholar è che Scholar Search incrocia le informazioni bibliometriche con le affiliazioni e i SSD italiani. Il problema della cosiddetta disambiguazione dei cognomi è ben noto in ambito bibliometrico, tanto è vero che nella procedura di abilitazione nazionale ancora in corso, i candidati si sono visti arrivare un’email dal CINECA che chiedeva la loro collaborazione per controllare la correttezza degli “agganci bibliometrici” ai database commerciali. Per Google Scholar la disambiguazione è resa ancora più difficile dal fatto che, a differenza del Web of Science e di Scopus esso non fa uso dei cosiddetti metadati. Inoltre, per Google Scholar non è nemmeno pubblico l’elenco delle riviste e delle collane indicizzate. Che Scholar Index non abbia risolto questi problemi ben noti agli esperti del settore è stato ampiamente dimostrato con esempi concreti nel seguente articolo di Antonio Banfi:

Scholar Search: all’inferno andata e ritorno.

E tuttavia il documento pavese ostenta fiducia nei taumaturgici effetti delle compensazioni statistiche:

ThaumaturgesIn generale si può assumere che le distorsioni derivanti dalle circostanze sopra accennate siano uniformemente distribuite su ciascuna popolazione di ricercatori, ad esempio appartenenti ad un dato SSD. In questo modo una appropriata normalizzazione sui valori medi nazionali del SSD considerato costituisce un indicatore sufficientemente “non distorto” della qualità media dei ricercatori del SSD locale.

Proposta per la costruzione di un modello di valutazione delle attività didattiche e di ricerca dei Dipartimenti, Maggio 2012, p. 8

In realtà, come vedremo più avanti, questa distorsione esiste ed è anche clamorosa. D’altronde, Alberto Baccini dimostra che l’autore italiano più citato secondo Google Scholar interrogato tramite Publish or Perish si chiama “Capitolo I”.

Niente di nuovo, d’altronde. Chi si occupa scientificamente di bibliometria è al corrente delle falle di Google Scholar. Basta citare Diane Hicks:

[Google Scolar] is not in a form usable for structured analysis. Basically this is beacause GS is not built from structured records, that is from metadata fields. Rather that using the author, affiliation, reference etc. data provided by publishers, GS parses full text to obtains its best guess for these items.

D. Hicks, “Towards a Bibliometric Database for the Social Sciences and Humanities

Goya

2. La bibliometria fai-da-te genera mostri: Rugge “recteur fainéant”?

Riguardo alle obiezioni nei confronti di Google Scholar e di Scholar Search, qualcuno potrebbe obiettare che per gli scopi della valutazione intra-ateneo, qualche imprecisione può essere tollerata a fronte del vantaggi che comporta uno strumento gratuito e facile da usare. D’altronde il principale promotore di Scholar Search, l’allora Prorettore vicario con delega alle finanze, Lorenzo Rampa, era fiducioso che l’effetto di distorsioni uniformemente distribuite fosse destinato ad essere compensato dalle opportune normalizzazioni adottate da Scholar Search.

A scopo di verifica, valutiamo la produzione scientifica 2004-2010 dei colleghi pavesi appartenenti all’area 14 (Scienze politiche e sociali). Bastano pochi attimi, grazie alla comoda interfaccia di Scholar Search:

http://160.80.35.6/ScholarSearch/

La paginata completa con tutti i risultati è riportata qui. Nel complesso il quadro è desolante: ben nove colleghi non hanno nemmeno una pubblicazione nel periodo 2004-2010. Ve ne sono solo otto che hanno più di tre lavori nel settennio considerato. Ordiniamo i risultati per h-index decrescente e consoliamoci esaminando le “eccellenze pavesi”, ovvero i colleghi che occupano le prime posizioni (ricordiamo che l’h-index misura l’impatto scientifico di un ricercatore in base al numero di citazioni dei suoi articoli più citati: http://it.wikipedia.org/wiki/Indice_H).

testataScholarSearch

ScholarSearchTopArea14

Il “top scientist” pavese dell’area 14 è Marco Clementi che vanta 10 pubblicazioni ed un gruzzolo di ben 368 citazioni. Niente male, davvero. Se sorge la curiosità di conoscere più in dettaglio la sua produzione, basta cliccare sul suo nome ed ecco l’elenco dettagliato, completo del numero di citazioni ottenute da ciascuna pubblicazione.

CLEMENTI

È davvero sorprendente che uno studioso di scienze politiche e sociali abbia interessi così vasti da occuparsi del trapianto di cellule staminali e di infezioni virali.

Guardiamo meglio: mentre si rinviene solo una piccola traccia delle sue pubblicazioni nel campo delle relazioni internazionali, Scholar Search ha attribuito a Marco Clementi le pubblicazioni di Massimo Clementi che è un ricercatore attivo nel campo della microbiologia. Nell’elenco, l’unico lavoro di Marco Clementi sembra essere il penultimo che al suo attivo ha una sola citazione. Se depuriamo i dati da questa omonimia, Marco Clementi precipita a fondo classifica Uno scivolone pesante anche per la sua area dato che, da solo, Marco Clementi raccoglieva più del 25% delle citazioni di tutta l’area. Con ogni evidenza siamo incappati in una di quelle distorsioni di cui Rampa era consapevole, ma non ci lasciamo spaventare da quello che potrebbe essere solo un errore episodico. Mantenendo intatta la nostra fiducia, passiamo alla seconda in classifica, Maria Antonietta Confalonieri, con le sue ragguadevoli 159 citazioni.

CONFALONIERI

Sembra esserci un’omonimia anche in questo caso, dato che le pubblicazioni trattano di enzimi e piante transgeniche e nessuna è attribuibile a Maria Antonietta Confalonieri. Anche la medaglia d’argento era dovuta ad un’omonimia. Niente paura: potrebbe essere solo una coincidenza e passiamo alla medaglia di bronzo, Cristina Barbieri.

BARBIERI

Di nuovo, nessuna delle pubblicazioni è attribuibile alla “vera” Cristina Barbieri, ricercatrice di area 14 a Pavia, per quanto, in senso lato, le “ipermutazioni aberranti” (“Aberrant somatic hypermutation in transformation of follicular lymphoma …”) non siano del tutto estranee all’oggetto di questo articolo.

Se i “top performers” sono un prodotto del caso andiamo ad esaminare il fondo-classifica per capire quanto lo strumento sa catturare la realtà. Levando i casi di pensionamenti e decessi abbiamo sette ricercatori privi di pubblicazioni, citazioni e di h-index. Per Scholar Search qui siamo precipitati in quello che potremmo definite un infernale “girone dei fannulloni”.

ScholarBarBOTTOM

In questa desolazione viene risucchiato niente popò di meno che il neo-rettore Fabio Rugge , che tra il 2004 e il 2010 risulta avere una sola pubblicazione…

RUGGE

E a ben guardare si tratta solo di una recensione. Oibò, l’ateneo avrebbe eletto come rettore un professore in disarmo da anni … un “rector faineant” di un’area inattiva … oppure …

faineants

Andiamo a verificare il sito web di Fabio Rugge (http://fabiorugge.it) e scarichiamo l’elenco delle pubblicazioni (http://fabiorugge.it/wp-content/uploads/2013/02/Publications-final.pdf). Sfogliandolo, scopriamo che nel periodo 2007-2010, Fabio Rugge, oltre alla recensione di cui sopra, ha firmato altre 24 pubblicazioni.

Nel caso del neo-rettore la distorsione del database riguarda il 96 per cento della sua produzione, di cui non rimane traccia ai fini della ripartizione delle risorse. E così è per altri colleghi. I loro lavori scientifici non erano minimamente registrati dallo strumento scelto dall’ateneo. “Nihil sub sole novum”: nella letteratura scientometrica è noto e ribaditoche la base dati di Google Scholar lascia ampiamente scoperte vaste aree delle scienze umane e sociali

Difatti, se si replica l’analisi per i colleghi attivi in altri campi delle scienze umane e sociali, gli esiti non cambiano. Grandissima parte delle pubblicazioni non è registrata dal data base e una parte cospicua dei risultati proviene da omonimi che lavorano nelle scienze dure. Le omissioni e le omonimie producono dati casuali e la loro normalizzazione, lungi dal fare miracoli, non fa che mescolare le carte.

Un comportamento razionale (addentriamoci fino in fondo nel paradosso che ne scaturisce) per migliorare gli indicatori di un dipartimento sarebbe quello di reclutare gente dal nome facile (insomma più Cristina Barbieri e meno Fabio Rugge) … o comunque verificare quale portato di omonimi i giovani ricercatori sarebbero in grado di raccogliere! È una disdetta che – per ragioni costituzionali – in un bando non si possano prevedere preferenze per i Mario Rossi e i Primo Capitolo.

Per valutare la ricerca scientifica e distribuire risorse l’ateneo faceva uso di un database e di un’interfaccia di consultazione entrambi privi di validazione scientifica. I risultati si vedono. Come appena mostrato, le omonimie e le massicce omissioni producono errori così grossolani da rendere improbabile una compensazione statistica.

3. “Surtout pas trop de zèle

Dopo aver pubblicato l’articolo Un riparto difficile: il backstage del piano triennale pavese, che denunciava il paradosso del “rettore fannullone”, il blog del Circolo Universitario Giorgio Errera riceve e pubblica la replica (Idee per allungare il passo nei riparti di risorse, senza retrocedere) del Prorettore vicario Lorenzo Rampa , che nel frattempo ha cessato il suo mandato.

Riguardo a Scholar Search, Rampa cerca di mostrare che le critiche sollevate non sono tali da poter emettere una condanna senza appello. L’argomentazione di Rampa si sviluppa in tre passi:

  • Le valutazioni ed i riparti di risorse dell’ateneo non risentono di una percentuale esorbitante di falsi positivi (articoli falsamente attribuiti a chi non ne era autore), perché le interrogazioni erano state effettuate con una versione precedente di Scholar Search che si avvaleva di una opzione di Google Scholar, successivamente rimossa, che consentiva il filtraggio per Macro-Aree. Grazie a tale opzione, i dati di Area 14 effettivamente usati per la valutazione pavese non sarebbero stati inquinati dalle massicce iniezioni di pubblicazioni apocrife evidenziate in precedenza.
  • I falsi negativi (articoli omessi dalla valutazione perché assenti nella base dati bibliometrica) erano “una circostanza nota, tale da rendere certamente inaffidabili gli indicatori individuali” ma potevano essere “(secondo alcuni) provvisoriamente accettabili quelli aggregati“. Infatti, essi erano stati normalizzati su una scala nazionale che vede tutti gli atenei ugualmente soggetti ad un’alta percentuale di falsi negativi nella aree a bassa copertura bibliometrica.
  • Per valutare “quanto sia stato azzardato e (gravemente) compromissorio utilizzare in via provvisoria l’indice stesso anche per Aree con un basso tasso di copertura della produzione scientifica” Rampa effettuata una comparazione con i risultati della VQR. Secondo Rampa, tra l’indicatore di Scholar Search e quello della VQR “si notano una discreta correlazione ed una accettabile co-graduazione“. In altre parole, Scholar Search avrebbe anticipato, almeno approssimativamente, i risultati della VQR, che – si noti bene – sono immuni da problemi di falsi negativi e positivi.

È chiaro che l’ultimo argomento è il più forte. Immaginiamo per un attimo che le spericolate approssimazioni di Scholar Search diano gli stessi risultati dell’apparato forse controverso, ma comunque minuzioso, della VQR. Se così fosse, sarebe stato sollevato tanto rumore per nulla. “Surtout pas trop de zèle” raccomanda saggiamente Rampa.

Ma le cose stanno proprio così?

4. “Temporibus illis”, Google Search era davvero più affidabile?

È vero: fino a primavera 2012 era possibile ricorrere al filtraggio per macro-aree, grazie al quale la percentuale di pubblicazioni apocrife attribuite agli umanisti sarebbe risultata assai minore dei numeri evidenziati da Barbieri e De Nicolao. C’è però un prezzo da pagare, come spiegato da Antonio Banfi (Scholar Search: all’inferno andata e ritorno): l’esplosione degli pseudo-fannulloni.

La spiegazione era relativamente facile e va ad Antonio Banfi il merito di averla resa pubblica. All’epoca, Google Scholar manteneva una catalogazione delle pubblicazioni in macro-aree, ma una consistente percentuale di pubblicazioni risultava non catalogata. Queste pubblicazioni prive di etichetta, una specie di “materia oscura”, comprendevano una grossa fetta della produzione umanistica. Se si usavano i filtri di macro-area, la materia oscura rimaneva invisibile al telescopio di Google Scholar, con il risultato di moltiplicare a dismisura la percentuale di “umanisti fannulloni” (esplosione di falsi negativi). Se però si interrogava il database senza filtri – scelta che attualmente è l’unica possibile – ricompariva la materia oscura ma, insieme ad essa, la valanga di pubblicazioni e citazioni apocrife provenienti dagli omonimi delle scienze dure (esplosione di falsi positivi).

È pertanto discutibile sostenere che le interrogazioni del gennaio 2012 fossero più affidabili di quelle odierne. I dati scaricati da Scholar Search nel 2012 – e utilizzati nella valutazione della ricerca pavese – hanno azzerato la produzione di gran parte degli umanisti. Per verificarlo, basta confrontare gli inattivi rilevati dalla VQR con i dati gentilmente forniti da Rampa.

InattiviPVRev2Come si vede, la distorsione delle percentuali di inattività introdotta da Scholar Search nelle aree umanistiche è enorme. Nelle aree 10-14, secondo i dati ufficiali VQR, la percentuale di inattivi è sempre decisamente inferiore al 10%, mentre la ricerca dell’ateneo pavese è stata valutata con uno strumento bibliometrico che sovrastimava la percentuale di inattivi anche di 68 punti percentuali (Area 12 – Scienze giuridiche). Pure clamoroso è il caso dell’Area 10 (Scienze dell’antichità, filologico-letterarie e storico-artistiche) dove Scholar Search riteneva inattivo il 62,75% dei valutati mentre la vera percentuale è 0% (zero percento), secondo i dati ufficiali VQR.

Cosa scrive Rampa?

questa era una circostanza nota, tale da rendere certamente inaffidabili gli indicatori individuali, ma da rendere (secondo alcuni) provvisoriamente accettabili quelli aggregati

Per valutare se gli indicatori aggregati fossero “provvisoriamene accettabili” calcoliamo l’errore commesso nella stima della percentuale di soggetti inattivi.

AccettabiliAggregatiRev2

Come si può vedere, se si esclude l’Area 13 (Scienze economiche e statistiche), in cui l’errore supera comunque i 20 punti, la sovrastima nelle altre aree umanistiche (Aree 10-12 e 14) è addirittura maggiore di 50 punti percentuali. Per quanto numericamente meno rilevanti, è interessante notare che nell’Area 6 abbiamo una sottostima: vuol dire che Scholar Search sottostima il numero di inattivi perché “regala” a docenti pavesi inattivi le pubblicazioni di qualche loro omonimo.

È vero che errori altrettanto grandi vengono commessi anche su scala nazionale. Però, l’idea che si possa presumere accettabile un dato pavese grossolanamente errato perché normalizzato con un altro dato nazionale, anch’esso grossolanamente errato, è un po’ come cercare di azzeccare i risultati di un esercizio di algebra commettendo un numero pari di errori di segno che si compensano a vicenda.

5. “Una discreta correlazione ed un’accettabile co-graduazione”

Ma veniamo al piatto forte che dovrebbe “sdoganare” Scholar Search. “Non importa se un gatto è bianco o nero, finché cattura i topi” diceva Deng Xiao Ping. Anche se Scholar Search mancasse di fondamento scientifico – sembra dirci Rampa – poco importerebbe se alla fine fornisce risultati più o meno equivalenti alla VQR. Ma il gatto cattura veramente il topo oppure fa la fine di Gatto Silvestro alle prese con Speedy Gonzales?

SpeedyGonzalesPer verificare la cattura del topo, controlliamo se effettivamente ci sia “una discreta correlazione ed una accettabile co-graduazione” tra l’indicatore H norm usato nel modello di riparto pavese e l’indicatore R attribuito dalla VQR.

Prima, bisogna però risolvere un problema tecnico riguardante le Aree 8 e 11. Infatti, nella VQR sono state entrambe suddivise in una sotto-area bibliometrica (8a e 11b) e in una sotto-area non bibliometrica (8b e 11a), ragion per cui nella VQR compaiono voti distinti per le sotto-aree. Questa distinzione non esisteva nel modello di valutazione pavese. Per poter procedere con il confronto, abbiamo chiesto a Rampa i risultati dell’interrogazione di Scholar Search in base alla quale sono stati calcolati gli indicatori H norm. In tal modo, è stato possibile ricalcolare H norm anche per le sotto-aree 8.a, 8.b, 11.a e 11.b, ottenendo i risultati riportati nella tabella sottostante.

HnormVsVQRNel rifare i calcoli, è risultato che il valore di H norm per l’Area 10 risultava pari a 0,99, diverso cioè da quel 1,06 riportato nei documenti ufficiali dell’ateneo. Ci è stato confermato che nella stesura della Relazione 2012 (Aprile) sulle attività dell’ateneo pavese, i valori dell’area 10 e 11 erano risultati erroneamente invertiti, propagando un errore strutturale di Scholar Search (uno strumento non esattamente a prova di bomba, a quanto pare). L’errore avrebbe dovuto essere corretto nella Relazione 2013, ma a causa di un incauto copia-e-incolla era rimasto immutato.

Avendo sistemato questi dettagli, possiamo venire al dunque. Costruiamo un grafico i cui due assi riportano H norm sulle ascisse ed R sulle ordinate. Se ci fosse perfetta concordanza, i punti dovrebbero disporsi su una linea diagonale che partendo in basso a sinistra punta in alto a destra. Non sembra che sia così, ma Rampa si ritiene comunque ragionevolmente soddisfatto della concordanza tra i due indici:

confrontando gli indicatori delle Aree pavesi, si notano una discreta correlazione ed una accettabile co-graduazione

DiscretaCorrelazioneRev2In realtà, se si calcola il coefficiente di correlazione , si vede che esso non è statisticamente diverso da zero (qui i dettagli statistici). È arduo affermare che ci sia una “discreta correlazione”.

Per fare qualche esempio, l’Area 11.b (Scienze psicologiche) ottiene il più basso valore di H norm (e quindi il peggior voto nella pagella pavese) ma le viene assegnato il terzo più grande valore di R (e quindi il terzo miglior voto nella pagella ANVUR). L’Area 5 (Scienze Biologiche), che a Pavia otteneva un brillante secondo posto secondo H norm, quando viene giudicata dalla VQR tramite l’indicatore R precipita al quartultimo posto.

In conclusione, Scholar Search non viene “sdoganato” dalla VQR. Anzi, se dovessimo prestar fede ai risultati della VQR, emergerebbe una preoccupante arbitrarietà dei valori dell’indicatore H norm. A questo punto, è lecito domandarsi quanto casuali fossero le valutazioni della ricerca utilizzate nel modello di riparto pavese. In ogni caso, sembrano polemiche destinate agli storici: entra in carica il nuovo rettore Fabio Rugge (quello ingiustamente etichettato “fannullone” da Scholar Search) e la squadra di governo viene rinnovata. Anche il Nucleo di Valutazione, il cui rinnovo era stato a lungo procrastinato, è in attesa di nomina.

6. Coup de théâtre

Secondo lo Statuto dell’Università degli Studi di Pavia,

I componenti del Nucleo sono nominati dal Rettore, sentito il Senato accademico e il Consiglio di amministrazione.

Statuto dell’Università di Pavia – art 16, comma 4

Nella seduta del 16-12-2013, il Rettore Fabio Rugge sottopone al parere del Senato Accademico i sette nominativi per il nuovo NuV. La rosa di nominativi è fatta oggetto di commenti e riserve, alcune delle quali sono consultabili qui. In apertura di discussione, uno dei membri del Senato Accademico, Cristina Barbieri (coautrice dell’articolo che per primo aveva sottolineato l’inadeguatezza dei metodi bibliometrici usati per la valutazione della ricerca), consegna nelle mani del Senato le sue dimissioni insieme alle motivazioni del suo voto contrario:

Su questa delibera io pongo le mie dimissioni nelle mani del Senato. Le riterrò convalidate se il Senato riterrà irrilevanti le motivazioni che sottendono.

Cosa c’è in quella lista di nomi da suscitare prese di posizione così nette? Il nominativo più controverso è quello di Lorenzo Rampa, il promotore e l’avvocato dell’uso di Scholar Search. Le perplessità dei senatori vanno però oltre gli aspetti puramente tecnici e riguardano l’opportunità di nominare nel NuV il prorettore vicario uscente. Egli non solo ha avuto un ruolo chiave nel determinare le politiche del passato governo, i cui effetti cadranno sotto la lente del NuV, ma era anche nella posizione per influire sui tempi della nomina del NuV, il cui rinnovo era stato appunto dilazionato di diversi mesi,

Il Senato Accademico, spaccato letteralmente in due (7 Contrari, 4 Astenuti, 11 Favorevoli), non dà parere favorevole. Ma il rettore tira dritto. La rosa di nominativi viene sottoposta anche al Consiglio di Amministrazione che l’approva a maggioranza ed il rettore procede alla nomina del NuV.

Una storia italiana, che illustra bene lo stile approssimativo con cui può essere gestita la valutazione interna agli atenei ed anche i criteri di selezione dei membri dei nuclei di valutazione.

_____________________

Per saperne di più:

Send to Kindle

10 Commenti

    • Grazie della segnalazione. Adesso, tutte le tabelle si ingrandiscono quando si fa “clic” col mouse. Riguardo al file pdf, credo sia un problema del plugin che non gestisce adeguatamente articoli ricchi di figure e tabelle. In questi casi generare direttamente il pdf attraverso la stampa della finestra del browser può dare risultati migliori. Ecco un esempio di file pdf che può essere scaricato direttamente:
      https://www.roars.it/online/wp-content/uploads/2014/01/Scholar-Search-e-la-leggenda-del-“rettore-fannullone”.pdf
      Alcune tabelle sono molto dense e temo che la soluzione migliore sia la visualizzazione sullo schermo, previo ingrandimento (si è cercato di caricarle tutte con una risoluzione adeguata).

  1. letto tutto, complimenti ! mi domando … nella procedura vqr il gev13 ha utilizzato google scholar per imputare valori bibliometrici alle riviste economiche assenti in scopus ed isi e quindi non dotati di valori bibliometrici propri che si basano sull’impiego di metadati. quale affidabilità ha tale operazione ? poi le riviste sono state distinte in fasce A-D e la fascia A è stata poi impiegata per le ASN …. (fatto salvo poi il metodo di stima, e la robustezza degli stimatori, impegato dal gev13 utilizzabdo i dati GS)

    • “quale affidabilità ha tale operazione ?”
      Bella domanda. A prima vista sembra che l’operazione manchi di basi scientifiche. Nel caso esaminato nel mio articolo, la situazione era anche peggiore perché l’interfaccia Scholar Search (che è stata sviluppata da alcuni colleghi italiani di Biologia Molecolare) dava all’utente l’illusione di aver risolto il problema della disambiguazione dei cognomi.

  2. La Sie ha costruito una sua lista di riviste in cinque fasce. Si ha ora la seconda versione, Non è stato impiegato GS, ma indicatori di Isi, Scopus, Repec, poi la classificazione per fasce è passata al vaglio di x referee di tutte le aree disciplinari economiche incluse in area 13 ed il consiglio di Presidenza ha valutato proposte di modifica impiegando criteri noti ai referee ex-ante. La procedura ha certo dei difetti. Può e deve essere migliorata. I referee scelti possono essere discutibili e discussi, le loro valutazioni idem, le decisioni del CdP altrettanto, ma almeni i dati impiegati non erano errati. Si può discutere anche circa la loro utilità, la bibliometria ha gravi pecche. Ma almeno è stato fatto uno sforzo ad impiegare dati non errati all’origine.

  3. Articolo meraviglioso, fino al capitolo 6. Poi sopraggiunge una forte amarezza, perché quanto successo a Pavia succede dappertutto. E’ vero che chi prende i voti poi comanda, ma come è possibile non avere quel minimo di buon senso necessario a capire qual’è il limite da non superare? Dalle “mie parti”, l’estate scorsa il rettore è stato messo in minoranza dal senato sul nome del direttore generale, ma l’ha nominato ugualmente: in consiglio di amministrazione, poi, la nomina è passata a maggioranza per un solo voto, quello del funzionario amministrativo che sostituiva, per oggettiva incompatibilità, il “nominando”.

  4. Il finale della storia è stato riscritto. Il pomeriggio del giorno di pubblicazione dell’articolo si è tenuta la seduta del Senato Accademico dell’Università di Pavia, durante la quale
    ________________
    Il Rettore ha comunicato che il nuovo Nucleo di Valutazione si è insediato la mattina del 27 gennaio, e che il prof. Lorenzo Rampa gli ha inviato una lettera di rinuncia all’incarico motivata dal rischio di pregiudizio nei confronti del Nucleo a causa della sua presenza. Il Rettore, pur ritenendo infondate le obiezioni sollevate a riguardo della nomina del prof. Rampa, e riconoscendo viceversa la sua lealtà verso l’istituzione, provvederà alla nomina del settimo membro.

    Il Rettore ha respinto le dimissioni della senatrice Cristina
    Barbieri, che aveva rimesso il suo mandato nelle mani del Rettore. (NB: il 28 gennaio la Sen. Barbieri ha comunicato il ritiro delle sue dimissioni)
    http://icavallidicaligola.wordpress.com/2014/01/29/resoconto-seduta-sa-2701/
    ==========================
    Sulla nomina del NuV, il Rettore Fabio Rugge è ritornato anche in risposta ad una delle domande che gli sono state poste durante il Question Time che si è tenuto il 29.1.2014 (inizio della domanda: 1:27:00)
    http://www.youtube.com/watch?v=daAOlbd0RZM&feature=share

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.