Nonna Papera for ever? Il coordinatore della VQR propone al “Bibliometric Working Group“ di studiare un nuovo algoritmo sperimentale, basato sulla “Principal Components Analysis” di impact factor e citazioni. Ma basta consultare Wikipedia per scoprire che, dietro il nome pomposo, c’è solo la media di due rankings, una procedura che, come già denunciato più di un mese fa da ROARS (“La classifica di Nonna Papera”), è scientificamente screditata. Un ulteriore preoccupante episodio della “Bibliometria fai-da-te dell’ANVUR“.
Sergio Benedetto, coordinatore dell’esercizio di Valutazione della Qualità della Ricerca (VQR 2004-2010), si avvale dell’ausilio di un BWG (Bibliometric Working Group) formato da una decina di membri, in grandissima parte provenienti dai GEV (Gruppi di Esperti della Valutazione). Per tale gruppo sarebbero previste quattro attività, in parte di supporto alla VQR, in parte di esplorazione di nuove metodologie. Il presente articolo discute l’ultima di queste attività, che riguarda la messa a punto di un algoritmo innovativo per la classificazione bibliometrica degli articoli scientifici.
Per rendere meno arida l’esposizione, faremo ricorso ad un espediente narrativo, immaginando un dialogo tra due personaggi di fantasia che discutono della VQR condotta dall’Agenzia Nazionale per la Valutazione del sistema Universitario della Ruritania (ANVUR). Tuttavia, tutte le analisi tecniche riflettono fedelmente quanto trapelato riguardo all’attività del Bibliometric Working Group italiano.
“Come lo famo? Lo famo strano!”
Peppe si sentiva in colpa. Aveva perso tempo a guardare su YouTube qualche spezzone di Theatre of Blood – un film che rappresentava il culmine della carriera di Vincent Price – e adesso era tremendamente a corto di tempo. Era l’una meno un quarto e non aveva finito di preparare il tema d’esame per la prova scritta che iniziava alle due e mezza. Aveva già preparato tre domande su quattro, ma per quanto si spremesse le meningi non gli veniva in mente una quarta domanda che non fosse già nella raccolta di esercizi risolti che aveva messo in rete.
Quando sentì bussare alla porta, pensando che fosse uno studente che voleva registrare il voto sul libretto, disse “avanti” con un tono infastidito, per pentirsene subito dopo, quando vide apparire il collega Gedeone.
“Ciao, Peppe, andiamo a mangiare in mensa insieme?”
“Non so. Ho promesso che registravo voti fino all’una e, per di più, devo finire di preparare il tema d’esame per oggi pomeriggio. Quasi, quasi resto in ufficio a lavorare e, più tardi, mangio un panino al bar”
“Ma dai! Uno come te, in un quarto d’ora, è capace di inventarsi un intero compito. Resto qui ad aspettare fino all’una e poi andiamo a mangiare insieme.”
Gedeone si sedette con l’intenzione di non disturbare Peppe che riprendeva a lavorare sul testo del tema d’esame, ma non seppe resistere alla tentazione di stuzzicarlo.
“Hai visto che il mio amico Edward Lionheart, il coordinatore della VQR della Ruritania, ha pubblicato tutti i criteri che verranno usati nella valutazione? Ti ho mandato il link. Cosa ne pensi?”
“Caro Gedeone” – quando Peppe iniziava il discorso in questo modo, c’era qualche stoccata in arrivo – “ho dato una scorsa ai criteri e soprattutto ai ‘quadrati magici’ che incasellano gli articoli in base a citazioni e impact factor. Ci vuole un quadrato diverso per ogni annata e poi anche per i due database, ISI e Scopus. Insomma, ben quattordici quadrati. Mi immagino la riunione del Consiglio Direttivo dell’ANVUR durante la quale il presidente formula la fatidica domanda
E il VQR? Come lo famo?
a cui Edward, con la stessa espressione facciale di Carlo Verdone in Viaggi di Nozze, risponde
‘O famo strano!
Ti assicuro che quella griglia bibliometrica, oltre a essere scientificamente molto dubbia, è un pasticcio senza precedenti.”
[youtube=http://www.youtube.com/watch?v=X9hJ-HxsYZY&start=30s]
Il genio della copula
Gedeone, che provava un gusto quasi malsano a provocare Peppe su questi argomenti, volle continuare.
“Su questo hai qualche ragione, il sistema è un po’ macchinoso. Se avesse avuto più tempo. Edward, avrebbe risolto meglio. Infatti, i suoi consulenti bibliometrici hanno escogitato un’idea brillante che potrebbe persino rivoluzionare la scienza bibliometrica. Guarda il file allegato al mio messaggio. Ti ho girato le attività del Bibliometric Working Group della VQR, sulle quali Edward mi ha chiesto un parere. La quarta attività di questa ‘task force bibliometrica’ è un algoritmo sperimentale che rende inutili i ‘quadrati magici’, come li chiami tu.
(Warhol image courtesy of Artsy.net)
Usando la Principal Component Analysis, le citazioni e l’Impact Factor vengono combinati in un super-indice bibliometrico, che dà un voto oggettivo ai singoli articoli. È una fortuna che a capo della VQR abbiano messo uno scienziato come Edward. Non solo faranno un’ottima valutazione, ma sotto la sua guida contribuiranno al progresso della scienza bibliometrica a livello internazionale. Edward è un vero genio …”
Mentre Gedeone parlava, Peppe aveva aperto il file e mentre leggeva i passi dell’algoritmo sperimentale aveva cominciato a ridacchiare:
Sì, è un vero genio … il genio della copula!
Gedeone, preso in contropiede, rimase interdetto. Non riusciva a capire.
“Stai alludendo a uno di quei film sperimentali di Andy Warhol che piacciono solo a te? Anche a me piace il cinema degli anni ’60-’70, ma certe sperimentazioni di Warhol non fanno per me. Sconfinano nel cinema a luci rosse.”
Sia Peppe che Gedeone erano appassionati dei più strani sottogeneri cinematografici. In mensa, il giorno prima avevano stupito i colleghi con una dotta discussione sulla Blaxploitation che partiva dal detective Shaft per arrivare fino al vampiro Blacula.
“Non guardarmi in quel modo. Non si tratta di cinema a luci rosse. ‘Copula‘ è un termine tecnico che si usa in statistica per indicare un particolare tipo di distribuzione multivariata. Guarda qui”
Peppe aprì una pagina web che riportava la seguente definizione:
A copula is a multivariate joint distribution defined on the n-dimensional unit cube [0,1]n such that every marginal distribution is uniform on the interval [0, 1].
“Caro Gedeone, il coordinatore della VQR non si è accorto che con la normalizzazione effettuata nel secondo passo dell’algoritmo, si ottiene una copula …”
“E allora, che cosa significa?” adesso era Gedeone che si spazientiva “Sapere o non sapere che quella è una copula cambia ben poco!”
“Il problema non è il nome, ma il fatto che questa attività del Gruppo di Lavoro Bibliometrico sembra uno scherzo. In una copula, entrambe le variabili hanno la stessa varianza. In tal caso, anche un principiante sa che la componente principale è una retta a 45 gradi, Mi correggo: 45 gradi se la correlazione è positiva, -45 gradi se è negativa, ma nel caso di citazioni e Impact Factor sarà positiva. Senza fare nessun calcolo, è evidente che la componente principale ha due coefficienti uguali tra loro e il ‘super-indice’ si rivela una banalissima media aritmetica! Se aggiungi che normalizzare attraverso le distribuzioni cumulative è come usare la posizione in classifica, il ‘super-indice’ si riduce alla media della posizione dell’articolo nella classifica delle citazioni e della posizione della rivista nella classifica degli Impact Factors. Insomma, siamo ritornati alla “classifica di Nonna Papera”! Non posso fare a meno di ricordarti cosa scriveva Bruce Thompson nel suo articolo del 1993:”
The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.
“Caro Gedeone, per capire perché Thompson è così severo, pensa a come sarebbe il Giro d’Italia se la classifica della corsa fosse basata sulla media delle posizioni nelle classifiche di tappa (se vinci tutte le tappe, la tua media è pari ad uno; la maglia rosa spetta a chi ha la media più bassa). Un ciclista conquista la maglia rosa vincendo la prima tappa con 25 minuti di distacco sul secondo. Immagina anche che il giorno dopo tutti i ciclisti arrivino al traguardo insieme, con distacchi dell’ordine di pochi secondi. Cosa succederebbe al detentore della maglia rosa, se nella seconda tappa arrivasse quarantesimo, a una manciata di secondi dal vincitore di tappa? Dovrebbe cedere la maglia rosa a qualche concorrente assai più mediocre, che ha il solo merito di essere arrivato tra i primi 20 in entrambe le tappe, dato che (1+40)/2 è maggiore di (20+20)/2.”
Con un sospiro Peppe aggiunse:
“Ma è possibile che nessuno del Gruppo di Lavoro Bibliometrico della VQR se ne sia accorto? Non mi avevi detto che Edwards aveva fatto circolare l’articolo di Thompson tra tutti i membri dei GEV? Continuano a fare scivoloni. Non si rendono conto che stano scalando un ghiacciaio con le scarpe da tennis?”
Gedeone tentò una disperata difesa:
“Adesso esageri. Tu sei un ‘guru’ dell’analisi dati e tendi giudicare tutti con il tuo metro. A me non sembrava per niente ovvio che la componente principale fosse la retta a 45 gradi.”
“È una nozione di base che io spiego agli studenti del terzo anno della laurea triennale quando introduco la nozione di correlazione. Guarda questo libro: la componente principale non è altro che la ‘SD line’, la retta delle deviazioni standard, disegnata in rosso. Agli studenti viene fatto notare che se le deviazioni standard delle due variabili sono uguali, si ottiene la retta a 45 gradi. Proprio come nella figura del libro!”
Dinamiche di coppia
Gedeone scuoteva la testa, ma, prima che potesse dire la sua, qualcuno bussò alla porta.
“Permesso, sono ancora in tempo per registrare il voto di Analisi dei Dati?” chiese timidamente lo studente. Qualche passo dietro di lui, s’intravedeva una ragazza bruna.
Peppe acconsentì, prese il pacco dei compiti e controllò il voto. Era un 27 causato da un solo errore, abbastanza grave da non poter essere derubricato a semplice svista. Peppe fu attraversato da un’idea fulminea. Incrociò gli occhi di Gedeone e poi si rivolse allo studente:
“Le do la possibilità di prendere 30, se risponde correttamente alla domanda che sto per farle. Se sbaglia, prende 25. Però, se non se la sente di rispondere, può tenere il 27 e amici come prima.”
Lo studente, dopo un attimo di sorpresa, acconsentì di buon grado.
“Consideri una coppia di variabili casuali, correlate positivamente, le cui distribuzioni marginali sono entrambe uniformi in [0,1]. Senza fare conti, mi disegni alla lavagna la prima componente principale.”
Lo studente esitò, soppesando le sue probabilità di successo. Diede una rapida occhiata alla ragazza e accettò la sfida.
Si mosse verso la lavagna e prese un gessetto. La retta che disegnò riproduceva quella del libro. Prima ancora che finisse il grafico, Peppe, assai soddisfatto, stava firmando il 30 sul libretto.
Mentre lo studente si allontanava dall’ufficio, Peppe e Gedeone sentirono la ragazza che diceva “ti piace vincere facile!” prima di stampargli un bacetto sulla guancia.
“Due piccioncini in una fava” commentò Peppe “non solo ti ho dimostrato che persino uno studente sa trovare al volo le componenti principali di una copula, ma ho anche riequilibrato la loro dinamica di coppia”
“In che senso?”
“La ragazza, che è molto brava, aveva già preso 30. Adesso sono pari. Però, ha ragione lei a prenderlo in giro. Facendogli una domanda così facile, l’ho aiutato un po’ troppo.”
“Peppe, sei molto abile. Però, questo era uno studente fresco di studio. Trascorsi un po’ di anni non è poi così ovvio associare la Principal Component Analysis alla ‘SD line’ ”.
“Scusami, ma non stiamo parlando di laureati qualsiasi. Stiamo parlando del coordinatore della VQR nazionale e della sua task force bibliometrica! Tra l’altro, non ci volevano dei grandi statistici. Bastava leggersi cosa scrive Wikipedia sulla Principal Component Analysis:”
If we have just two variables and they have the same sample variance and are positively correlated, then the PCA will entail a rotation by 45° and the “loadings” for the two variables with respect to the principal component will be equal.
“Voglio essere chiaro: non sto dicendo che sono degli asini. Sono il primo ad essere convinto che i membri dei GEV sono scienziati eccellenti, ‘top scientist’, come li ha definiti il presidente dell’ANVUR. Ma dovrebbero essere i primi a capire se si stanno muovendo su un terreno estraneo alle loro competenze. Se non hai una preparazione specifica, essere un “top scientist” non è sufficiente a darti la patente per guidare un esercizio di valutazione nazionale e nemmeno per riscrivere la scienza bibliometrica. C’è il rischio di fare danni e coprirsi di ridicolo.”
Un’ANVUR scientificamente delegittimata?
Gedeone era rassegnato. Aveva perso un’altra volta. Però voleva far chiarezza su un altro punto:
“Tu sei sempre molto severo nei confronti dell’ANVUR e non ti nascondo che le presunte incompetenze tecniche di Edward sono oggetto di dure contestazioni anche da parte di suoi connazionali. A me non sembra giusto. È un grande scienziato ed ha accettato di svolgere un compito gravoso per il bene di tutta l’università ruritana. Sono sicuro che sta dando il meglio di se stesso e che non merita queste critiche. Anzi, sono convinto che stanno cercando di delegittimare lui e tutto l’ANVUR per difendere le posizioni antimeritocratiche di chi non vuole essere valutato per continuare a farsi i fatti propri senza rispondere di niente a nessuno.”
Peppe, si fermò un attimo a riorganizzare le idee e poi rispose:
“Sarò socratico. Il problema più grave non è l’ignoranza, ma la presunzione di sapere. Il ruolo del “Grande Valutatore”, un termine che richiama fin troppo il “Grande Inquisitore”, è un ruolo scomodo. Chi rilascia interviste annunciando classifiche che serviranno a declassare università e chiudere sedi, deve essere sicuro non solo di padroneggiare gli strumenti tecnici ma anche della loro correttezza scientifica. A scuola, il professore cerbero con gli studenti, ma meno preparato di loro, si rende ridicolo da solo. Il potere senza competenza è foriero di catastrofi, soprattutto se sottovaluta la complessità dei problemi.
Devi ammettere che gli scivoloni cominciano ad essere troppi:
- criteri bibliometrici privi di basi scientifiche (Misurare nani e giganti, Il VQR ed il vino a due stadi);
- veri e propri errori metodologici noti da anni, proposti dapprima in forma diretta (La classifica di Nonna Papera) …
- e poi riproposti dietro la maschera di algoritmi complessi (VQR: la classifica di Pinocchio dell’ANVUR);
- la mancata conoscenza delle statistiche bibliometriche degli atenei che si devono valutare (Gli errori della formula ammazza-atenei dell’ANVUR);
- l’annuncio di classifiche da usare per chiudere sedi quando le agenzie serie (Regno Unito e Australia, in primis) le evitano tassativamente, non per buonismo, ma per solide ragioni metodologiche (Gli errori della formula ammazza-atenei dell’ANVUR);
- la ripartizione delle risorse con una formula che, anche senza tener conto dei paradossi matematici, va nella direzione opposta rispetto alle ‘good practices’ internazionali (Gli errori della formula ammazza-atenei dell’ANVUR);
- un bando inadeguato e punitivo nei confronti degli enti di ricerca pubblici, come il CNR (Perché il VQR penalizza gli enti pubblici di ricerca. L’indice di Cipolla, L’ANVUR e l’Agenzia delle entrate).
E adesso anche una ‘task force bibliometrica’ alle prese con un ‘super-indice’ che, Wikipedia alla mano, si riduce alla media aritmetica dei rankings.
Sarei terrorizzato di viaggiare su un aereo pilotato da qualcuno che non ha esperienza di volo, ma pensa di potercela fare perché sa guidare l’automobile. In una situazione del genere, farei di tutto per lanciare l’allarme, a costo di esporre il pilota al ridicolo. Lo farei per il bene dei passeggeri, ma anche del pilota. Una procedura di valutazione affidata ad un coordinatore autodidatta e a 450 top scientist dediti alla bibliometria fai-da-te è come un aereo fuori controllo. Anche se le speranze sono poche, tentare di fermarli è un dovere morale. Soprattutto per chi crede che la valutazione sia una cosa seria. I veri nemici della valutazione sono quelli che la gestiscono in modo poco professionale con il rischio di compromettere la credibilità scientifica dell’intera l’operazione.”
“Ma cosa potrebbero fare, per salvare la situazione?”
“Fermare i motori e nominare una commissione di persone veramente esperte di valutazione e bibliometria, senza escludere la consultazione di esperti stranieri. Stranamente, lo snodo del processo valutativo in cui gli esperti stranieri non sembrano avere alcun ruolo è quello più importante, ovvero la progettazione dell’architettura del processo di valutazione. Procedere ad una revisione del bando che presenta troppi punti deboli. Per avere un’idea delle possibili correzioni basterebbe leggersi un buon manuale di bibliometria o prendere spunto dalle esperienze straniere. Last but not least, abbandonare il ricorso a procedure segrete e fare una scelta di campo a favore della trasparenza, sottoponendo a consultazioni pubbliche i documenti provvisori, come si fa in tutte le altre nazioni.”
Gedeone era ammutolito. Peppe, si alzò e disse:
“Adesso che la task force bibliometrica dell’ANVUR mi ha suggerito l’esercizio che mi mancava per il tema d’esame, possiamo andare in mensa. Mentre mangiamo, se non sei stufo di bibliometria, ti racconto un altro svarione che un mio post-doc ha trovato nei criteri dei GEV.”
Bene l’analisi di questa procedura escogitata per “creare” l’ordinamento delle riviste del GEV 9.
Peraltro, ci troviamo di fronte ad una frammentazione di scelte e di metodologie molto ampia – e già mi restringo, qui, ai soli GEV che hanno dovuto far uso della bibliometria in modo più spinto (e.g.: per classificare le riviste, tanto per cominciare).
Che dire di altre scelte? Per esempio, chi ha fatto la scelta di avvalersi di un solo indice, come il Sub-GEV01.3 (Analisi matematica) non è andato incontro a *questo* specifico problema – beninteso, ne restano innumerevoli altri. Lì hanno ordinato con l’indice MCQ fornito dalla banca dati MathSciNet, e buona notte.
Che dire del Sub-GEV01.4 (Matematica applicata), dove hanno provveduto a ordinare le riviste nell’insieme di riferimento in base a un indice ottenuto sommando il valore dell’indice bibliometrico MCQ con 1/3 del valore dell’IF a 5 anni (o, in assenza di questo, dell’IF a 2 anni) fornito dalla banca dati WoS? Che solidità hanno queste scelte? Pare che salvino dalla “media di Nonna Papera” della PCA, però hanno sommato due indici diversi – direttamente i valori numerici, dico. Simili scelte in altri Sub-GEV.
E di tutte le decisioni per combinare classificazione delle riviste e classificazione degli articoli (cit./art.), che sono sostanzialmente decisioni umane dei GEV (“Matrice di corrispondenza tra indicatori di merito della rivista e delle citazioni, e classe finale VQR”), cosa diciamo?
Purtroppo che sono il frutto di bibliometria fai-da-te senza nessun riscontro nella letteratura scientifica. Come tento di argomentare nei miei post su roars.
[…] con Nonna Papera, nani e giganti, la formula ammazza-atenei, Pinocchio, il vino a due stadi e le copule bibliometriche – Peppe sorrise – ma quanto a rigore metodologico non scherzano per niente. In che senso il […]