Bibliometria

Nei criteri VQR c’è un “fatal error” (noto da più di 20 anni)

L'”accurata calibrazione bibliometrica” è una delle novità della VQR 2011-2014, secondo quanto dichiarato dal suo coordinatore Sergio Benedetto. Una calibrazione che però conduce a esiti paradossali: per un articolo pubblicato nel 2013 in una rivista il cui IPP (Impact per publication) vale 2,92, possono bastare tre citazioni per essere valutato di livello Elevato e ne bastano nove per essere promosso a Eccellente. Ma se l’IPP della rivista è 2,32, l’articolo non diventa Eccellente nemmeno se riceve 70 citazioni. Questa disparità di trattamento deriva da un inedito criterio di valutazione degli articoli che si basa  sulla somma (pesata) dei percentili di due indicatori bibliometrici. Un criterio bibliometrico mai sperimentato prima, anche perché da più di 20 anni è noto nei più vari ambiti scientifici, a partire dalle valutazioni pedagogiche e psicometriche fino ad arrivare alla geografia e alla chimica, che i percentili «cannot be aggregated in any meaningful way», dato che sono misure ordinali e non misure ottenute usando una scala a intervalli regolari. Un errore ben noto, che, oltre a essere oggetto di quiz per le high school, è stigmatizzato in numerosi libri di testo e anche in articoli scientifici, secondo i quali «The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable».

A questo link si trovano le slide e il filmato di un seminario che spiega il fatal error della VQR 2011-2014:
http://www.roars.it/online/il-sonno-della-ragione-genera-anamorfosi-bibliometriche/

Regiment_ties

1. Le cravatte bibliometriche della VQR 2011-2014

Peppe stava ancora appendendo il giaccone sul gancio dietro alla porta quando notò il messaggio sulla lavagna del suo ufficio.

Classe_non_acqua

La prima reazione fu un’imprecazione che però fu soffocata in tempo. Per fortuna, l’ignoto imbrattatore di lavagne non gli aveva cancellato i conti della sera prima. Nel dipartimento era tuttora leggendario il casino che Peppe aveva scatenato quella volta che l’addetto alle pulizie gli aveva cancellato alcuni difficili passaggi di un teorema, costati una settimana di duro lavoro. Imbufalito, era arrivato a scrivere persino al Consiglio di Amministrazione e, come effetto collaterale, erano partiti dei controlli che avevano condotto alla revoca dell’incarico all’impresa di pulizia. Non per cancellazione di teoremi, a dire il vero, ma per l’emersione di gravi irregolarità fiscali e previdenziali. Alcuni colleghi buontemponi avevano però diffuso la leggenda che fosse stata la giusta punizione per chi aveva messo proditoriamente a soqquadro le elucubrazioni scientifiche del collega. E a Peppe la diceria non dispiaceva affatto.

Non amava intrusi nel suo territorio e – a dirla tutta – aveva meno indulgenza per chi imbrattava la sua lavagna di quella che aveva avuto nei confronti di Gedeone quando, a tempi dell’università, gli aveva fatto concorrenza nel corteggiare una ragazza. Un buco nell’acqua per entrambi. Due nerd senza speranza, si sarebbe detto ai giorni nostri.

Ma ecco, il PC si era avviato e, scorrendo la lista dei messaggi, Peppe ebbe la conferma dei suoi sospetti.


Da: GedeoneP <gedeo.p@gmail.com>
Oggetto: la classe non è acqua! Ecco i nuovi criteri VQR
Ciao Peppe,
non so se hai visto che sono usciti i criteri bibliometrici della nuova Vqr (per risparmiarti la fatica di scaricarli, ti allego quelli del GEV 09, tanto lo schema è lo stesso per tutti i GEV bibliometrici). Durante il weekend me li sono letti e sono impaziente di avere anche il tuo giudizio. Intanto, ti riassumo per punti le mie prime impressioni.
1. Ti devo concedere che avevi ragione tu quando, citando le analisi di Roars [VQR da buttare? Persino ANVUR cestina i voti usati per l’assegnazione FFO 2013], dicevi che la prima VQR era scalibrata e che non garantiva uniformità tra le scale di valutazione dei diversi SSD, anche dentro la stessa Area CUN. Lo dice persino Sergio Benedetto nella slide 23 di una presentazione che ti allego: "Non è detto che l’attribuzione degli elementi della matrice rispetti la distribuzione voluta (calibrazione) 20-20-10-50".

 

2. Ma questi sono problemi del passato: l’Anvur ha messo a punto una procedura di valutazione bibliometrica molto migliore dei vecchi “quadrati magici” che hai tanto sbeffeggiato. I prodotti vengono ancora collocati in un piano la cui coordinata “x” è il “voto” attribuito alla rivista (una journal metric come l’Impact Factor a 5 anni, per esempio) e la coordinata “y” è il numero di citazioni. Ma adesso le regioni dei voti sono individuate da delle strisce parallele, simili a quella di una cravatta “regimental”. Il bello è che l’inclinazione delle strisce cambia di anno in anno. Nel 2011, l’inclinazione è tale da dare più importanza alle citazioni, mentre, a mano a mano che si avanza nel tempo, l’indice citazionale diventa meno affidabile e cambia l’inclinazione in modo da incrementare il peso del journal metric index. Anno nuovo, cravatta bibliometrica nuova, insomma. Con questa ingegnosa trovata delle cravatte i nostri colleghi ingegneri Sergio Benedetto e Gianluca Setti, il coordinatore del GEV 09, si sono veramente guadagnati il titolo di “arbitri elegantiae bibliometricae”.

Cravatta_bibliometrica

 

3. So già che dirai che non si possono mettere insieme le mele con le pere, ovvero citazioni e Impact Factor. Ma all’ANVUR hanno pensato anche a questo. Infatti, la cravatta bibliometrica non è definita usando direttamente il journal metric index e le citazioni, che sono variabili difficilmente paragonabili, ma i loro percentili che sono per definizione compresi tra 0 e 100. Inutile che lo spieghi a te: si prendono tutti gli articoli pubblicati nella Subject Category considerata nel corso di un certo anno e si costruisce la classifica delle citazioni. Se il 60% degli articoli mondiali ha meno citazioni del tuo articolo, vuol dire che il suo percentile citazionale è pari a 60 (per chi invece preferisce contare dalla cima, stai nel primo 40%).

 

4. Ma qui viene il bello: per garantire uniformità tra tutti i Settori scientifico-disciplinari, le righe della cravatta sono posizionate in modo da definire 5 strisce, ognuna delle quali contiene una percentuale assegnata di articoli mondiali

 

20% nella striscia più bassa (limitato – 0 pti)

 

30% in quella subito sopra (accettabile 0,1 pti)

 

20% in quella intermedia (discreto 0,4 pti)

 

20% in quella quasi al top (elevato 0,7 pti)

 

10% in quella top (eccellente 1 pto)
5. Una calibrazione finalmente rigorosa che manda in soffitta tutti i problemi della precedente VQR. Adesso, possiamo anche riconoscere che la VQR 2004-2010 era parecchio sgangherata, proprio a causa della scalibrazione dei criteri bibliometrici, che Roars aveva evidenziato così bene. Si tratta di obiezioni a cui è stato giusto non dare spazio, perché, anche quando erano tecnicamente ineccepibili, nascondevano solo una sterile opposizione alla cultura della valutazione. Una cattiva valutazione è pur sempre meglio di nessuna valutazione.

 

6. Perché nessuno possa dirsi ingiustamente danneggiato sono state previste una serie di misure di garanzia. È il valutato a scegliere su quale database citazionale verrà giudicato (Web of Science della Thomson-Reuters o Scopus della Elsevier). E per entrambi, può anche indicare tra due journal metric index quello che gli torna più conveniente. Inoltre, nei casi estremi o dubbi, si ricorrerà alla peer review.

 

7. So già che qualcuno si lamenterà della metodologia troppo complicata. Ma tra qualche giorno sulla piattaforma Iris sarà possibile ottenere i percentili di journal metric index e di citazioni per ciascuno dei propri articoli. A quel punto, tutti sapranno in che punto del piano x-y cadono gli articoli e per valutarli basterà farsi dire dove sono le strisce della cravatta bibliometrica. Se il tuo articolo appartiene ad una sola WoS-SC (Subject Category) e a una sola Scopus-ASJC (All Science Journal Classification), ti basta controllare solo 4 cravatte (2 per WoS e 2 per Scopus dato che in entrambi i casi puoi scegliere tra due journal metric index). Se poi hai pubblicato articoli in ogni anno del quadriennio 2011-2014, te la cavi con 4x4=16 cravatte. Va un po’ peggio a chi ha articoli che appartengono a più categorie nel qual caso si va facilmente oltre le 30-40 cravatte da controllare. Ma che sarà mai? Mi sembra un prezzo ragionevole per avere in cambio una valutazione finalmente rigorosa. Il fatto che le valutazioni siano tutte ipotetiche perchè ANVUR farà i conti finali sulla base dei dati bibliometrici scaricati a fine febbraio aggiunge solo un pizzico di suspance, che può essere persino elettrizzante.

 

Più di una volta hai detto che gli svarioni tecnici nei documenti dell ‘ANVUR sono così macroscopici che tu riesci ad individuarli alla prima lettura. Questa volta non riusciresti a trovarne uno, nemmeno se ti ci dedicassi una settimana a tempo pieno.
Questa mattina ho quattro ore di lezione. Se non hai altri impegni possiamo andare insieme in mensa. Così ne approfittiamo per parlare di questa nuova VQR che mi sembra promettere molto bene.
Gedeone
P.S. Voglio vedere cosa troveranno da ridire gli oppositori per partito preso, redazione di Roars in testa. Sempre pronti a criticare e a trovare il pelo nell’uovo. Su Roars non ho mai letto una proposta che sia una. E, sinceramente, mi dispiace che tu sia quasi sempre schierato dalla loro parte, proprio tu che avresti tutto da guadagnare dall’uso di questi criteri bibliometrici.

Allegati:

Criteri GEV 09
Slide Benedetto

Non appena ebbe finito di leggere il fluviale messaggio di Gedeone, Peppe tirò il fiato mettendo le mani dietro la testa mentre reclinava la poltrona all’indietro. Rimase in meditazione meno di un minuto. Poi si portò in avanti e mise mano alla tastiera. Digitò www.roars.it e puntò il mouse sul menu

Idee e prospettive

Diede una scorsa ai titoli e sorrise: la memoria non lo ingannava. Per prima cosa, scrisse due righe a Gedeone


Caro Gedeone,

non sta a me rivestire i ruoli del difensore di Roars, ma qualche proposta l’hanno anche fatta, basta aprire questo link
http://www.roars.it/online/category/idee-e-prospettive/
In particolare, ecco le loro proposte per la riforma della VQR:
http://www.roars.it/online/proposte-per-la-prossima-vqr/
Adesso provo a leggere i criteri bibliometrici della nuova VQR. Visto che mi sfidi, vediamo cosa sono capace di capirci in quattro ore.
Peppe

Un clic sul pulsante “invio” e il messaggio sfrecciò via.

Era ora di mettersi al lavoro. Tra una cosa e l’altra erano già le 9:30. Rimanevano solo tre ore e mezza prima dell’arrivo di Gedeone.

Italians_do_it_better

2. Engineers do it better

Erano le 12:58 quando Peppe, dopo aver scritto una formula sulla lavagna si accasciò sulla sedia girevole. Fece del suo meglio per tirare il fiato dopo una mattinata di “studio matto e disperatissimo”. Non voleva che Gedeone lo vedesse in quelle condizioni.

Erano da poco passate le 13:05 quando sentì bussare. Gedeone, come il suo solito, entrò nello studio senza che Peppe avesse il tempo di dire ‘avanti’.

-Ti vedo provato, Peppe. Ti conosco troppo bene. Hai lavorato come un matto su quei criteri e non sei venuto a capo di nulla.

-Non lo posso negare, ho faticato parecchio …

Gedeone gongolava, pregustando la sua vittoria.

-Ehe, caro Peppe, quando ci si mettono gli ingegneri, non ce n’è per nessuno. E che ingegneri! Scommetto che ci hanno lavorato Sergio Benedetto e Gianluca Setti che sono due Fellow dell’IEEE. E poi noi ingegneri siamo allenati ad applicare metodi quantitativi a problemi di ogni genere. Non ci spaventiamo mica di fronte ad un problema in un campo per noi nuovo come la scientometria. Anzi, siamo capaci di escogitare soluzioni che spesso sono migliori di quelle che usano gli esperti di quel settore che non hanno le nostre basi e il nostro allenamento. Non oso pensare come sarebbe la VQR se l’avessere affidata a quei buoni a nulla dei nostri colleghi giuristi. Legulei che vivono di cavilli. Ah, come andrebbero meglio le cose se le leggi e i regolamenti fossero tutti scritti dagli ingegneri. E da quando eravamo matricole che, ispirato da quel video di Madonna, ho cominciato a dire: Engineers do it better. Un motto che ripeto sempre anche ai miei studenti.

-Beh, se proprio vogliamo rivangare il passato, quella nostra compagna di corso – come si chiamava? Ah sì, Chiara – non era tanto d’accordo. Ha snobbato la nostra corte e si è messa con uno studente di giurisprudenza. Forse, pensava che lawyers do it better.

Gedeone non lo avrebbe confessato nemmeno sotto tortura, ma lo smacco gli bruciava ancora.

-E per quanto riguarda Setti, non è quello che ha fatto circolare delle slide in cui la definizione di Impact Factor era decisamente sbagliata?

Non colse la provocazione e tagliò corto, non senza un pizzico di malignità.

-Dai, Peppe, andiamo a mangiare che così mi racconti dei tuoi tentativi andati a vuoto.

-Hai ragione, questi tentativi – come tu li chiami – mi hanno messo fame, ma prima vorrei farti vedere qualche numero. Ho dovuto sudarci parecchio, ma sono riuscito a disegnare la “cravatta bibliometrica” del nostro settore scientifico e ci sono delle cose che mi lasciano perplesso.

Dopo quattro ore di lezione, Gedeone non ci vedeva dalla fame, ma gli sembrava scortese infierire sull’amico. ‘Diamogli un contentino e stiamolo a sentire’ pensò in cuor suo.

3. Sembra facile …

Peppe con un clic portò in primo piano sullo schermo un foglio Excel occupato da un grafico con dei punti colorati. Gedeone non seppe resistere.

-Tutto qui? Quattro ore per disegnare qualche cerchietto colorato? Ma cosa significano i colori?

Punti_colorati_2013

-Mio caro Gedeone, come ti dicevo, mi sono calcolato la cravatta bibliometrica, inclusa la posizione delle righe diagonali. In particolare, questo grafico ti mostra cosa succede con la cravatta 2013 di Scopus, quando per dare un voto alle riviste adotti l’Impact per Publication, l’IPP, una specie di impact factor, tanto per intenderci. Avendo fatto tutti i calcoli, sono in grado di assegnare il relativo punteggio VQR ad un qualsiasi prodotto di quell’anno. Basta copiare le citazioni in questa cella e … voilà!

-Interessante però! Questo vuol dire che tu saresti capace di aiutarmi a scegliere i miei due prodotti migliori. Però non far sapere in giro che ha risolto il rebus. Dalle chiacchiere in mensa e al bar ho capito che i nostri colleghi non ci capiscono un acca. Con il tuo aiuto, il nostro laboratorio avrà i migliori punteggi del dipartimento e nella prossima programmazione triennale ci prendiamo una bella rivincita nei confronti di quei presuntuosi del piano di sotto.

Peppe gli lanciò un’occhiataccia, ma tornò subito al grafico.

-Ogni prodotto corrisponde ad un punto nel piano che ha come coordinata x il voto della rivista e come coordinata y il numero delle citazioni. L’ideale è stare in alto a destra: presentare un articolo che ha ricevuto una valanga di citazioni, dopo essere stato pubblicato in una rivista con un indice IPP stellare. Il massimo della sfiga, invece, è presentare un articolo che sta in basso a sinistra. Vuol dire essere stati poco o per nulla citati dopo aver pubblicato in una rivista che ha un IPP scarso.

-Beh quel lavoro in alto nel grafico, con le sue 35 citazioni ha fatto veramente il botto. Niente male per essere stato pubblicato solo nel 2013. Vorrei averlo scritto io. Mi renderebbe facile la scelta e metterei in cassaforte un bell’Eccellente, che in questa epoca di darwinismo accademico non fa mai male.

-Caro Gedeone, guarda che ti sbagli. Non vedi il colore? È viola, il colore che ho usato per chi prende un voto Elevato nella VQR. Mentre i prodotti Eccellenti sono quelli colorati in verde. Ne vedi un paio più in basso.

-E i cerchietti arancioni?

-Quelli sono prodotti Discreti.

Metriche_commentate_2013

-Ma scusa, Peppe, non capisco. Prendiamo i tre punti in basso a destra, quelli con un IPP che, a occhio e croce, vale 4,6. Provo a riassumere come varia il loro voto VQR con le citazioni

  • da 2 a 5 citazioni = Elevato (0,7 punti)
  • 6 citazioni (o più) = Eccellente (1 punto)

Quindi, bastano 2 citazioni per beccarsi un Elevato, che vale 0,7 punti, mentre con 6 citazioni porti a casa un 1 punto VQR tondo tondo. Non cambia tantissimo se considero i tre punti nella colonna centrale, il cui IPP  a occhio vale 3,9:

  • da 2 a 8 citazioni = Elevato (0,7 punti)
  • 9 citazioni = Elevato (0,7 punti)

Ma quando l’IPP vale 2,3, non mi raccapezzo più. Infatti, per i punti più a sinistra il voto VQR varia così

  • 1 o 2  citazioni = Discreto (0,4 punti)
  • 3 citazioni = Elevato (0,7 punti)
  • 35 citazioni = Elevato (0,7 punti)

Insomma, non ti bastano 35 citazioni per diventare Eccellente – concluse Gedeone.

-Se proprio vuoi saperlo, ti posso dire che non te ne basterebbero nemmeno 70.

-Ma non ha senso! Il valore delle citazioni non può variare in questo modo. In un caso, non bastano 70 citazioni per passare da Elevato a  Eccellente. Nell’altro, tu mi vieni a dire che bastano 2 citazioni perché il prodotto sia catalogato Elevato e che con 6 citazioni diventa Eccellente. Se fosse vero, sarebbe un incentivo al commercio delle citazioni. Basterebbe qualche amichetto compiacente per pomparsi a dovere il voto VQR. Tanto più che, come scritto nel documento del GEV, i controlli scattano solo quando si supera il 50% di autocitazioni. Tre autocitazioni mie e tre citazioni del mio amichetto. Un favore che posso restituire a mia volta, naturalmente! Sei sicuro di non aver sbagliato i calcoli? Eppure, la formula, mi sembrava di una facilità elementare.

-Che sembri facile non posso negarlo. La trovi scritta sulla lavagna, proprio sotto a quella specie di graffito con cui hai imbrattato la mia lavagna.

Formula_somma_percentili_2013rev2

A Gedeone, che era ad un passo dalla lavagna, sembrò di cogliere gli indizi di una trappola predisposta con cura, ma cercò di far finta di nulla e continuò a ostentare sicurezza.

-Vedi Peppe che ti sei sbagliato? Il peso del voto della rivista è 0,9 contro un peso unitario delle citazioni. Ebbene, non è possibile che per diventare eccellenti in un caso bastino 6 citazioni e in un altro non ne bastino 35, o persino 70.

-Beh, può darsi che mi sia sbagliato. Per verificarlo, prova a calcolare la sensitività del voto dell’articolo nei confronti di g, il voto del journal, e quella nei confronti di c, le citazioni.

-Ma è banale!

Gedeone prese un gessetto e, senza esitare, scrisse sulla lavagna.

Sensitivity_2013

Quando si girò verso Peppe non potè fare a meno di notare un sorrisetto indefinibile, quasi felino. E lui cominciava a sentirsi nella parte del topo.

manco_le_basi

4. Manco le basi del mestiere!

-Manco le basi del mestiere, te ricordi!

L’imitazione di Mario Brega che impreca contro Don Alfio era uno dei pezzi forti di Peppe che ricordava praticamente a memoria tutte le battute di Un sacco bello.

-Non prendermi per scemo! Dimmi dove ho sbagliato, se ne sei capace.

-Sarà pure vero che engineers do it better ma qualcuno di loro dovrebbe ripassarsi le basi del mestiere. La regola della catena, in particolare. Roba che sanno anche le matricole più tonte.

-La regola della catena?

-Ma sì, la regola per derivare le funzioni composte.

-Ah, ho capito! Ti riferisci alla chain rule. Io sono abituato a usare il nome inglese. Ma che diavolo c’entra in questo caso?

-C’entra, c’entra. Ti sei dimenticato che la G e la C maiuscole non sono il vero voto del journal e le vere citazioni, ma i loro percentili. Se indichiamo con la g e la c minuscole il vero voto e le vere citazioni, il voto B del prodotto diventa una funzione composta, dato che dipende da G e C (maiuscole) che a loro volta dipendono da g e c (minuscole). E per capire come g e c (minuscole) influenzano il voto devi ricorrere proprio alla chain rule, come ti piace chiamarla.

Peppe si alzò e prese il cancellino. Fatta pulizia delle righe scritte da Gedeone, scrisse per bene le nuove formule usando i gessetti colorati, che usava anche a lezione e per cui aveva una predilezione quasi infantile. Non mancò di osservare che quello che stava scrivendo non era rigoroso al 100% perché le funzioni G(g) e C(c) non erano derivabili. Tuttavia, questo abuso di  notazione era il modo più rapido di spiegare gli effetti della normalizzazione introdotta dall’ANVUR.

Chain_rule_2013rev2

– Ma scusa, Peppe, cosa intendi dire con “fortemente non lineari”?

– Intendo dire che quando incrementi le citazioni c l’effetto sul percentile C può essere molto forte o molto debole, a seconda dal valore da cui parti. Te lo mostro con un paio di grafici.

Peppe era ritornato a sedersi al PC e con un clic aveva portato in primo piano una slide Power Point che aveva predisposto in vista di questo coup de théâtre.

Sensitivities_2013

-Ecco, nei due grafici la linea blu è la funzione che per ogni IPP restituisce il valore del corrispondente percentile.

-Tieniteli stretti questi grafici, Peppe, e non farli vedere a nessuno, mi raccomando. Scommetto che ci sarebbero colleghi disposti a uccidere per averli. Stavolta nel dipartimento saremo noi a stravincere la VQR. Tu, con le tue capacità analitiche, sei la nostra arma segreta!

-La segretezza è del tutto inutile, Gedeone. Vorrei ricordarti che i nostri colleghi non se ne farebbero nulla di questi due grafici. I grafici sono diversi per ogni settore scientifico e per ognuno dei quattro anni tra 2011 e 2014. Inoltre cambiano se usi come journal metric index IPP oppure SJR. E di nuovo cambiano se usi Web of Science e, anche qui ottieni grafici diversi se usi come indicatore il 5 year IF oppure l’Article Influence. A me e te che abbiamo pubblicto articoli lungo tutto il quadriennio, per selezionare i due prodotti migliori, serviranno non meno di 16 diverse cravatte bibliometriche: 4 anni x 2 database x 2 journal metric index. Che una volta calcolati sono del tutto inutilizzabili per i colleghi degli altri settori, i quali devono rifarsi il lavoro tutto daccapo. E se poi le pubblicazioni di un settore stanno a cavallo di più “scientific categories”, il numero delle cravatte aumenta ancora. Ci saranno colleghi che, se vorranno scegliere oculatamente, dovranno guardarsi decine di cravatte bibliometriche. Lo avevi persino scritto nella tua mail.

-Hai ragione, me n’ero scordato. Ma è il costo del rigore scientifico. Non mi importa se devo spenderci una settimana di lavoro tra Scopus, Web of Science e FAQ dell’ANVUR. Mi basta sapere che avremo finalmente una valutazione ben fatta.

Sensitivities_2013_annotated

-Certo che non ti importa, soprattutto se, come l’altra volta, riesci a scaricare tutto il lavoro su di me … Ma torniamo a bomba. Cosa ti stavo dicendo? Ah,si, ti stavo spiegando che i due grafici illustrano le conseguenze un po’ perverse dell’uso dei percentili come metodo di normalizzazione.

  • IPP passa da g=0 a g=2? Il voto normalizzato G fa un balzo da 0 a 60 (frecce rosse nel grafico di sinistra)
  • IPP salta da g=4 a g=8?, il voto normalizzato G fa un saltino da 90 a 100 punti (frecce viola nel grafico di sinistra)

E lo stesso accade per le citazioni

  • Le citazioni passano da c=0 a c=2? Il voto normalizzato C fa un balzo da 15 a 55 (frecce rosse nel grafico di destra)
  • Le citazioni passano da c=10 a c=35? Il voto normalizzato C fa un saltino da 90 a 100 (frecce viola nel grafico di destra)

Ma che senso ha una normalizzazione di questo genere che dà risultati così squilibrati e imprevedibili? Ti ricordo che queste distorsioni cambieranno, anche molto, da una cravatta bibliometrica all’altra.

Gedeone guardava stupito a bocca aperta. Ma non era il tipo da arrendersi senza lottare.

-Ma scusa, Peppe, come è possibile che il valore normalizzato corrispondente a 0 citazioni sia circa C=15? Mi sa che nei tuoi conti c’è un grosso errore.

-No, non è un errore. Ti potrà forse sorprendere, ma nel 2013 circa il 30% degli articoli indicizzati da Scopus nel nostro settore  avevano zero citazioni quando ho fatto il download dei dati [NdA: 28.11.2015]. Dove si mette il relativo percentile? Non certo a 0 oppure a 30, che sono le due scelte estreme. La scelta convenzionale è prendere il valore di mezzo, vale a dire circa 15, come ho fatto io.

-Ah, un terzo di articoli senza uno straccio di citazione. Non l’avrei mai detto. E nel 2014 sarà persino peggio. Adesso mi è più chiaro perchè il GEV scrive che il dato citazionale del 2014 è “meno stabile”. Un vero eufemismo.

-Chissà se un giorno non ti diventerà altrettanto chiaro che tutto questo ambaradan bibliometrico è una follia. Sarà sempre troppo tardi, comunque.

-Lo so che tu sei contrario alla valutazione per partito preso. Ti attacchi a mille dettagli tecnici per dissimulare quello che è solo un tuo pregiudizio ideologico. E a volte sono solo dei pretesti. Per esempio, la tua critica dei percentili non mi convince. Non posso sommare le citazioni con l’IPP. In qualche modo, dovrò pur riportare sia i voti dei journals che le citazioni in un intervallo 0-100. Non posso certo usare una scala lineare mettendo a 100 il valore del numero massimo di citazioni. A proposito, quanto vale?

-Vale 209, se proprio ti interessa.

-Vedi? Se normalizzassi con una scala lineare tra 0 e 100, 10 citazioni – che non sono così poche – varrebbero 100×2/209 = 4,8. Finirebbe che i valori della stragrande maggioranza degli articoli sarebbero schiacciati verso lo zero. Quando si critica, bisognerebbe essere in grado di proporre soluzioni migliori.

-Ma guarda che una scala lineare si può usare senza alcun problema. Basta decidere che 20 citazioni, una volta normalizzate valgono 100 e che un IPP pari a 8 vale pure 100 nella scala normalizzata. Poi si tira una linea ed è fatta.

-Bravo merlo! E poi l’articolo con 209 citazioni, che nella scala normalizzata varrebbero 100×209/20 = 1045 punti, come lo gestisci?

-Senza fare un plisset, è così che lo gestisco, caro Gedeone. Ti ricordo che alla fine le classi sono solo cinque: Ecccellente, Elevato, Discreto, Accettabile, Limitato. Avere un prodotto il cui voto vale alcune migliaia non è certo un problema: sarà classificato tra gli eccellenti, come è naturale che sia. Tecnicamente parlando, la procedura è semplice:

  • Normalizzo g e c con la mia scala lineare, ottenendo G e C
  • Con la formula scritta alla lavagna (o una simile) calcolo i voti di tutti gli articoli indicizzati da Scopus nella Subject Category e poi, usando i percentili – il cui uso a questo punto è invece corretto – mi calcolo le soglie che sanciscono il passaggio da una classe VQR all’altra.
  • Con due conti vedo dove cade il mio articolo nella cravatta e poi decido di conseguenza.

Gedeone, ammutolito, scrutava i grafici sullo schermo.

Escher

5. Anamorfosi bibliometrica, ovvero una VQR “Escheriana”

Peppe, incurante dell’ora e della fame, incalzava Gedeone.

-Hai presente Escher?

-Certo che sì. Non ti ricordi che ai tempi avevo persino regalato un costoso libro di sue riproduzioni alla Chiara, sperando di fare colpo su di lei …

-Bravo ganzo! Questo in tanti anni non me l’avevi mai detto. Magari, se provavi con delle rose, era meglio, no?

-Bah …sappiamo come è andata a finire. Ma cosa c’entra Escher?

-Aspetta un attimo … ah, ecco, adesso te lo ingrandisco a tutto schermo. Guarda il suo famoso “Balcone”. Un bellissimo esempio di anamorfosi.

-Beh, non è proprio il caso che tu mi spieghi di cosa si tratta. Ma continuo a non capire cosa c’entra con le cravatte bibliometriche della VQR.

-Che cosa succede con la deformazione anamorfica? Dei dettagli che erano piccoli, come la ringhiera del balcone, si allargano a dismisura fino a competere con la facciata di un’intera casa. È come se il foglio fosse diventato di gomma. E la dilatazione cambia a seconda delle zone. Al centro è massima mentre ai bordi l’effetto svanisce.

-Forse comincio ad afferrare il punto.

-Bene, ci stai arrivando. L’uso dei percentili comporta una specie di deformazione anamorfica. Fa sembrare vicini dei prodotti che sono lontani …

-… e fa sembrare lontani prodotti che sono vicinissimi.

-Bravo, Gedeone! Mi hai proprio tolto le parole di bocca. Cosa succederebbe se io tirassi delle righe diagonali sul balcone di Escher?

Balcone_cravattato

-Sembra una cravatta bibliometrica!

-Adesso, immagina che il foglio di gomma deformato torni alla forma normale. Cosa succederà alle linee rosse?

-Beh, nella zona centrale la loro distanza coincide più o meno con la diagonale della finestra. Se la finestra del balcone torna ad essere piccola come tutte le altre, le due linee finiranno per avvicinarsi fino quasi a toccarsi.

-Bravo Gedeone! Hai indovinato. La forma delle linee rosse sarebbe più o meno quella che sto disegnando su questo foglio con il pennarello rosso.

Balcone_scravattato

Gedeone, sempre più a bocca aperta, non potè trattenere la sua ammirazione:

-Affascinante questa analogia tra Escher e i criteri bibliometrici della VQR.

-Nel mondo reale, quello non deformato, le distanze sono diverse da quelle che vedi nel piano di gomma. La bibliometria dell’ANVUR è un piano di gomma, un’illusione ottica, proprio come il balcone di Escher. Guarda qui. A sinistra c’è il piano di gomma anvuriano e a destra quello che si vede quando viene annullata la deformazione e si torna alla scala naturale.

Anamorfosi_anvuriana_2013

-Ma è incredibile. Ci sono dei prodotti che nel piano anvuriano sembrano lontanissimi, ma che in realtà distano una sola citazione e, quando, seguendo le frecce, si torna nella scala naturale, ridiventano vicinissimi.

-E viceversa: puoi trovare facilmente due punti che sono vicinissimi nel piano anvuriano, ma che sono molto distanti nella realtà. Siamo finiti in un mondo di specchi deformanti. In particolare, i confini delle strisce della cravatta, che nel piano di gomma anvuriano sembrano  rettilinei, nella scala naturale diventano curve simili a iperboli. Un bel casino.

-Ma cosa sono quei due triangoli grigi nel piano anvuriano?

-All’ANVUR devono essersi accorti che il metodo era un po’ scalcagnato e ci hanno messo la classica toppa. Nelle situazioni “estreme”, ovvero quando il voto della rivista è alto e le citazioni sono basse o, viceversa, la valutazione avverrà tramite procedura di informed peer review. Ma è solo un palliativo. Nel 2014 le distorsioni devono essere sembrate talmente clamorose che il GEV 09 ha (quasi) alzato bandiera bianca, ripiegando sempre sulla informed peer review, tranne che per i prodotti bibliometricamente “Eccellenti”:

vista la scarsa consistenza numerica relativa del dato citazionale per articoli pubblicati nel 2014, il GEV09 ha deciso di sottoporre ad informed peer review tutti gli articoli pubblicati nel 2014 la cui classificazione sulla base dell’algoritmo proposto non determini una valutazione finale “Eccellente”.

Ma anche così, gli esiti possono essere paradossali. Guarda questo grafico con la cravatta bibliometrica del 2014. In certe situazioni, bastano due citazioni perché il prodotto sia classificato Eccellente. Una delle due può essere un’autocitazione e per l’altra basta chiedere un favore piccolo piccolo al proprio “compagno di merende bibliometriche”. A proposito: te ne sei procurato uno? Inutile dire che non puoi contare su di me.

Anamorfosi_anvuriana_2014

-Peppe, devo farti i miei complimenti. Solo tu potevi districare questa intricatissima matassa. Però Benedetto e Setti hanno le loro attenuanti. Non era facile mettere a fuoco l’effetto anamorfico dei percentili. Dopo tutto, si muovevano su un terreno inesplorato.

-Beh, mica tanto inesplorato.

-In che senso?

BentRuler

6. “The only reason for using percentile ranks is ignorance

Peppe cominciava a sentirsi stanco e affamato, ma voleva arrivare fino in fondo.

-L’effetto che ti ho appena descritto è noto da decenni a chi si occupa di valutazione nei più diversi ambiti e prende il nome di

Righello di gomma (rubber ruler)

Mettersi a sommare e moltiplicare i percentili per stilare classifiche è come tentare di misurare delle lunghezze con un righello deformabile che si allunga o si comprime a seconda dei casi. Che si tratti di un grave errore, non è un segreto per iniziati. Per rendersene conto, basta una semplice ricerca su Google.

Google_ranks_cannot_be_added

Gedeone era basito.

-Ma sei davvero sicuro che sia un errore così noto?

Peppe non emise un fiato, ma si limitò a mostrare i risultati delle sue ricerche su Google Books e altri siti.

Pedagogia1 Pedagogia2

Psicometria2

High_School Chimica_Geografia Forensic

-A quanto pare, mio caro Gedeone, anche i giuristi, che tu disprezzi così tanto, hanno capito che “percentile ranks are not equal units. Therefore, they cannot be added, subtracted, multiplied, divided or –therefore – averaged“. Sembra quasi che gli unici a non essersene accorti siano i valutatori dell’ANVUR.

-Ma da dove viene questa consapevolezza che si tratti di un errore così grave?

-Beh quando si tratta di citare un riferimento scientifico che spieghi il perché dell’errore, i più fanno riferimento ad un position paper del 1993, scritto da Bruce Thompson:

GRE Percentile Ranks Cannot Be Added or Averaged: A Position Paper Exploring the Scaling Characteristics of Percentile Ranks, and the Ethical and Legal Culp

Ce l’ho qui sulla scrivania. Ti leggo cosa scrive:

It seems counterintuitive to many persons, even to some educated people with terminal degrees serving on faculty at world-class universities, that some numbers simply cannot be added … Most of us have paradigms about numbers that were unconsciously formulated, typically in the primary grades of elementary school. When we are given several numerals, we are used to presuming that we can add them up. Few of us were ever admonished that we can only add numbers when the numerals represent data derived using an equal interval measurement ruler. In fact, few of us consciously recognize that addition itself does presume equal-interval measurement.

Nell’appendice dell’articolo, Bruce Thompson fornisce una lista di citazioni scientifiche contrarie all’uso della somma dei ranks. Di sicuro, Thompson non riteneva che mettersi a pasticciare con i percentili fosse un peccato veniale:

The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.

Il bello è che l’ANVUR stava per fare lo stesso tipo di errore nel 2012, quando nella prima VQR voleva classificare le riviste in base alla media dei percentili di diversi indici bibliometrici. Era stato Roars a farli desistere, citando proprio l’articolo di Thompson (VQR: la bibliometria fai-da-te dell’ANVUR). Possibile che se ne siano scordati?

Gedeone si avviò verso la porta, pensando che il costo della VQR era stato valutato tra i 182 e i 300 milioni di Euro. Una spesa che sarebbe stata vanificata da un sistema di misura che, oltre ad essere incomprensibile alla quasi totalità dei valutati, era invalidato da un errore noto da più di venti anni. Un errore nei confronti del quale non era difficile trovare testi che ti mettessero in guardia con avvertimenti perentori che non lasciavano adito a dubbi.

Intanto, Peppe stava pulendo la lavagna. Stava per cancellare anche il “graffito” di Gedeone, quando gli venne un’idea. Tirò due righe con il gesso bianco e poi prese il suo amato gessetto giallo.

fa_acqua

Send to Kindle
Tag: , , , , , , , , , , , , , , , ,

72 Comments

  1. Salvatore Valiante says:

    Complimenti a De Nicolao per la spiegazione cha anche ad un non avvezzo appare molto rigorosa e chiara.
    Penso che ognuno di noi dovrebbe farne un sunto e distribuirlo ai colleghi (anche quelli fulminati sulla via di san Benedetto d’Anvur) perché davvero di ignoranza si può morire.
    Comunque, poiché a tutto (o quasi) c’è una spiegazione, estrapolo dal “decalogo della cravatta” del padre delle cravatte napoletane che potete trovare qui:
    http://www.marinellanapoli.it/it/decalogo.php
    il quinto comandamento, al quale forse i semidei anvuriani si sono rifatti per il loro sistema di valutazione:
    “Non farsi consigliare e non demandare a nessuno la scelta della cravatta: l’unica regola è seguire l’istinto. Scegliere la cravatta deve essere un atto irrazionale”
    Pare proprio abbiano fatto così.
    È arrivata o no l’ora di cambiare in meglio?
    Saluti

  2. Carlo Maria Scoppola says:

    A questo punto, mi sembra opportuno raccogliere le varie informazioni che sono a nostra disposizione, sulla procedura finora denominata VQR.

    1. La procedura non e’ una valutazione della qualita’ di ricerca, ma una raccolta di dati statistici di carattere bibliometrico. La confusione tra i due concetti ha gravi conseguenze sul delicato habitat in cui l’attivita’ di ricerca, soprattutto quella di base, e’ in grado di sopravvivere. Infatti questa confusione, oltre ad alterare le politiche editoriali delle case editrici, e a stimolare ogni sorta di furberie, tende a farci modificare i criteri con cui noi stessi valutiamo la qualita’ del nostro lavoro. Non ci dovremmo piu’ interrogare su questioni di merito come “e’ ragionevole pubblicare, o approfondire ancora?” ma solo di questioni di opportunita’ come “dove mi conviene pubblicare?”. Per questo, nel seguito, indichero’ la procedura finora denominata VQR con la sigla SVQR, per “SValutazione della Qualita’ della Ricerca”.

    2. L’intervento di De Nicolao conferma che la procedura SVQR di raccolta e di aggregazione dei dati di carattere bibliometrico contiene gravi errori metodologici, tali da inficiare l’attendibilita’ del risultato. Quindi non e’ difendibile nemmeno come semplice procedura statistica.

    3. L’uso che in passato e’ stato fatto dei dati bibliometrici raccolti in altre occasioni e nella precedente SVQR, a tutti i livelli, e’ stato sistematicamente improprio, anche se si sono moltiplicate le autorevoli segnalazioni di questo rischio. Pensiamo ad esempio a certe commissioni di ASN, che, sulla base delle famose “mediane”, hanno escluso meritevoli e, peggio ancora, incluso immeritevoli senza ulteriore controllo.

    4. Una VQR, una Valutazione ben fatta della Qualita’ della Ricerca e’ doverosa, ma sarebbe piu’ lungimirante assegnare alla ricerca risorse adeguate, prima di misurarne la qualita’.

    Mi sembra che la difendibilita’ della SVQR sia rimasta priva del pur minimo appiglio, e anch’io mi domando: cosa stiamo aspettando?

    E sono sempre piu’ propenso a togliermi la soddisfazione di sostenere la ragione. Naturalmente non siamo ancora alla vera obiezione di coscienza: la SVQR non e’ una politica di sterminio fisico, a cui ci si oppone anche a costo della vita. Ma e’ una politica di sterminio culturale, e di massacro della ragione. E la responsabilita’ di alzare la voce, quando si fa torto alla ragione, e’ soprattutto di chi usa la ragione ogni giorno, come strumento di lavoro.
    Saluti e auguri (non solo stagionali) a tutti.

  3. Carlo Maria Scoppola says:

    Anche se sono romano non avevo pensato a queste interessanti variazioni, perche’ pronuncio la sigla SVQR come sviqquerre, non esse-vi-qu-erre. Cosi’ la S iniziale assume valore privativo-peggiorativo, come in sragionare, scostumato e, appunto, svalutare.

  4. nightwish73 says:

    Dopo aver visto le schede da compilare per la VQR, ho capito la logica: vogliono che i docenti non facciano la VQR!
    Credo che purtroppo siamo ben oltre al ridicolo.

    • Alberto Baccini says:

      Cosa sono le schede da compilare per la VQR?

    • nightwish73 says:

      le schede informatiche attraverso le quali ogni docente deve selezionare i lavori, con tanto di calcoli di percentili, settori ERC, etc.

  5. Beniamino Cenci Goga says:

    mha… nella pagina iniziale leggo il primo strafalcione:

    “Questo dato va fornito prima della ***sottomissione*** prodotti ed e’ obbligatorio.”

    Poi andando avanti il sistema mi dice che: “L’Istituzione non ha abilitato la presentazione delle proposte su questo sito. Per informazioni rivolgersi alla propria Istituzione.”

  6. Giuseppe De Nicolao says:

    Peppe & Gedeone Live show!
    _________________
    Dalle voci che circolano, i criteri della VQR stanno mettendo in difficoltà molti atenei italiani. Alcuni fanno simulazioni a tutto spiano e forse anche a vuoto. Altri non sanno dove mettere le mani. Altri ancora hanno pagato o stanno valutando se pagare a caro prezzo Sibille bibliometriche sulla cui affidabilità pochi sarebbero disposti a giurare. Lunedì 21 dicembre, ore 18, aula Bruni del Collegio Ghislieri (Pavia), farò del mio meglio per spiegare le regole del gioco, illustrandone paradossi e precedenti nella letteratura scientifica. Come già visto in questo post, mi servirò anche dell’opera di Escher. Non sono riuscito a estendere le analogie a Gödel e Bach, per quanto la nozione di indecidibilità ben si addica al problema della selezione dei prodotti VQR. Sono anche certo che Bach, messo di fronte alla VQR, avrebbe trovato ispirazione per una fuga (in senso letterale prima ancora che musicale).

  7. indrani maitravaruni says:

    Come sempre complimenti per il lavoro svolto e la felice scelta iconografica. Forse una combinazione fra Goya e Totò potrebbe costituire un potente amuleto dinanzi al quale gli anvuriani si tramutano in pipistrelli e svolazzano via stridendo come le anime dei Proci.

  8. Ma i percentili ANVURIANI hanno a che fare con il JIF percentile del WOS?

  9. Una osservazione, marginale nel contesto dell’articolo: è ripetutamente indicato che la fascia di valutazione C “discreto” corrisponde a 0.5 punti. Mi risulta sia invece 0.4. Saluti.

  10. Pingback: Se Anvur dicesse che la terra è piatta, noi gli crederemmo – Incontra subito

  11. Pingback: #stopVQR e tagli alla ricerca: non solo l’ennesima protesta dei docenti universitari. – Amore subito

  12. Pingback: #stopVQR e tagli alla ricerca: non solo l’ennesima protesta dei docenti universitari. – Incontra subito

  13. Pingback: Università: Perché La Valutazione Della Qualità Della Ricerca (VQR) Penalizzerà Gli Atenei Del Sud | I Nuovi Vespri

  14. Pingback: L’inverno del nostro scontento – ∫connessioni

  15. Pingback: Il sonno della ragione genera anamorfosi bibliometriche | www.circoloerreraunipv.it

Leave a Reply