Waiting for VQR

La “junk arithmetic” della bibliometria fai-da-te della VQR 2011-2014

Prosegue la rubrica Waiting VQR che terrà compagnia ai lettori di Roars fino alla pubblicazione dei risultati della VQR 2011-2014 che avverrà il prossimo 21 febbbraio. In questa seconda puntata, ripubblichiamo il post che aveva evidenziato la presenza di un grossolano errore metodologico nelle valutazioni bibliometriche della VQR 2011-2014, basate sulla somma (pesata) dei percentili di due indicatori bibliometrici. Un criterio mai sperimentato prima, anche perché nei più vari ambiti scientifici è noto che i percentili «cannot be aggregated in any meaningful way», dato che sono misure ordinali. Trascorsero quasi sei mesi prima che arrivasse una replica, sotto forma di un articolo firmato da Sergio Benedetto, intitolato Valutazione della ricerca, quell’algoritmo è affidabile. Era stato fin troppo facile rispondergli che il divieto di sommare i numeri ordinali, oltre ad essere noto da più di duemila anni, viene anche insegnato nelle scuole elementari di tutto il mondo. E che la somma di quantità ordinali è etichettata come pseudoscienza e “aritmetica-spazzatura” persino dai cultori di studi militari. Ma come hanno fatto degli scienziati, altrimenti stimati, a incappare in un tale infortunio tecnico? Un infortunio evitabile da chiunque avesse l’accortezza di eseguire una banale interrogazione su Google (“ranks cannot be added” restituisce 1.560 risultati). Ai posteri che si faranno questa domanda, potrà interessare sapere che nel biennio 2014-2015 Sergio Benedetto (coordinatore e responsabile della VQR 2011-2014) ha ritenuto di cumulare al ruolo di consigliere ANVUR anche quello di Presidente della IEEE ComSoc, la principale società scientifica internazionale di tecnologia delle telecomunicazioni(1). Ciò, da quanto ci risulta, senza cumulare altri redditi ai 178.500 Euro che riceveva come Consigliere ANVUR. Prestigio, impegni e responsabilità accresciuti senza vantaggi economici, insomma. Ma con i risultati tecnici che sono sotto gli occhi di tutti. Eppure, l’art. 8 del DPR 76/2010 sembrava chiaro: «L’incarico di componente il Consiglio direttivo [dell’ANVUR] è a tempo pieno». Secondo gli articoli 5 e 7 del Codice Etico dell’ANVUR:

Art. 5 […] 3. […] i membri del Consiglio Direttivo possono assumere incarichi esterni, purché non abbiano un impatto negativo sull’assolvimento dei loro doveri istituzionali, non comportino un danno all’immagine dell’Agenzia e abbiano carattere integrativo o marginale rispetto alla attività svolta in seno alla stessa Agenzia per la quale i membri sono impegnati a tempo pieno.

4. Per lo svolgimento di incarichi esterni i componenti del Consiglio Direttivo devono essere autorizzati secondo le procedure definite nel Regolamento di funzionamento dell’Agenzia.

Art. 7 I membri dell’Agenzia e, per quanto attiene le attività ad essa connesse, gli studiosi collaboratori esterni evitano qualsiasi situazione che possa dar luogo a conflitti di interesse, anche solo apparenti.

Relativamente alla Presidenza della IEEE ComSoc, sul sito dell’agenzia non sembra reperibile un’autorizzazione e nel Regolamento di funzionamento dell’Agenzia non sono definite le relative procedure.

(1) “IEEE Communications Society is the world’s leading membership organization for communications professionals” (IEEE ComSoc Technology News). Nel 2011, la IEEE Co mSoc contava più di 51.000 membri. Essa cura la pubblicazione di tredici riviste scientifiche  e ne co-sponsorizza undici (tipicamente indicizzate su Web of Science e Scopus, pubblicano articoli valutabili da ANVUR). Promuove o co-sponsorizza decine di conferenze (quelle attualmente in programma sono più di ottanta), diverse delle quali pubblicano atti dei lavori, valutabili da ANVUR. La società IEEE (“the world’s largest technical professional organization for the advancement of technology”) di cui IEEE ComSoc fa parte, pubblica 184 tra journals, magazine e transactions  e gli atti di più di 1.000 conferenze all’anno.

Vedi anche:

I link alle altre puntate di Waiting for VQR:

 

 


Nei criteri VQR c’è un “fatal error” (noto da più di 20 anni)

L'”accurata calibrazione bibliometrica” è una delle novità della VQR 2011-2014, secondo quanto dichiarato dal suo coordinatore Sergio Benedetto. Una calibrazione che però conduce a esiti paradossali: per un articolo pubblicato nel 2013 in una rivista il cui IPP (Impact per publication) vale 2,92, possono bastare tre citazioni per essere valutato di livello Elevato e ne bastano nove per essere promosso a Eccellente. Ma se l’IPP della rivista è 2,32, l’articolo non diventa Eccellente nemmeno se riceve 70 citazioni. Questa disparità di trattamento deriva da un inedito criterio di valutazione degli articoli che si basa sulla somma (pesata) dei percentili di due indicatori bibliometrici. Un criterio bibliometrico mai sperimentato prima, anche perché da più di 20 anni è noto nei più vari ambiti scientifici, a partire dalle valutazioni pedagogiche e psicometriche fino ad arrivare alla geografia e alla chimica, che i percentili «cannot be aggregated in any meaningful way», dato che sono misure ordinali e non misure ottenute usando una scala a intervalli regolari. Un errore ben noto, che, oltre a essere oggetto di quiz per le high school, è stigmatizzato in numerosi libri di testo e anche in articoli scientifici, secondo i quali «The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable».

A questo link si trovano le slide e il filmato di un seminario che spiega il fatal error della VQR 2011-2014:
http://www.roars.it/online/il-sonno-della-ragione-genera-anamorfosi-bibliometriche/

Regiment_ties

1. Le cravatte bibliometriche della VQR 2011-2014

Peppe stava ancora appendendo il giaccone sul gancio dietro alla porta quando notò il messaggio sulla lavagna del suo ufficio.

Classe_non_acqua

La prima reazione fu un’imprecazione che però fu soffocata in tempo. Per fortuna, l’ignoto imbrattatore di lavagne non gli aveva cancellato i conti della sera prima. Nel dipartimento era tuttora leggendario il casino che Peppe aveva scatenato quella volta che l’addetto alle pulizie gli aveva cancellato alcuni difficili passaggi di un teorema, costati una settimana di duro lavoro. Imbufalito, era arrivato a scrivere persino al Consiglio di Amministrazione e, come effetto collaterale, erano partiti dei controlli che avevano condotto alla revoca dell’incarico all’impresa di pulizia. Non per cancellazione di teoremi, a dire il vero, ma per l’emersione di gravi irregolarità fiscali e previdenziali. Alcuni colleghi buontemponi avevano però diffuso la leggenda che fosse stata la giusta punizione per chi aveva messo proditoriamente a soqquadro le elucubrazioni scientifiche del collega. E a Peppe la diceria non dispiaceva affatto.

Non amava intrusi nel suo territorio e – a dirla tutta – aveva meno indulgenza per chi imbrattava la sua lavagna di quella che aveva avuto nei confronti di Gedeone quando, a tempi dell’università, gli aveva fatto concorrenza nel corteggiare una ragazza. Un buco nell’acqua per entrambi. Due nerd senza speranza, si sarebbe detto ai giorni nostri.

Ma ecco, il PC si era avviato e, scorrendo la lista dei messaggi, Peppe ebbe la conferma dei suoi sospetti.


Da: GedeoneP <gedeo.p@gmail.com>
Oggetto: la classe non è acqua! Ecco i nuovi criteri VQR
Ciao Peppe,
non so se hai visto che sono usciti i criteri bibliometrici della nuova Vqr (per risparmiarti la fatica di scaricarli, ti allego quelli del GEV 09, tanto lo schema è lo stesso per tutti i GEV bibliometrici). Durante il weekend me li sono letti e sono impaziente di avere anche il tuo giudizio. Intanto, ti riassumo per punti le mie prime impressioni.
1. Ti devo concedere che avevi ragione tu quando, citando le analisi di Roars [VQR da buttare? Persino ANVUR cestina i voti usati per l’assegnazione FFO 2013], dicevi che la prima VQR era scalibrata e che non garantiva uniformità tra le scale di valutazione dei diversi SSD, anche dentro la stessa Area CUN. Lo dice persino Sergio Benedetto nella slide 23 di una presentazione che ti allego: "Non è detto che l’attribuzione degli elementi della matrice rispetti la distribuzione voluta (calibrazione) 20-20-10-50".

 

2. Ma questi sono problemi del passato: l’Anvur ha messo a punto una procedura di valutazione bibliometrica molto migliore dei vecchi “quadrati magici” che hai tanto sbeffeggiato. I prodotti vengono ancora collocati in un piano la cui coordinata “x” è il “voto” attribuito alla rivista (una journal metric come l’Impact Factor a 5 anni, per esempio) e la coordinata “y” è il numero di citazioni. Ma adesso le regioni dei voti sono individuate da delle strisce parallele, simili a quella di una cravatta “regimental”. Il bello è che l’inclinazione delle strisce cambia di anno in anno. Nel 2011, l’inclinazione è tale da dare più importanza alle citazioni, mentre, a mano a mano che si avanza nel tempo, l’indice citazionale diventa meno affidabile e cambia l’inclinazione in modo da incrementare il peso del journal metric index. Anno nuovo, cravatta bibliometrica nuova, insomma. Con questa ingegnosa trovata delle cravatte i nostri colleghi ingegneri Sergio Benedetto e Gianluca Setti, il coordinatore del GEV 09, si sono veramente guadagnati il titolo di “arbitri elegantiae bibliometricae”.

Cravatta_bibliometrica

 

3. So già che dirai che non si possono mettere insieme le mele con le pere, ovvero citazioni e Impact Factor. Ma all’ANVUR hanno pensato anche a questo. Infatti, la cravatta bibliometrica non è definita usando direttamente il journal metric index e le citazioni, che sono variabili difficilmente paragonabili, ma i loro percentili che sono per definizione compresi tra 0 e 100. Inutile che lo spieghi a te: si prendono tutti gli articoli pubblicati nella Subject Category considerata nel corso di un certo anno e si costruisce la classifica delle citazioni. Se il 60% degli articoli mondiali ha meno citazioni del tuo articolo, vuol dire che il suo percentile citazionale è pari a 60 (per chi invece preferisce contare dalla cima, stai nel primo 40%).

 

4. Ma qui viene il bello: per garantire uniformità tra tutti i Settori scientifico-disciplinari, le righe della cravatta sono posizionate in modo da definire 5 strisce, ognuna delle quali contiene una percentuale assegnata di articoli mondiali

 

20% nella striscia più bassa (limitato – 0 pti)

 

30% in quella subito sopra (accettabile 0,1 pti)

 

20% in quella intermedia (discreto 0,4 pti)

 

20% in quella quasi al top (elevato 0,7 pti)

 

10% in quella top (eccellente 1 pto)
5. Una calibrazione finalmente rigorosa che manda in soffitta tutti i problemi della precedente VQR. Adesso, possiamo anche riconoscere che la VQR 2004-2010 era parecchio sgangherata, proprio a causa della scalibrazione dei criteri bibliometrici, che Roars aveva evidenziato così bene. Si tratta di obiezioni a cui è stato giusto non dare spazio, perché, anche quando erano tecnicamente ineccepibili, nascondevano solo una sterile opposizione alla cultura della valutazione. Una cattiva valutazione è pur sempre meglio di nessuna valutazione.

 

6. Perché nessuno possa dirsi ingiustamente danneggiato sono state previste una serie di misure di garanzia. È il valutato a scegliere su quale database citazionale verrà giudicato (Web of Science della Thomson-Reuters o Scopus della Elsevier). E per entrambi, può anche indicare tra due journal metric index quello che gli torna più conveniente. Inoltre, nei casi estremi o dubbi, si ricorrerà alla peer review.

 

7. So già che qualcuno si lamenterà della metodologia troppo complicata. Ma tra qualche giorno sulla piattaforma Iris sarà possibile ottenere i percentili di journal metric index e di citazioni per ciascuno dei propri articoli. A quel punto, tutti sapranno in che punto del piano x-y cadono gli articoli e per valutarli basterà farsi dire dove sono le strisce della cravatta bibliometrica. Se il tuo articolo appartiene ad una sola WoS-SC (Subject Category) e a una sola Scopus-ASJC (All Science Journal Classification), ti basta controllare solo 4 cravatte (2 per WoS e 2 per Scopus dato che in entrambi i casi puoi scegliere tra due journal metric index). Se poi hai pubblicato articoli in ogni anno del quadriennio 2011-2014, te la cavi con 4x4=16 cravatte. Va un po’ peggio a chi ha articoli che appartengono a più categorie nel qual caso si va facilmente oltre le 30-40 cravatte da controllare. Ma che sarà mai? Mi sembra un prezzo ragionevole per avere in cambio una valutazione finalmente rigorosa. Il fatto che le valutazioni siano tutte ipotetiche perchè ANVUR farà i conti finali sulla base dei dati bibliometrici scaricati a fine febbraio aggiunge solo un pizzico di suspance, che può essere persino elettrizzante.

 

Più di una volta hai detto che gli svarioni tecnici nei documenti dell ‘ANVUR sono così macroscopici che tu riesci ad individuarli alla prima lettura. Questa volta non riusciresti a trovarne uno, nemmeno se ti ci dedicassi una settimana a tempo pieno.
Questa mattina ho quattro ore di lezione. Se non hai altri impegni possiamo andare insieme in mensa. Così ne approfittiamo per parlare di questa nuova VQR che mi sembra promettere molto bene.
Gedeone
P.S. Voglio vedere cosa troveranno da ridire gli oppositori per partito preso, redazione di Roars in testa. Sempre pronti a criticare e a trovare il pelo nell’uovo. Su Roars non ho mai letto una proposta che sia una. E, sinceramente, mi dispiace che tu sia quasi sempre schierato dalla loro parte, proprio tu che avresti tutto da guadagnare dall’uso di questi criteri bibliometrici.

Allegati:

Criteri GEV 09
Slide Benedetto

Non appena ebbe finito di leggere il fluviale messaggio di Gedeone, Peppe tirò il fiato mettendo le mani dietro la testa mentre reclinava la poltrona all’indietro. Rimase in meditazione meno di un minuto. Poi si portò in avanti e mise mano alla tastiera. Digitò www.roars.it e puntò il mouse sul menu

Idee e prospettive

Diede una scorsa ai titoli e sorrise: la memoria non lo ingannava. Per prima cosa, scrisse due righe a Gedeone


Caro Gedeone,

non sta a me rivestire i ruoli del difensore di Roars, ma qualche proposta l’hanno anche fatta, basta aprire questo link
http://www.roars.it/online/category/idee-e-prospettive/
In particolare, ecco le loro proposte per la riforma della VQR:
http://www.roars.it/online/proposte-per-la-prossima-vqr/
Adesso provo a leggere i criteri bibliometrici della nuova VQR. Visto che mi sfidi, vediamo cosa sono capace di capirci in quattro ore.
Peppe

Un clic sul pulsante “invio” e il messaggio sfrecciò via.

Era ora di mettersi al lavoro. Tra una cosa e l’altra erano già le 9:30. Rimanevano solo tre ore e mezza prima dell’arrivo di Gedeone.

Italians_do_it_better

2. Engineers do it better

Erano le 12:58 quando Peppe, dopo aver scritto una formula sulla lavagna si accasciò sulla sedia girevole. Fece del suo meglio per tirare il fiato dopo una mattinata di “studio matto e disperatissimo”. Non voleva che Gedeone lo vedesse in quelle condizioni.

Erano da poco passate le 13:05 quando sentì bussare. Gedeone, come il suo solito, entrò nello studio senza che Peppe avesse il tempo di dire ‘avanti’.

-Ti vedo provato, Peppe. Ti conosco troppo bene. Hai lavorato come un matto su quei criteri e non sei venuto a capo di nulla.

-Non lo posso negare, ho faticato parecchio …

Gedeone gongolava, pregustando la sua vittoria.

-Ehe, caro Peppe, quando ci si mettono gli ingegneri, non ce n’è per nessuno. E che ingegneri! Scommetto che ci hanno lavorato Sergio Benedetto e Gianluca Setti che sono due Fellow dell’IEEE. E poi noi ingegneri siamo allenati ad applicare metodi quantitativi a problemi di ogni genere. Non ci spaventiamo mica di fronte ad un problema in un campo per noi nuovo come la scientometria. Anzi, siamo capaci di escogitare soluzioni che spesso sono migliori di quelle che usano gli esperti di quel settore che non hanno le nostre basi e il nostro allenamento. Non oso pensare come sarebbe la VQR se l’avessere affidata a quei buoni a nulla dei nostri colleghi giuristi. Legulei che vivono di cavilli. Ah, come andrebbero meglio le cose se le leggi e i regolamenti fossero tutti scritti dagli ingegneri. E da quando eravamo matricole che, ispirato da quel video di Madonna, ho cominciato a dire: Engineers do it better. Un motto che ripeto sempre anche ai miei studenti.

-Beh, se proprio vogliamo rivangare il passato, quella nostra compagna di corso – come si chiamava? Ah sì, Chiara – non era tanto d’accordo. Ha snobbato la nostra corte e si è messa con uno studente di giurisprudenza. Forse, pensava che lawyers do it better.

Gedeone non lo avrebbe confessato nemmeno sotto tortura, ma lo smacco gli bruciava ancora.

-E per quanto riguarda Setti, non è quello che ha fatto circolare delle slide in cui la definizione di Impact Factor era decisamente sbagliata?

Non colse la provocazione e tagliò corto, non senza un pizzico di malignità.

-Dai, Peppe, andiamo a mangiare che così mi racconti dei tuoi tentativi andati a vuoto.

-Hai ragione, questi tentativi – come tu li chiami – mi hanno messo fame, ma prima vorrei farti vedere qualche numero. Ho dovuto sudarci parecchio, ma sono riuscito a disegnare la “cravatta bibliometrica” del nostro settore scientifico e ci sono delle cose che mi lasciano perplesso.

Dopo quattro ore di lezione, Gedeone non ci vedeva dalla fame, ma gli sembrava scortese infierire sull’amico. ‘Diamogli un contentino e stiamolo a sentire’ pensò in cuor suo.

3. Sembra facile …

Peppe con un clic portò in primo piano sullo schermo un foglio Excel occupato da un grafico con dei punti colorati. Gedeone non seppe resistere.

-Tutto qui? Quattro ore per disegnare qualche cerchietto colorato? Ma cosa significano i colori?

Punti_colorati_2013

-Mio caro Gedeone, come ti dicevo, mi sono calcolato la cravatta bibliometrica, inclusa la posizione delle righe diagonali. In particolare, questo grafico ti mostra cosa succede con la cravatta 2013 di Scopus, quando per dare un voto alle riviste adotti l’Impact per Publication, l’IPP, una specie di impact factor, tanto per intenderci. Avendo fatto tutti i calcoli, sono in grado di assegnare il relativo punteggio VQR ad un qualsiasi prodotto di quell’anno. Basta copiare le citazioni in questa cella e … voilà!

-Interessante però! Questo vuol dire che tu saresti capace di aiutarmi a scegliere i miei due prodotti migliori. Però non far sapere in giro che ha risolto il rebus. Dalle chiacchiere in mensa e al bar ho capito che i nostri colleghi non ci capiscono un acca. Con il tuo aiuto, il nostro laboratorio avrà i migliori punteggi del dipartimento e nella prossima programmazione triennale ci prendiamo una bella rivincita nei confronti di quei presuntuosi del piano di sotto.

Peppe gli lanciò un’occhiataccia, ma tornò subito al grafico.

-Ogni prodotto corrisponde ad un punto nel piano che ha come coordinata x il voto della rivista e come coordinata y il numero delle citazioni. L’ideale è stare in alto a destra: presentare un articolo che ha ricevuto una valanga di citazioni, dopo essere stato pubblicato in una rivista con un indice IPP stellare. Il massimo della sfiga, invece, è presentare un articolo che sta in basso a sinistra. Vuol dire essere stati poco o per nulla citati dopo aver pubblicato in una rivista che ha un IPP scarso.

-Beh quel lavoro in alto nel grafico, con le sue 35 citazioni ha fatto veramente il botto. Niente male per essere stato pubblicato solo nel 2013. Vorrei averlo scritto io. Mi renderebbe facile la scelta e metterei in cassaforte un bell’Eccellente, che in questa epoca di darwinismo accademico non fa mai male.

-Caro Gedeone, guarda che ti sbagli. Non vedi il colore? È viola, il colore che ho usato per chi prende un voto Elevato nella VQR. Mentre i prodotti Eccellenti sono quelli colorati in verde. Ne vedi un paio più in basso.

-E i cerchietti arancioni?

-Quelli sono prodotti Discreti.

Metriche_commentate_2013

-Ma scusa, Peppe, non capisco. Prendiamo i tre punti in basso a destra, quelli con un IPP che, a occhio e croce, vale 4,6. Provo a riassumere come varia il loro voto VQR con le citazioni

  • da 2 a 5 citazioni = Elevato (0,7 punti)
  • 6 citazioni (o più) = Eccellente (1 punto)

Quindi, bastano 2 citazioni per beccarsi un Elevato, che vale 0,7 punti, mentre con 6 citazioni porti a casa un 1 punto VQR tondo tondo. Non cambia tantissimo se considero i tre punti nella colonna centrale, il cui IPP a occhio vale 2,9:

  • da 2 a 8 citazioni = Elevato (0,7 punti)
  • 9 citazioni = Elevato (0,7 punti)

Ma quando l’IPP vale 2,3, non mi raccapezzo più. Infatti, per i punti più a sinistra il voto VQR varia così

  • 1 o 2 citazioni = Discreto (0,4 punti)
  • 3 citazioni = Elevato (0,7 punti)
  • 35 citazioni = Elevato (0,7 punti)

Insomma, non ti bastano 35 citazioni per diventare Eccellente – concluse Gedeone.

-Se proprio vuoi saperlo, ti posso dire che non te ne basterebbero nemmeno 70.

-Ma non ha senso! Il valore delle citazioni non può variare in questo modo. In un caso, non bastano 70 citazioni per passare da Elevato a Eccellente. Nell’altro, tu mi vieni a dire che bastano 2 citazioni perché il prodotto sia catalogato Elevato e che con 6 citazioni diventa Eccellente. Se fosse vero, sarebbe un incentivo al commercio delle citazioni. Basterebbe qualche amichetto compiacente per pomparsi a dovere il voto VQR. Tanto più che, come scritto nel documento del GEV, i controlli scattano solo quando si supera il 50% di autocitazioni. Tre autocitazioni mie e tre citazioni del mio amichetto. Un favore che posso restituire a mia volta, naturalmente! Sei sicuro di non aver sbagliato i calcoli? Eppure, la formula, mi sembrava di una facilità elementare.

-Che sembri facile non posso negarlo. La trovi scritta sulla lavagna, proprio sotto a quella specie di graffito con cui hai imbrattato la mia lavagna.

Formula_somma_percentili_2013rev2

A Gedeone, che era ad un passo dalla lavagna, sembrò di cogliere gli indizi di una trappola predisposta con cura, ma cercò di far finta di nulla e continuò a ostentare sicurezza.

-Vedi Peppe che ti sei sbagliato? Il peso del voto della rivista è 0,9 contro un peso unitario delle citazioni. Ebbene, non è possibile che per diventare eccellenti in un caso bastino 6 citazioni e in un altro non ne bastino 35, o persino 70.

-Beh, può darsi che mi sia sbagliato. Per verificarlo, prova a calcolare la sensitività del voto dell’articolo nei confronti di g, il voto del journal, e quella nei confronti di c, le citazioni.

-Ma è banale!

Gedeone prese un gessetto e, senza esitare, scrisse sulla lavagna.

Sensitivity_2013

Quando si girò verso Peppe non potè fare a meno di notare un sorrisetto indefinibile, quasi felino. E lui cominciava a sentirsi nella parte del topo.

manco_le_basi

4. Manco le basi del mestiere!

-Manco le basi del mestiere, te ricordi!

L’imitazione di Mario Brega che impreca contro Don Alfio era uno dei pezzi forti di Peppe che ricordava praticamente a memoria tutte le battute di Un sacco bello.

-Non prendermi per scemo! Dimmi dove ho sbagliato, se ne sei capace.

-Sarà pure vero che engineers do it better ma qualcuno di loro dovrebbe ripassarsi le basi del mestiere. La regola della catena, in particolare. Roba che sanno anche le matricole più tonte.

-La regola della catena?

-Ma sì, la regola per derivare le funzioni composte.

-Ah, ho capito! Ti riferisci alla chain rule. Io sono abituato a usare il nome inglese. Ma che diavolo c’entra in questo caso?

-C’entra, c’entra. Ti sei dimenticato che la G e la C maiuscole non sono il vero voto del journal e le vere citazioni, ma i loro percentili. Se indichiamo con la g e la c minuscole il vero voto e le vere citazioni, il voto B del prodotto diventa una funzione composta, dato che dipende da G e C (maiuscole) che a loro volta dipendono da g e c (minuscole). E per capire come g e c (minuscole) influenzano il voto devi ricorrere proprio alla chain rule, come ti piace chiamarla.

Peppe si alzò e prese il cancellino. Fatta pulizia delle righe scritte da Gedeone, scrisse per bene le nuove formule usando i gessetti colorati, che usava anche a lezione e per cui aveva una predilezione quasi infantile. Non mancò di osservare che quello che stava scrivendo non era rigoroso al 100% perché le funzioni G(g) e C(c) non erano derivabili. Tuttavia, questo abuso di notazione era il modo più rapido di spiegare gli effetti della normalizzazione introdotta dall’ANVUR.

Chain_rule_2013rev2

– Ma scusa, Peppe, cosa intendi dire con “fortemente non lineari”?

– Intendo dire che quando incrementi le citazioni c l’effetto sul percentile C può essere molto forte o molto debole, a seconda dal valore da cui parti. Te lo mostro con un paio di grafici.

Peppe era ritornato a sedersi al PC e con un clic aveva portato in primo piano una slide Power Point che aveva predisposto in vista di questo coup de théâtre.

Sensitivities_2013

-Ecco, nei due grafici la linea blu è la funzione che per ogni IPP restituisce il valore del corrispondente percentile.

-Tieniteli stretti questi grafici, Peppe, e non farli vedere a nessuno, mi raccomando. Scommetto che ci sarebbero colleghi disposti a uccidere per averli. Stavolta nel dipartimento saremo noi a stravincere la VQR. Tu, con le tue capacità analitiche, sei la nostra arma segreta!

-La segretezza è del tutto inutile, Gedeone. Vorrei ricordarti che i nostri colleghi non se ne farebbero nulla di questi due grafici. I grafici sono diversi per ogni settore scientifico e per ognuno dei quattro anni tra 2011 e 2014. Inoltre cambiano se usi come journal metric index IPP oppure SJR. E di nuovo cambiano se usi Web of Science e, anche qui ottieni grafici diversi se usi come indicatore il 5 year IF oppure l’Article Influence. A me e te che abbiamo pubblicto articoli lungo tutto il quadriennio, per selezionare i due prodotti migliori, serviranno non meno di 16 diverse cravatte bibliometriche: 4 anni x 2 database x 2 journal metric index. Che una volta calcolati sono del tutto inutilizzabili per i colleghi degli altri settori, i quali devono rifarsi il lavoro tutto daccapo. E se poi le pubblicazioni di un settore stanno a cavallo di più “scientific categories”, il numero delle cravatte aumenta ancora. Ci saranno colleghi che, se vorranno scegliere oculatamente, dovranno guardarsi decine di cravatte bibliometriche. Lo avevi persino scritto nella tua mail.

-Hai ragione, me n’ero scordato. Ma è il costo del rigore scientifico. Non mi importa se devo spenderci una settimana di lavoro tra Scopus, Web of Science e FAQ dell’ANVUR. Mi basta sapere che avremo finalmente una valutazione ben fatta.

Sensitivities_2013_annotated

-Certo che non ti importa, soprattutto se, come l’altra volta, riesci a scaricare tutto il lavoro su di me … Ma torniamo a bomba. Cosa ti stavo dicendo? Ah,si, ti stavo spiegando che i due grafici illustrano le conseguenze un po’ perverse dell’uso dei percentili come metodo di normalizzazione.

  • IPP passa da g=0 a g=2? Il voto normalizzato G fa un balzo da 0 a 60 (frecce rosse nel grafico di sinistra)
  • IPP salta da g=4 a g=8?, il voto normalizzato G fa un saltino da 90 a 100 punti (frecce viola nel grafico di sinistra)

E lo stesso accade per le citazioni

  • Le citazioni passano da c=0 a c=2? Il voto normalizzato C fa un balzo da 15 a 55 (frecce rosse nel grafico di destra)
  • Le citazioni passano da c=10 a c=35? Il voto normalizzato C fa un saltino da 90 a 100 (frecce viola nel grafico di destra)

Ma che senso ha una normalizzazione di questo genere che dà risultati così squilibrati e imprevedibili? Ti ricordo che queste distorsioni cambieranno, anche molto, da una cravatta bibliometrica all’altra.

Gedeone guardava stupito a bocca aperta. Ma non era il tipo da arrendersi senza lottare.

-Ma scusa, Peppe, come è possibile che il valore normalizzato corrispondente a 0 citazioni sia circa C=15? Mi sa che nei tuoi conti c’è un grosso errore.

-No, non è un errore. Ti potrà forse sorprendere, ma nel 2013 circa il 30% degli articoli indicizzati da Scopus nel nostro settore avevano zero citazioni quando ho fatto il download dei dati [NdA: 28.11.2015]. Dove si mette il relativo percentile? Non certo a 0 oppure a 30, che sono le due scelte estreme. La scelta convenzionale è prendere il valore di mezzo, vale a dire circa 15, come ho fatto io.

-Ah, un terzo di articoli senza uno straccio di citazione. Non l’avrei mai detto. E nel 2014 sarà persino peggio. Adesso mi è più chiaro perchè il GEV scrive che il dato citazionale del 2014 è “meno stabile”. Un vero eufemismo.

-Chissà se un giorno non ti diventerà altrettanto chiaro che tutto questo ambaradan bibliometrico è una follia. Sarà sempre troppo tardi, comunque.

-Lo so che tu sei contrario alla valutazione per partito preso. Ti attacchi a mille dettagli tecnici per dissimulare quello che è solo un tuo pregiudizio ideologico. E a volte sono solo dei pretesti. Per esempio, la tua critica dei percentili non mi convince. Non posso sommare le citazioni con l’IPP. In qualche modo, dovrò pur riportare sia i voti dei journals che le citazioni in un intervallo 0-100. Non posso certo usare una scala lineare mettendo a 100 il valore del numero massimo di citazioni. A proposito, quanto vale?

-Vale 209, se proprio ti interessa.

-Vedi? Se normalizzassi con una scala lineare tra 0 e 100, 10 citazioni – che non sono così poche – varrebbero 100×2/209 = 4,8. Finirebbe che i valori della stragrande maggioranza degli articoli sarebbero schiacciati verso lo zero. Quando si critica, bisognerebbe essere in grado di proporre soluzioni migliori.

-Ma guarda che una scala lineare si può usare senza alcun problema. Basta decidere che 20 citazioni, una volta normalizzate valgono 100 e che un IPP pari a 8 vale pure 100 nella scala normalizzata. Poi si tira una linea ed è fatta.

-Bravo merlo! E poi l’articolo con 209 citazioni, che nella scala normalizzata varrebbero 100×209/20 = 1045 punti, come lo gestisci?

-Senza fare un plisset, è così che lo gestisco, caro Gedeone. Ti ricordo che alla fine le classi sono solo cinque: Ecccellente, Elevato, Discreto, Accettabile, Limitato. Avere un prodotto il cui voto vale alcune migliaia non è certo un problema: sarà classificato tra gli eccellenti, come è naturale che sia. Tecnicamente parlando, la procedura è semplice:

  • Normalizzo g e c con la mia scala lineare, ottenendo G e C
  • Con la formula scritta alla lavagna (o una simile) calcolo i voti di tutti gli articoli indicizzati da Scopus nella Subject Category e poi, usando i percentili – il cui uso a questo punto è invece corretto – mi calcolo le soglie che sanciscono il passaggio da una classe VQR all’altra.
  • Con due conti vedo dove cade il mio articolo nella cravatta e poi decido di conseguenza.

Gedeone, ammutolito, scrutava i grafici sullo schermo.

Escher

5. Anamorfosi bibliometrica, ovvero una VQR “Escheriana”

Peppe, incurante dell’ora e della fame, incalzava Gedeone.

-Hai presente Escher?

-Certo che sì. Non ti ricordi che ai tempi avevo persino regalato un costoso libro di sue riproduzioni alla Chiara, sperando di fare colpo su di lei …

-Bravo ganzo! Questo in tanti anni non me l’avevi mai detto. Magari, se provavi con delle rose, era meglio, no?

-Bah …sappiamo come è andata a finire. Ma cosa c’entra Escher?

-Aspetta un attimo … ah, ecco, adesso te lo ingrandisco a tutto schermo. Guarda il suo famoso “Balcone”. Un bellissimo esempio di anamorfosi.

-Beh, non è proprio il caso che tu mi spieghi di cosa si tratta. Ma continuo a non capire cosa c’entra con le cravatte bibliometriche della VQR.

-Che cosa succede con la deformazione anamorfica? Dei dettagli che erano piccoli, come la ringhiera del balcone, si allargano a dismisura fino a competere con la facciata di un’intera casa. È come se il foglio fosse diventato di gomma. E la dilatazione cambia a seconda delle zone. Al centro è massima mentre ai bordi l’effetto svanisce.

-Forse comincio ad afferrare il punto.

-Bene, ci stai arrivando. L’uso dei percentili comporta una specie di deformazione anamorfica. Fa sembrare vicini dei prodotti che sono lontani …

-… e fa sembrare lontani prodotti che sono vicinissimi.

-Bravo, Gedeone! Mi hai proprio tolto le parole di bocca. Cosa succederebbe se io tirassi delle righe diagonali sul balcone di Escher?

Balcone_cravattato

-Sembra una cravatta bibliometrica!

-Adesso, immagina che il foglio di gomma deformato torni alla forma normale. Cosa succederà alle linee rosse?

-Beh, nella zona centrale la loro distanza coincide più o meno con la diagonale della finestra. Se la finestra del balcone torna ad essere piccola come tutte le altre, le due linee finiranno per avvicinarsi fino quasi a toccarsi.

-Bravo Gedeone! Hai indovinato. La forma delle linee rosse sarebbe più o meno quella che sto disegnando su questo foglio con il pennarello rosso.

Balcone_scravattato

Gedeone, sempre più a bocca aperta, non potè trattenere la sua ammirazione:

-Affascinante questa analogia tra Escher e i criteri bibliometrici della VQR.

-Nel mondo reale, quello non deformato, le distanze sono diverse da quelle che vedi nel piano di gomma. La bibliometria dell’ANVUR è un piano di gomma, un’illusione ottica, proprio come il balcone di Escher. Guarda qui. A sinistra c’è il piano di gomma anvuriano e a destra quello che si vede quando viene annullata la deformazione e si torna alla scala naturale.

Anamorfosi_anvuriana_2013

-Ma è incredibile. Ci sono dei prodotti che nel piano anvuriano sembrano lontanissimi, ma che in realtà distano una sola citazione e, quando, seguendo le frecce, si torna nella scala naturale, ridiventano vicinissimi.

-E viceversa: puoi trovare facilmente due punti che sono vicinissimi nel piano anvuriano, ma che sono molto distanti nella realtà. Siamo finiti in un mondo di specchi deformanti. In particolare, i confini delle strisce della cravatta, che nel piano di gomma anvuriano sembrano rettilinei, nella scala naturale diventano curve simili a iperboli. Un bel casino.

-Ma cosa sono quei due triangoli grigi nel piano anvuriano?

-All’ANVUR devono essersi accorti che il metodo era un po’ scalcagnato e ci hanno messo la classica toppa. Nelle situazioni “estreme”, ovvero quando il voto della rivista è alto e le citazioni sono basse o, viceversa, la valutazione avverrà tramite procedura di informed peer review. Ma è solo un palliativo. Nel 2014 le distorsioni devono essere sembrate talmente clamorose che il GEV 09 ha (quasi) alzato bandiera bianca, ripiegando sempre sulla informed peer review, tranne che per i prodotti bibliometricamente “Eccellenti”:

vista la scarsa consistenza numerica relativa del dato citazionale per articoli pubblicati nel 2014, il GEV09 ha deciso di sottoporre ad informed peer review tutti gli articoli pubblicati nel 2014 la cui classificazione sulla base dell’algoritmo proposto non determini una valutazione finale “Eccellente”.

Ma anche così, gli esiti possono essere paradossali. Guarda questo grafico con la cravatta bibliometrica del 2014. In certe situazioni, bastano due citazioni perché il prodotto sia classificato Eccellente. Una delle due può essere un’autocitazione e per l’altra basta chiedere un favore piccolo piccolo al proprio “compagno di merende bibliometriche”. A proposito: te ne sei procurato uno? Inutile dire che non puoi contare su di me.

Anamorfosi_anvuriana_2014

-Peppe, devo farti i miei complimenti. Solo tu potevi districare questa intricatissima matassa. Però Benedetto e Setti hanno le loro attenuanti. Non era facile mettere a fuoco l’effetto anamorfico dei percentili. Dopo tutto, si muovevano su un terreno inesplorato.

-Beh, mica tanto inesplorato.

-In che senso?

BentRuler

6. “The only reason for using percentile ranks is ignorance

Peppe cominciava a sentirsi stanco e affamato, ma voleva arrivare fino in fondo.

-L’effetto che ti ho appena descritto è noto da decenni a chi si occupa di valutazione nei più diversi ambiti e prende il nome di

Righello di gomma (rubber ruler)

Mettersi a sommare e moltiplicare i percentili per stilare classifiche è come tentare di misurare delle lunghezze con un righello deformabile che si allunga o si comprime a seconda dei casi. Che si tratti di un grave errore, non è un segreto per iniziati. Per rendersene conto, basta una semplice ricerca su Google.

Google_ranks_cannot_be_added

Gedeone era basito.

-Ma sei davvero sicuro che sia un errore così noto?

Peppe non emise un fiato, ma si limitò a mostrare i risultati delle sue ricerche su Google Books e altri siti.

Pedagogia1 Pedagogia2

Psicometria2

High_School Chimica_Geografia Forensic

-A quanto pare, mio caro Gedeone, anche i giuristi, che tu disprezzi così tanto, hanno capito che “percentile ranks are not equal units. Therefore, they cannot be added, subtracted, multiplied, divided or –therefore – averaged“. Sembra quasi che gli unici a non essersene accorti siano i valutatori dell’ANVUR.

-Ma da dove viene questa consapevolezza che si tratti di un errore così grave?

-Beh quando si tratta di citare un riferimento scientifico che spieghi il perché dell’errore, i più fanno riferimento ad un position paper del 1993, scritto da Bruce Thompson:

GRE Percentile Ranks Cannot Be Added or Averaged: A Position Paper Exploring the Scaling Characteristics of Percentile Ranks, and the Ethical and Legal Culp

Ce l’ho qui sulla scrivania. Ti leggo cosa scrive:

It seems counterintuitive to many persons, even to some educated people with terminal degrees serving on faculty at world-class universities, that some numbers simply cannot be added … Most of us have paradigms about numbers that were unconsciously formulated, typically in the primary grades of elementary school. When we are given several numerals, we are used to presuming that we can add them up. Few of us were ever admonished that we can only add numbers when the numerals represent data derived using an equal interval measurement ruler. In fact, few of us consciously recognize that addition itself does presume equal-interval measurement.

Nell’appendice dell’articolo, Bruce Thompson fornisce una lista di citazioni scientifiche contrarie all’uso della somma dei ranks. Di sicuro, Thompson non riteneva che mettersi a pasticciare con i percentili fosse un peccato veniale:

The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.

Il bello è che l’ANVUR stava per fare lo stesso tipo di errore nel 2012, quando nella prima VQR voleva classificare le riviste in base alla media dei percentili di diversi indici bibliometrici. Era stato Roars a farli desistere, citando proprio l’articolo di Thompson (VQR: la bibliometria fai-da-te dell’ANVUR). Possibile che se ne siano scordati?

Gedeone si avviò verso la porta, pensando che il costo della VQR era stato valutato tra i 182 e i 300 milioni di Euro. Una spesa che sarebbe stata vanificata da un sistema di misura che, oltre ad essere incomprensibile alla quasi totalità dei valutati, era invalidato da un errore noto da più di venti anni. Un errore nei confronti del quale non era difficile trovare testi che ti mettessero in guardia con avvertimenti perentori che non lasciavano adito a dubbi.

Intanto, Peppe stava pulendo la lavagna. Stava per cancellare anche il “graffito” di Gedeone, quando gli venne un’idea. Tirò due righe con il gesso bianco e poi prese il suo amato gessetto giallo.

fa_acqua

Send to Kindle
Tag: , , , , , , , , , , , , , , , ,

10 Comments

  1. Anche tenendo conto di quanto prevede l’art. 19 del Regolamento relativo all’organizzazione e al funzionamento dell’Agenzia nazionale di valutazione del sistema universitario e della ricerca (ANVUR)

    che così recita:

    TITOLO V – DISPOSIZIONI FINALI

    Art. 19 – Trasparenza

    1. L’Agenzia assicura la trasparenza e la pubblicità delle informazioni relative alla propria attività, utilizzando tutti gli strumenti e le forme di informazione e comunicazione previste all’art. 2 della Legge 7 giugno 2000 n. 150.

    2. In particolare l’Agenzia garantisce la pubblicazione, sul proprio sito internet istituzionale http://www.anvur.org, delle notizie relative alla sua struttura e dotazione organica, ai criteri e alle metodologie per la valutazione definiti dall’Agenzia, ai risultati delle proprie analisi e valutazioni, nonché ad ogni altro aspetto della propria attività istituzionale conformemente alla normativa vigente.

    3. (omissis)

    4. Al fine di garantire la massima trasparenza secondo quanto previsto dalla normativa vigente, l’Agenzia cura la pubblicazione di specifiche informazioni rivolte a rendere pubblici i risultati delle proprie analisi e della propria attività di valutazione in apposite sezioni del proprio sito internet istituzionale.

    ci si auspica che l’ANVUR si affretti a rendere pubblica tutta la documentazione in suo possesso suscettibile di attestare la regolare autorizzazione concessa al prof. Benedetto a svolgere, in costanza di carica nel direttivo ANVUR, l’incarico di Presidente della IEEE ComSoc http://www.comsoc.org/.

    Per i non addetti ai lavori, un quadro riassuntivo delle incompatibilità e degli incarichi vietati – in linea generale – ai pubblici dipendenti può essere reperito qui: http://www.giurdanella.it/2014/07/17/funzione-pubblica-le-incompatibilita-dei-dipendenti-pubblici/

    Si tenga presente che il Dipartimento della funzione pubblica, con circolare n. 6 del 1997, ha dovuto chiarire che l’attività di amministratore di condominio per la cura dei propri interessi è compatibile con la funzione svolta dal dipendente pubblico…

  2. Giuseppe De Nicolao says:

    Sergio Benedetto non aveva apprezzato la “forma fumettistica” del post e l’aveva anche trovato soporifero:


    ________
    http://www.lavoce.info/archives/41481/valutazione-della-ricerca-quellalgoritmo-e-affidabile/?replytocom=74760#respond

    • Giuseppe De Nicolao says:

      A parte i commenti sullo stile, il fulcro della replica di Benedetto è fingere che il mio articolo proponesse un preciso algoritmo alternativo, rispetto al quale il coordinatore della VQR imbastisce dei confronti numerici. L’equivoco nasce da quel passaggio in cui Peppe *a puro scopo dimostrativo* («guarda che una scala lineare si può usare senza alcun problema») cita una possibile combinazione lineare degli indicatori per spiegare che il ricorso alla somma dei percentili non era in alcun modo una scelta obbligata. Non si capisce se il fraintendimento derivasse da difficoltà di comprensione testuale (nonostante la forma fumettistica) o dalla mancanza di argomenti migliori. Altri lettori avevano capito al volo:
      _____________
      Paolo Bertoletti: «non mi sembra che l’articolo di Denicolao proponesse una metodologia alternativa»

      http://www.lavoce.info/archives/41481/valutazione-della-ricerca-quellalgoritmo-e-affidabile/?replytocom=73471#respond
      _____________
      Maurizio Tomasi: «Ma lo scopo dell’articolo di De Nicolao era di proporre un’alternativa? A me non sembra proprio»
      http://www.lavoce.info/archives/41481/valutazione-della-ricerca-quellalgoritmo-e-affidabile/?replytocom=73763#respond
      _____________
      Da parte mia, avevo risposto così:
      _____________
      […] Inutile ricorrere a simulazioni e confronti più o meno complicati, dato che il fatal error è concettuale. All’obiezione che, dopo tutto, sommare i percentile rank significa sottoporre i dati ad una trasformazione come tante altre (lineari o non lineari), ha già dato risposta B. Thompson: «It might be suggested that percentile ranks are “rubberized”, but that maybe they’re not “rubberized” a whole lot. The problem with this argument is that the distortions introduced by adding percentile ranks are entirely gratuitous. There simply is no reason to introduce these distortions. It would be one thing to accept the cost of a distortion if some greater good offset this penalty. But there is no such benefit establishing any balance against the distortions that percentile ranks unavoidably create. The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable». […]

  3. Giuseppe De Nicolao says:

    C’è una questione che riguarda la reputazione etica e scientifica dei colleghi dei GEV delle aree bibliometriche. Non sembra che le loro coscienze abbiano fatto una piega (o forse è stata solo un’increspatura come quella causata da una lieve brezza sulle acque di un lago). Ne avevamo già scritto su Roars:
    __________________
    «A seguito della pubblicazione del nostro articolo che segnalava un fatal error nei criteri bibliometrici della VQR, ci ha scritto un collega “indignato per non dire di peggio”, il quale avrebbe interpellato uno dei membri GEV della sua area per capire se, prima di approvarli, si erano posti il problema della correttezza dei criteri o se avessero l’intenzione di porselo, quanto meno dopo la lettura dell’articolo di Roars.

    La risposta sarebbe stata che i GEV contano ben poco e danzano al ritmo della musica suonata dal coordinatore della VQR. In sostanza, hanno eseguito gli ordini senza entrare nel merito.

    Il GEV avrebbe anche risposto che è vero, gli errori nei criteri ci sono, ma la loro incidenza, dopo tutto, è minima.
    La sconsolata conclusione di chi ci ha scritto è stata questa:

    “Domani, se l’anvur ci dice che la terra è piatta, o che l’evoluzione delle specie non esiste, ci andrà bene…. Però se l’accademia è ridotta così, forse qualche domanda ce la dobbiamo porre, io non sarei mai disposto ad accettare tutto ciò e mi sarei dimesso.”»
    http://www.roars.it/online/se-anvur-dicesse-che-la-terra-e-piatta-noi-gli-crederemmo/
    ______________

    Ecco quando ci lamentiamo per la piega che ha preso la valutazione della ricerca, una via di mezzo tra stregoneria e burocrazia sovietica, ricordiamoci dei loro nomi. E ricordiamolo anche a loro, ai volenterosi collaboratori di ANVUR.

  4. bellissimo post grazie. Ma come mi succede spesso leggendo i post su ROARS, non capisco se si vuole proporre una metrica migliore o nessuna metrica.

  5. Desolation says:

    Nella mia Università si sono appena distribuiti i fondi Far con premialità individuale per i risultati VQR 2004-2010 (che chiaramente erano stati espressamente richiesti). A me sembra un incrocio tra una barzelletta (i risultati della nuova usciranno tra 10 gg) e un comportamento illegale (ma non dovevano essere escluse ricadute individuali?) qualcuno mi spiega perché avrei torto? grazie

  6. se cade un albero nella foresta amazzonica e nessuno lo vede e lo sente cadere, l’albero è caduto realmente? … se cade un albero lungo la tua strada di casa e non l’hai ne sentito ne visto cadere, quando andrai a casa te ne accorgerai … non ci sono ricadute sulle persone, ma l’albero è caduto vicino a casa tua …

Leave a Reply