L'”accurata calibrazione bibliometrica” è una delle novità della VQR 2011-2014, secondo quanto dichiarato dal suo coordinatore Sergio Benedetto. Una calibrazione che però conduce a esiti paradossali: per un articolo pubblicato nel 2013 in una rivista il cui IPP (Impact per publication) vale 2,92, possono bastare tre citazioni per essere valutato di livello Elevato e ne bastano nove per essere promosso a Eccellente. Ma se l’IPP della rivista è 2,32, l’articolo non diventa Eccellente nemmeno se riceve 70 citazioni. Questa disparità di trattamento deriva da un inedito criterio di valutazione degli articoli che si basa  sulla somma (pesata) dei percentili di due indicatori bibliometrici. Un criterio bibliometrico mai sperimentato prima, anche perché da più di 20 anni è noto nei più vari ambiti scientifici, a partire dalle valutazioni pedagogiche e psicometriche fino ad arrivare alla geografia e alla chimica, che i percentili «cannot be aggregated in any meaningful way», dato che sono misure ordinali e non misure ottenute usando una scala a intervalli regolari. Un errore ben noto, che, oltre a essere oggetto di quiz per le high school, è stigmatizzato in numerosi libri di testo e anche in articoli scientifici, secondo i quali «The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable».

A questo link si trovano le slide e il filmato di un seminario che spiega il fatal error della VQR 2011-2014:
http://www.roars.it/online/il-sonno-della-ragione-genera-anamorfosi-bibliometriche/

Regiment_ties

1. Le cravatte bibliometriche della VQR 2011-2014

Peppe stava ancora appendendo il giaccone sul gancio dietro alla porta quando notò il messaggio sulla lavagna del suo ufficio.

Classe_non_acqua

La prima reazione fu un’imprecazione che però fu soffocata in tempo. Per fortuna, l’ignoto imbrattatore di lavagne non gli aveva cancellato i conti della sera prima. Nel dipartimento era tuttora leggendario il casino che Peppe aveva scatenato quella volta che l’addetto alle pulizie gli aveva cancellato alcuni difficili passaggi di un teorema, costati una settimana di duro lavoro. Imbufalito, era arrivato a scrivere persino al Consiglio di Amministrazione e, come effetto collaterale, erano partiti dei controlli che avevano condotto alla revoca dell’incarico all’impresa di pulizia. Non per cancellazione di teoremi, a dire il vero, ma per l’emersione di gravi irregolarità fiscali e previdenziali. Alcuni colleghi buontemponi avevano però diffuso la leggenda che fosse stata la giusta punizione per chi aveva messo proditoriamente a soqquadro le elucubrazioni scientifiche del collega. E a Peppe la diceria non dispiaceva affatto.

Non amava intrusi nel suo territorio e – a dirla tutta – aveva meno indulgenza per chi imbrattava la sua lavagna di quella che aveva avuto nei confronti di Gedeone quando, a tempi dell’università, gli aveva fatto concorrenza nel corteggiare una ragazza. Un buco nell’acqua per entrambi. Due nerd senza speranza, si sarebbe detto ai giorni nostri.

Ma ecco, il PC si era avviato e, scorrendo la lista dei messaggi, Peppe ebbe la conferma dei suoi sospetti.


Da: GedeoneP <gedeo.p@gmail.com> Oggetto: la classe non è acqua! Ecco i nuovi criteri VQR

Ciao Peppe, non so se hai visto che sono usciti i criteri bibliometrici della nuova Vqr (per risparmiarti la fatica di scaricarli, ti allego quelli del GEV 09, tanto lo schema è lo stesso per tutti i GEV bibliometrici). Durante il weekend me li sono letti e sono impaziente di avere anche il tuo giudizio. Intanto, ti riassumo per punti le mie prime impressioni.

1. Ti devo concedere che avevi ragione tu quando, citando le analisi di Roars [VQR da buttare? Persino ANVUR cestina i voti usati per l’assegnazione FFO 2013], dicevi che la prima VQR era scalibrata e che non garantiva uniformità tra le scale di valutazione dei diversi SSD, anche dentro la stessa Area CUN. Lo dice persino Sergio Benedetto nella slide 23 di una presentazione che ti allego: “Non è detto che l’attribuzione degli elementi della matrice rispetti la distribuzione voluta (calibrazione) 20-20-10-50”.

2. Ma questi sono problemi del passato: l’Anvur ha messo a punto una procedura di valutazione bibliometrica molto migliore dei vecchi “quadrati magici” che hai tanto sbeffeggiato. I prodotti vengono ancora collocati in un piano la cui coordinata “x” è il “voto” attribuito alla rivista (una journal metric come l’Impact Factor a 5 anni, per esempio) e la coordinata “y” è il numero di citazioni. Ma adesso le regioni dei voti sono individuate da delle strisce parallele, simili a quella di una cravatta “regimental”. Il bello è che l’inclinazione delle strisce cambia di anno in anno. Nel 2011, l’inclinazione è tale da dare più importanza alle citazioni, mentre, a mano a mano che si avanza nel tempo, l’indice citazionale diventa meno affidabile e cambia l’inclinazione in modo da incrementare il peso del journal metric index. Anno nuovo, cravatta bibliometrica nuova, insomma. Con questa ingegnosa trovata delle cravatte i nostri colleghi ingegneri Sergio Benedetto e Gianluca Setti, il coordinatore del GEV 09, si sono veramente guadagnati il titolo di “arbitri elegantiae bibliometricae”.

Cravatta_bibliometrica

 

3. So già che dirai che non si possono mettere insieme le mele con le pere, ovvero citazioni e Impact Factor. Ma all’ANVUR hanno pensato anche a questo. Infatti, la cravatta bibliometrica non è definita usando direttamente il journal metric index e le citazioni, che sono variabili difficilmente paragonabili, ma i loro percentili che sono per definizione compresi tra 0 e 100. Inutile che lo spieghi a te: si prendono tutti gli articoli pubblicati nella Subject Category considerata nel corso di un certo anno e si costruisce la classifica delle citazioni. Se il 60% degli articoli mondiali ha meno citazioni del tuo articolo, vuol dire che il suo percentile citazionale è pari a 60 (per chi invece preferisce contare dalla cima, stai nel primo 40%).

4. Ma qui viene il bello: per garantire uniformità tra tutti i Settori scientifico-disciplinari, le righe della cravatta sono posizionate in modo da definire 5 strisce, ognuna delle quali contiene una percentuale assegnata di articoli mondiali

20% nella striscia più bassa (limitato – 0 pti)

30% in quella subito sopra (accettabile 0,1 pti)

20% in quella intermedia (discreto 0,4 pti)

20% in quella quasi al top (elevato 0,7 pti)

10% in quella top (eccellente 1 pto)

5. Una calibrazione finalmente rigorosa che manda in soffitta tutti i problemi della precedente VQR. Adesso, possiamo anche riconoscere che la VQR 2004-2010 era parecchio sgangherata, proprio a causa della scalibrazione dei criteri bibliometrici, che Roars aveva evidenziato così bene. Si tratta di obiezioni a cui è stato giusto non dare spazio, perché, anche quando erano tecnicamente ineccepibili, nascondevano solo una sterile opposizione alla cultura della valutazione. Una cattiva valutazione è pur sempre meglio di nessuna valutazione.

6. Perché nessuno possa dirsi ingiustamente danneggiato sono state previste una serie di misure di garanzia. È il valutato a scegliere su quale database citazionale verrà giudicato (Web of Science della Thomson-Reuters o Scopus della Elsevier). E per entrambi, può anche indicare tra due journal metric index quello che gli torna più conveniente. Inoltre, nei casi estremi o dubbi, si ricorrerà alla peer review.

7. So già che qualcuno si lamenterà della metodologia troppo complicata. Ma tra qualche giorno sulla piattaforma Iris sarà possibile ottenere i percentili di journal metric index e di citazioni per ciascuno dei propri articoli. A quel punto, tutti sapranno in che punto del piano x-y cadono gli articoli e per valutarli basterà farsi dire dove sono le strisce della cravatta bibliometrica. Se il tuo articolo appartiene ad una sola WoS-SC (Subject Category) e a una sola Scopus-ASJC (All Science Journal Classification), ti basta controllare solo 4 cravatte (2 per WoS e 2 per Scopus dato che in entrambi i casi puoi scegliere tra due journal metric index). Se poi hai pubblicato articoli in ogni anno del quadriennio 2011-2014, te la cavi con 4×4=16 cravatte. Va un po’ peggio a chi ha articoli che appartengono a più categorie nel qual caso si va facilmente oltre le 30-40 cravatte da controllare. Ma che sarà mai? Mi sembra un prezzo ragionevole per avere in cambio una valutazione finalmente rigorosa. Il fatto che le valutazioni siano tutte ipotetiche perchè ANVUR farà i conti finali sulla base dei dati bibliometrici scaricati a fine febbraio aggiunge solo un pizzico di suspance, che può essere persino elettrizzante.

Più di una volta hai detto che gli svarioni tecnici nei documenti dell ‘ANVUR sono così macroscopici che tu riesci ad individuarli alla prima lettura. Questa volta non riusciresti a trovarne uno, nemmeno se ti ci dedicassi una settimana a tempo pieno.

Questa mattina ho quattro ore di lezione. Se non hai altri impegni possiamo andare insieme in mensa. Così ne approfittiamo per parlare di questa nuova VQR che mi sembra promettere molto bene.

Gedeone

P.S. Voglio vedere cosa troveranno da ridire gli oppositori per partito preso, redazione di Roars in testa. Sempre pronti a criticare e a trovare il pelo nell’uovo. Su Roars non ho mai letto una proposta che sia una. E, sinceramente, mi dispiace che tu sia quasi sempre schierato dalla loro parte, proprio tu che avresti tutto da guadagnare dall’uso di questi criteri bibliometrici.

Allegati:

Criteri GEV 09

Slide Benedetto


Non appena ebbe finito di leggere il fluviale messaggio di Gedeone, Peppe tirò il fiato mettendo le mani dietro la testa mentre reclinava la poltrona all’indietro. Rimase in meditazione meno di un minuto. Poi si portò in avanti e mise mano alla tastiera. Digitò www.roars.it e puntò il mouse sul menu

Idee e prospettive

Diede una scorsa ai titoli e sorrise: la memoria non lo ingannava. Per prima cosa, scrisse due righe a Gedeone


Caro Gedeone,

non sta a me rivestire i ruoli del difensore di Roars, ma qualche proposta l’hanno anche fatta, basta aprire questo link

http://www.roars.it/online/category/idee-e-prospettive/

In particolare, ecco le loro proposte per la riforma della VQR:

http://www.roars.it/online/proposte-per-la-prossima-vqr/

Adesso provo a leggere i criteri bibliometrici della nuova VQR. Visto che mi sfidi, vediamo cosa sono capace di capirci in quattro ore.

Peppe


Un clic sul pulsante “invio” e il messaggio sfrecciò via.

Era ora di mettersi al lavoro. Tra una cosa e l’altra erano già le 9:30. Rimanevano solo tre ore e mezza prima dell’arrivo di Gedeone.

Italians_do_it_better

2. Engineers do it better

Erano le 12:58 quando Peppe, dopo aver scritto una formula sulla lavagna si accasciò sulla sedia girevole. Fece del suo meglio per tirare il fiato dopo una mattinata di “studio matto e disperatissimo”. Non voleva che Gedeone lo vedesse in quelle condizioni.

Erano da poco passate le 13:05 quando sentì bussare. Gedeone, come il suo solito, entrò nello studio senza che Peppe avesse il tempo di dire ‘avanti’.

-Ti vedo provato, Peppe. Ti conosco troppo bene. Hai lavorato come un matto su quei criteri e non sei venuto a capo di nulla.

-Non lo posso negare, ho faticato parecchio …

Gedeone gongolava, pregustando la sua vittoria.

-Ehe, caro Peppe, quando ci si mettono gli ingegneri, non ce n’è per nessuno. E che ingegneri! Scommetto che ci hanno lavorato Sergio Benedetto e Gianluca Setti che sono due Fellow dell’IEEE. E poi noi ingegneri siamo allenati ad applicare metodi quantitativi a problemi di ogni genere. Non ci spaventiamo mica di fronte ad un problema in un campo per noi nuovo come la scientometria. Anzi, siamo capaci di escogitare soluzioni che spesso sono migliori di quelle che usano gli esperti di quel settore che non hanno le nostre basi e il nostro allenamento. Non oso pensare come sarebbe la VQR se l’avessere affidata a quei buoni a nulla dei nostri colleghi giuristi. Legulei che vivono di cavilli. Ah, come andrebbero meglio le cose se le leggi e i regolamenti fossero tutti scritti dagli ingegneri. E da quando eravamo matricole che, ispirato da quel video di Madonna, ho cominciato a dire: Engineers do it better. Un motto che ripeto sempre anche ai miei studenti.

-Beh, se proprio vogliamo rivangare il passato, quella nostra compagna di corso – come si chiamava? Ah sì, Chiara – non era tanto d’accordo. Ha snobbato la nostra corte e si è messa con uno studente di giurisprudenza. Forse, pensava che lawyers do it better.

Gedeone non lo avrebbe confessato nemmeno sotto tortura, ma lo smacco gli bruciava ancora.

-E per quanto riguarda Setti, non è quello che ha fatto circolare delle slide in cui la definizione di Impact Factor era decisamente sbagliata?

Non colse la provocazione e tagliò corto, non senza un pizzico di malignità.

-Dai, Peppe, andiamo a mangiare che così mi racconti dei tuoi tentativi andati a vuoto.

-Hai ragione, questi tentativi – come tu li chiami – mi hanno messo fame, ma prima vorrei farti vedere qualche numero. Ho dovuto sudarci parecchio, ma sono riuscito a disegnare la “cravatta bibliometrica” del nostro settore scientifico e ci sono delle cose che mi lasciano perplesso.

Dopo quattro ore di lezione, Gedeone non ci vedeva dalla fame, ma gli sembrava scortese infierire sull’amico. ‘Diamogli un contentino e stiamolo a sentire’ pensò in cuor suo.

3. Sembra facile …

Peppe con un clic portò in primo piano sullo schermo un foglio Excel occupato da un grafico con dei punti colorati. Gedeone non seppe resistere.

-Tutto qui? Quattro ore per disegnare qualche cerchietto colorato? Ma cosa significano i colori?

Punti_colorati_2013

-Mio caro Gedeone, come ti dicevo, mi sono calcolato la cravatta bibliometrica, inclusa la posizione delle righe diagonali. In particolare, questo grafico ti mostra cosa succede con la cravatta 2013 di Scopus, quando per dare un voto alle riviste adotti l’Impact per Publication, l’IPP, una specie di impact factor, tanto per intenderci. Avendo fatto tutti i calcoli, sono in grado di assegnare il relativo punteggio VQR ad un qualsiasi prodotto di quell’anno. Basta copiare le citazioni in questa cella e … voilà!

-Interessante però! Questo vuol dire che tu saresti capace di aiutarmi a scegliere i miei due prodotti migliori. Però non far sapere in giro che ha risolto il rebus. Dalle chiacchiere in mensa e al bar ho capito che i nostri colleghi non ci capiscono un acca. Con il tuo aiuto, il nostro laboratorio avrà i migliori punteggi del dipartimento e nella prossima programmazione triennale ci prendiamo una bella rivincita nei confronti di quei presuntuosi del piano di sotto.

Peppe gli lanciò un’occhiataccia, ma tornò subito al grafico.

-Ogni prodotto corrisponde ad un punto nel piano che ha come coordinata x il voto della rivista e come coordinata y il numero delle citazioni. L’ideale è stare in alto a destra: presentare un articolo che ha ricevuto una valanga di citazioni, dopo essere stato pubblicato in una rivista con un indice IPP stellare. Il massimo della sfiga, invece, è presentare un articolo che sta in basso a sinistra. Vuol dire essere stati poco o per nulla citati dopo aver pubblicato in una rivista che ha un IPP scarso.

-Beh quel lavoro in alto nel grafico, con le sue 35 citazioni ha fatto veramente il botto. Niente male per essere stato pubblicato solo nel 2013. Vorrei averlo scritto io. Mi renderebbe facile la scelta e metterei in cassaforte un bell’Eccellente, che in questa epoca di darwinismo accademico non fa mai male.

-Caro Gedeone, guarda che ti sbagli. Non vedi il colore? È viola, il colore che ho usato per chi prende un voto Elevato nella VQR. Mentre i prodotti Eccellenti sono quelli colorati in verde. Ne vedi un paio più in basso.

-E i cerchietti arancioni?

-Quelli sono prodotti Discreti.

Metriche_commentate_2013

-Ma scusa, Peppe, non capisco. Prendiamo i tre punti in basso a destra, quelli con un IPP che, a occhio e croce, vale 4,6. Provo a riassumere come varia il loro voto VQR con le citazioni

  • da 2 a 5 citazioni = Elevato (0,7 punti)
  • 6 citazioni (o più) = Eccellente (1 punto)

Quindi, bastano 2 citazioni per beccarsi un Elevato, che vale 0,7 punti, mentre con 6 citazioni porti a casa un 1 punto VQR tondo tondo. Non cambia tantissimo se considero i tre punti nella colonna centrale, il cui IPP  a occhio vale 2,9:

  • da 2 a 8 citazioni = Elevato (0,7 punti)
  • 9 citazioni = Elevato (0,7 punti)

Ma quando l’IPP vale 2,3, non mi raccapezzo più. Infatti, per i punti più a sinistra il voto VQR varia così

  • 1 o 2  citazioni = Discreto (0,4 punti)
  • 3 citazioni = Elevato (0,7 punti)
  • 35 citazioni = Elevato (0,7 punti)

Insomma, non ti bastano 35 citazioni per diventare Eccellente – concluse Gedeone.

-Se proprio vuoi saperlo, ti posso dire che non te ne basterebbero nemmeno 70.

-Ma non ha senso! Il valore delle citazioni non può variare in questo modo. In un caso, non bastano 70 citazioni per passare da Elevato a  Eccellente. Nell’altro, tu mi vieni a dire che bastano 2 citazioni perché il prodotto sia catalogato Elevato e che con 6 citazioni diventa Eccellente. Se fosse vero, sarebbe un incentivo al commercio delle citazioni. Basterebbe qualche amichetto compiacente per pomparsi a dovere il voto VQR. Tanto più che, come scritto nel documento del GEV, i controlli scattano solo quando si supera il 50% di autocitazioni. Tre autocitazioni mie e tre citazioni del mio amichetto. Un favore che posso restituire a mia volta, naturalmente! Sei sicuro di non aver sbagliato i calcoli? Eppure, la formula, mi sembrava di una facilità elementare.

-Che sembri facile non posso negarlo. La trovi scritta sulla lavagna, proprio sotto a quella specie di graffito con cui hai imbrattato la mia lavagna.

Formula_somma_percentili_2013rev2

A Gedeone, che era ad un passo dalla lavagna, sembrò di cogliere gli indizi di una trappola predisposta con cura, ma cercò di far finta di nulla e continuò a ostentare sicurezza.

-Vedi Peppe che ti sei sbagliato? Il peso del voto della rivista è 0,9 contro un peso unitario delle citazioni. Ebbene, non è possibile che per diventare eccellenti in un caso bastino 6 citazioni e in un altro non ne bastino 35, o persino 70.

-Beh, può darsi che mi sia sbagliato. Per verificarlo, prova a calcolare la sensitività del voto dell’articolo nei confronti di g, il voto del journal, e quella nei confronti di c, le citazioni.

-Ma è banale!

Gedeone prese un gessetto e, senza esitare, scrisse sulla lavagna.

Sensitivity_2013

Quando si girò verso Peppe non potè fare a meno di notare un sorrisetto indefinibile, quasi felino. E lui cominciava a sentirsi nella parte del topo.

manco_le_basi

4. Manco le basi del mestiere!

-Manco le basi del mestiere, te ricordi!

L’imitazione di Mario Brega che impreca contro Don Alfio era uno dei pezzi forti di Peppe che ricordava praticamente a memoria tutte le battute di Un sacco bello.

-Non prendermi per scemo! Dimmi dove ho sbagliato, se ne sei capace.

-Sarà pure vero che engineers do it better ma qualcuno di loro dovrebbe ripassarsi le basi del mestiere. La regola della catena, in particolare. Roba che sanno anche le matricole più tonte.

-La regola della catena?

-Ma sì, la regola per derivare le funzioni composte.

-Ah, ho capito! Ti riferisci alla chain rule. Io sono abituato a usare il nome inglese. Ma che diavolo c’entra in questo caso?

-C’entra, c’entra. Ti sei dimenticato che la G e la C maiuscole non sono il vero voto del journal e le vere citazioni, ma i loro percentili. Se indichiamo con la g e la c minuscole il vero voto e le vere citazioni, il voto B del prodotto diventa una funzione composta, dato che dipende da G e C (maiuscole) che a loro volta dipendono da g e c (minuscole). E per capire come g e c (minuscole) influenzano il voto devi ricorrere proprio alla chain rule, come ti piace chiamarla.

Peppe si alzò e prese il cancellino. Fatta pulizia delle righe scritte da Gedeone, scrisse per bene le nuove formule usando i gessetti colorati, che usava anche a lezione e per cui aveva una predilezione quasi infantile. Non mancò di osservare che quello che stava scrivendo non era rigoroso al 100% perché le funzioni G(g) e C(c) non erano derivabili. Tuttavia, questo abuso di  notazione era il modo più rapido di spiegare gli effetti della normalizzazione introdotta dall’ANVUR.

Chain_rule_2013rev2

– Ma scusa, Peppe, cosa intendi dire con “fortemente non lineari”?

– Intendo dire che quando incrementi le citazioni c l’effetto sul percentile C può essere molto forte o molto debole, a seconda dal valore da cui parti. Te lo mostro con un paio di grafici.

Peppe era ritornato a sedersi al PC e con un clic aveva portato in primo piano una slide Power Point che aveva predisposto in vista di questo coup de théâtre.

Sensitivities_2013

-Ecco, nei due grafici la linea blu è la funzione che per ogni IPP restituisce il valore del corrispondente percentile.

-Tieniteli stretti questi grafici, Peppe, e non farli vedere a nessuno, mi raccomando. Scommetto che ci sarebbero colleghi disposti a uccidere per averli. Stavolta nel dipartimento saremo noi a stravincere la VQR. Tu, con le tue capacità analitiche, sei la nostra arma segreta!

-La segretezza è del tutto inutile, Gedeone. Vorrei ricordarti che i nostri colleghi non se ne farebbero nulla di questi due grafici. I grafici sono diversi per ogni settore scientifico e per ognuno dei quattro anni tra 2011 e 2014. Inoltre cambiano se usi come journal metric index IPP oppure SJR. E di nuovo cambiano se usi Web of Science e, anche qui ottieni grafici diversi se usi come indicatore il 5 year IF oppure l’Article Influence. A me e te che abbiamo pubblicto articoli lungo tutto il quadriennio, per selezionare i due prodotti migliori, serviranno non meno di 16 diverse cravatte bibliometriche: 4 anni x 2 database x 2 journal metric index. Che una volta calcolati sono del tutto inutilizzabili per i colleghi degli altri settori, i quali devono rifarsi il lavoro tutto daccapo. E se poi le pubblicazioni di un settore stanno a cavallo di più “scientific categories”, il numero delle cravatte aumenta ancora. Ci saranno colleghi che, se vorranno scegliere oculatamente, dovranno guardarsi decine di cravatte bibliometriche. Lo avevi persino scritto nella tua mail.

-Hai ragione, me n’ero scordato. Ma è il costo del rigore scientifico. Non mi importa se devo spenderci una settimana di lavoro tra Scopus, Web of Science e FAQ dell’ANVUR. Mi basta sapere che avremo finalmente una valutazione ben fatta.

Sensitivities_2013_annotated

-Certo che non ti importa, soprattutto se, come l’altra volta, riesci a scaricare tutto il lavoro su di me … Ma torniamo a bomba. Cosa ti stavo dicendo? Ah,si, ti stavo spiegando che i due grafici illustrano le conseguenze un po’ perverse dell’uso dei percentili come metodo di normalizzazione.

  • IPP passa da g=0 a g=2? Il voto normalizzato G fa un balzo da 0 a 60 (frecce rosse nel grafico di sinistra)
  • IPP salta da g=4 a g=8?, il voto normalizzato G fa un saltino da 90 a 100 punti (frecce viola nel grafico di sinistra)

E lo stesso accade per le citazioni

  • Le citazioni passano da c=0 a c=2? Il voto normalizzato C fa un balzo da 15 a 55 (frecce rosse nel grafico di destra)
  • Le citazioni passano da c=10 a c=35? Il voto normalizzato C fa un saltino da 90 a 100 (frecce viola nel grafico di destra)

Ma che senso ha una normalizzazione di questo genere che dà risultati così squilibrati e imprevedibili? Ti ricordo che queste distorsioni cambieranno, anche molto, da una cravatta bibliometrica all’altra.

Gedeone guardava stupito a bocca aperta. Ma non era il tipo da arrendersi senza lottare.

-Ma scusa, Peppe, come è possibile che il valore normalizzato corrispondente a 0 citazioni sia circa C=15? Mi sa che nei tuoi conti c’è un grosso errore.

-No, non è un errore. Ti potrà forse sorprendere, ma nel 2013 circa il 30% degli articoli indicizzati da Scopus nel nostro settore  avevano zero citazioni quando ho fatto il download dei dati [NdA: 28.11.2015]. Dove si mette il relativo percentile? Non certo a 0 oppure a 30, che sono le due scelte estreme. La scelta convenzionale è prendere il valore di mezzo, vale a dire circa 15, come ho fatto io.

-Ah, un terzo di articoli senza uno straccio di citazione. Non l’avrei mai detto. E nel 2014 sarà persino peggio. Adesso mi è più chiaro perchè il GEV scrive che il dato citazionale del 2014 è “meno stabile”. Un vero eufemismo.

-Chissà se un giorno non ti diventerà altrettanto chiaro che tutto questo ambaradan bibliometrico è una follia. Sarà sempre troppo tardi, comunque.

-Lo so che tu sei contrario alla valutazione per partito preso. Ti attacchi a mille dettagli tecnici per dissimulare quello che è solo un tuo pregiudizio ideologico. E a volte sono solo dei pretesti. Per esempio, la tua critica dei percentili non mi convince. Non posso sommare le citazioni con l’IPP. In qualche modo, dovrò pur riportare sia i voti dei journals che le citazioni in un intervallo 0-100. Non posso certo usare una scala lineare mettendo a 100 il valore del numero massimo di citazioni. A proposito, quanto vale?

-Vale 209, se proprio ti interessa.

-Vedi? Se normalizzassi con una scala lineare tra 0 e 100, 10 citazioni – che non sono così poche – varrebbero 100×2/209 = 4,8. Finirebbe che i valori della stragrande maggioranza degli articoli sarebbero schiacciati verso lo zero. Quando si critica, bisognerebbe essere in grado di proporre soluzioni migliori.

-Ma guarda che una scala lineare si può usare senza alcun problema. Basta decidere che 20 citazioni, una volta normalizzate valgono 100 e che un IPP pari a 8 vale pure 100 nella scala normalizzata. Poi si tira una linea ed è fatta.

-Bravo merlo! E poi l’articolo con 209 citazioni, che nella scala normalizzata varrebbero 100×209/20 = 1045 punti, come lo gestisci?

-Senza fare un plisset, è così che lo gestisco, caro Gedeone. Ti ricordo che alla fine le classi sono solo cinque: Ecccellente, Elevato, Discreto, Accettabile, Limitato. Avere un prodotto il cui voto vale alcune migliaia non è certo un problema: sarà classificato tra gli eccellenti, come è naturale che sia. Tecnicamente parlando, la procedura è semplice:

  • Normalizzo g e c con la mia scala lineare, ottenendo G e C
  • Con la formula scritta alla lavagna (o una simile) calcolo i voti di tutti gli articoli indicizzati da Scopus nella Subject Category e poi, usando i percentili – il cui uso a questo punto è invece corretto – mi calcolo le soglie che sanciscono il passaggio da una classe VQR all’altra.
  • Con due conti vedo dove cade il mio articolo nella cravatta e poi decido di conseguenza.

Gedeone, ammutolito, scrutava i grafici sullo schermo.

Escher

5. Anamorfosi bibliometrica, ovvero una VQR “Escheriana”

Peppe, incurante dell’ora e della fame, incalzava Gedeone.

-Hai presente Escher?

-Certo che sì. Non ti ricordi che ai tempi avevo persino regalato un costoso libro di sue riproduzioni alla Chiara, sperando di fare colpo su di lei …

-Bravo ganzo! Questo in tanti anni non me l’avevi mai detto. Magari, se provavi con delle rose, era meglio, no?

-Bah …sappiamo come è andata a finire. Ma cosa c’entra Escher?

-Aspetta un attimo … ah, ecco, adesso te lo ingrandisco a tutto schermo. Guarda il suo famoso “Balcone”. Un bellissimo esempio di anamorfosi.

-Beh, non è proprio il caso che tu mi spieghi di cosa si tratta. Ma continuo a non capire cosa c’entra con le cravatte bibliometriche della VQR.

-Che cosa succede con la deformazione anamorfica? Dei dettagli che erano piccoli, come la ringhiera del balcone, si allargano a dismisura fino a competere con la facciata di un’intera casa. È come se il foglio fosse diventato di gomma. E la dilatazione cambia a seconda delle zone. Al centro è massima mentre ai bordi l’effetto svanisce.

-Forse comincio ad afferrare il punto.

-Bene, ci stai arrivando. L’uso dei percentili comporta una specie di deformazione anamorfica. Fa sembrare vicini dei prodotti che sono lontani …

-… e fa sembrare lontani prodotti che sono vicinissimi.

-Bravo, Gedeone! Mi hai proprio tolto le parole di bocca. Cosa succederebbe se io tirassi delle righe diagonali sul balcone di Escher?

Balcone_cravattato

-Sembra una cravatta bibliometrica!

-Adesso, immagina che il foglio di gomma deformato torni alla forma normale. Cosa succederà alle linee rosse?

-Beh, nella zona centrale la loro distanza coincide più o meno con la diagonale della finestra. Se la finestra del balcone torna ad essere piccola come tutte le altre, le due linee finiranno per avvicinarsi fino quasi a toccarsi.

-Bravo Gedeone! Hai indovinato. La forma delle linee rosse sarebbe più o meno quella che sto disegnando su questo foglio con il pennarello rosso.

Balcone_scravattato

Gedeone, sempre più a bocca aperta, non potè trattenere la sua ammirazione:

-Affascinante questa analogia tra Escher e i criteri bibliometrici della VQR.

-Nel mondo reale, quello non deformato, le distanze sono diverse da quelle che vedi nel piano di gomma. La bibliometria dell’ANVUR è un piano di gomma, un’illusione ottica, proprio come il balcone di Escher. Guarda qui. A sinistra c’è il piano di gomma anvuriano e a destra quello che si vede quando viene annullata la deformazione e si torna alla scala naturale.

Anamorfosi_anvuriana_2013

-Ma è incredibile. Ci sono dei prodotti che nel piano anvuriano sembrano lontanissimi, ma che in realtà distano una sola citazione e, quando, seguendo le frecce, si torna nella scala naturale, ridiventano vicinissimi.

-E viceversa: puoi trovare facilmente due punti che sono vicinissimi nel piano anvuriano, ma che sono molto distanti nella realtà. Siamo finiti in un mondo di specchi deformanti. In particolare, i confini delle strisce della cravatta, che nel piano di gomma anvuriano sembrano  rettilinei, nella scala naturale diventano curve simili a iperboli. Un bel casino.

-Ma cosa sono quei due triangoli grigi nel piano anvuriano?

-All’ANVUR devono essersi accorti che il metodo era un po’ scalcagnato e ci hanno messo la classica toppa. Nelle situazioni “estreme”, ovvero quando il voto della rivista è alto e le citazioni sono basse o, viceversa, la valutazione avverrà tramite procedura di informed peer review. Ma è solo un palliativo. Nel 2014 le distorsioni devono essere sembrate talmente clamorose che il GEV 09 ha (quasi) alzato bandiera bianca, ripiegando sempre sulla informed peer review, tranne che per i prodotti bibliometricamente “Eccellenti”:

vista la scarsa consistenza numerica relativa del dato citazionale per articoli pubblicati nel 2014, il GEV09 ha deciso di sottoporre ad informed peer review tutti gli articoli pubblicati nel 2014 la cui classificazione sulla base dell’algoritmo proposto non determini una valutazione finale “Eccellente”.

Ma anche così, gli esiti possono essere paradossali. Guarda questo grafico con la cravatta bibliometrica del 2014. In certe situazioni, bastano due citazioni perché il prodotto sia classificato Eccellente. Una delle due può essere un’autocitazione e per l’altra basta chiedere un favore piccolo piccolo al proprio “compagno di merende bibliometriche”. A proposito: te ne sei procurato uno? Inutile dire che non puoi contare su di me.

Anamorfosi_anvuriana_2014

-Peppe, devo farti i miei complimenti. Solo tu potevi districare questa intricatissima matassa. Però Benedetto e Setti hanno le loro attenuanti. Non era facile mettere a fuoco l’effetto anamorfico dei percentili. Dopo tutto, si muovevano su un terreno inesplorato.

-Beh, mica tanto inesplorato.

-In che senso?

BentRuler

6. “The only reason for using percentile ranks is ignorance

Peppe cominciava a sentirsi stanco e affamato, ma voleva arrivare fino in fondo.

-L’effetto che ti ho appena descritto è noto da decenni a chi si occupa di valutazione nei più diversi ambiti e prende il nome di

Righello di gomma (rubber ruler)

Mettersi a sommare e moltiplicare i percentili per stilare classifiche è come tentare di misurare delle lunghezze con un righello deformabile che si allunga o si comprime a seconda dei casi. Che si tratti di un grave errore, non è un segreto per iniziati. Per rendersene conto, basta una semplice ricerca su Google.

Google_ranks_cannot_be_added

Gedeone era basito.

-Ma sei davvero sicuro che sia un errore così noto?

Peppe non emise un fiato, ma si limitò a mostrare i risultati delle sue ricerche su Google Books e altri siti.

Pedagogia1 Pedagogia2

Psicometria2

High_School Chimica_Geografia Forensic

-A quanto pare, mio caro Gedeone, anche i giuristi, che tu disprezzi così tanto, hanno capito che “percentile ranks are not equal units. Therefore, they cannot be added, subtracted, multiplied, divided or –therefore – averaged“. Sembra quasi che gli unici a non essersene accorti siano i valutatori dell’ANVUR.

-Ma da dove viene questa consapevolezza che si tratti di un errore così grave?

-Beh quando si tratta di citare un riferimento scientifico che spieghi il perché dell’errore, i più fanno riferimento ad un position paper del 1993, scritto da Bruce Thompson:

GRE Percentile Ranks Cannot Be Added or Averaged: A Position Paper Exploring the Scaling Characteristics of Percentile Ranks, and the Ethical and Legal Culp

Ce l’ho qui sulla scrivania. Ti leggo cosa scrive:

It seems counterintuitive to many persons, even to some educated people with terminal degrees serving on faculty at world-class universities, that some numbers simply cannot be added … Most of us have paradigms about numbers that were unconsciously formulated, typically in the primary grades of elementary school. When we are given several numerals, we are used to presuming that we can add them up. Few of us were ever admonished that we can only add numbers when the numerals represent data derived using an equal interval measurement ruler. In fact, few of us consciously recognize that addition itself does presume equal-interval measurement.

Nell’appendice dell’articolo, Bruce Thompson fornisce una lista di citazioni scientifiche contrarie all’uso della somma dei ranks. Di sicuro, Thompson non riteneva che mettersi a pasticciare con i percentili fosse un peccato veniale:

The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.

Il bello è che l’ANVUR stava per fare lo stesso tipo di errore nel 2012, quando nella prima VQR voleva classificare le riviste in base alla media dei percentili di diversi indici bibliometrici. Era stato Roars a farli desistere, citando proprio l’articolo di Thompson (VQR: la bibliometria fai-da-te dell’ANVUR). Possibile che se ne siano scordati?

Gedeone si avviò verso la porta, pensando che il costo della VQR era stato valutato tra i 182 e i 300 milioni di Euro. Una spesa che sarebbe stata vanificata da un sistema di misura che, oltre ad essere incomprensibile alla quasi totalità dei valutati, era invalidato da un errore noto da più di venti anni. Un errore nei confronti del quale non era difficile trovare testi che ti mettessero in guardia con avvertimenti perentori che non lasciavano adito a dubbi.

Intanto, Peppe stava pulendo la lavagna. Stava per cancellare anche il “graffito” di Gedeone, quando gli venne un’idea. Tirò due righe con il gesso bianco e poi prese il suo amato gessetto giallo.

fa_acqua

Send to Kindle

73 Commenti

  1. Complimenti per l’articolo, non tanto per il romanzato dialogo tra supposti colti (che comunque rende a tratti godibile la lettura), ma per la denuncia e la spiegazione di un errore di portata decisamente incommensurabile.

  2. Complimenti per l’articolo, anche se fin troppo triste. E’ la prima volta che scrivo in questo post, ma sono particolarmente amareggiato per non dire la mia. Conosco diverse persone tra i GEV e proprio non capisco. Sono persone lucide, ingegnose ed efficienti quando fanno ricerca, didattica, ecc. Com’è possibile che in ambito ANVUR possano ideare criteri così “polarizzati”. Certe volte ho paura che non siano casuali, ma vengono creati appositamente per distruggere. Purtroppo però sono anche loro membri dell’istituzione Università italiana che rischiano di distruggere (o forse pensano che si possa sviluppare ulteriormente qualche realtà universitaria a scapito di qualche altra). Secondo me, dobbiamo iniziare a coinvolgerli direttamente in questa riflessione, chiamandoli uno ad uno a rispondere alle nostre questioni.

    • Concordo. Al di là delle più o meno godibili narrazioni di ROARS, qui stiamo parlando di un sistema di valutazione costoso, inefficiente, disinformato, ma che costituirà il cardine per movimenti di (poche) risorse reali che verranno sottratte ad alcuni per andare ad altri sulla base del … caso.
      .
      Occorrerebbe davvero cominciare a scrivere ai veri GEV, persona per persona, chiedendo conto e ragione, a dei colleghi, del perché ritengano utile prestarsi ad un operazione scientificamente cialtrona ma politicamente devastante. A questo punto chi vuole continuare a collaborare con questa anvur deve essere trattato per quello che è: un collaborazionista di un’ operazione di smantellamento del sistema universitario. Dovrebbero cominciare a sentire tutto il peso della riprovazione della comunità.

    • I DUE prodotti migliori! DUE!

      Come se per decidere il ranking UEFA si scegliessero le DUE migliori partite di tutti i tesserati, incrociando il dato con l’auditel di quelle partite.

      E poi sulla base di quei ranking si decide chi va in prima squadra e chi gioca in porta.

  3. Mi domando cosa tutto ciò abbia a che fare con la scienza. Questa idea che si possa “ingegnerizzare” la valutazione della ricerca è sbagliata profondamente, nessun sistema accademico avanzato da spazio a queste cose. Il sistema di valutazione non tiene conto del fatto che l’esistenza della misurazione perturba i dati, eppure la meccanica quantistica ha quasi 90 anni. Per esempio, in certe aree dell’ingegneria più di altre sono stati creati molti giornali open access, registrati a pagamento su ISI e SCOPUS, dove potete trovare articoli in cui piccoli gruppi si scambiano 20 – 30 citazioni per articolo. Ci sono persone il cui h- index e’ cresciuto di 10 punti in un anno e noi dovremmo considerare questa gentaglia eccellente? Cosa propone l’ANVUR contro questa delinquenza accademica? Sarebbe meglio copiare dagli inglesi il cui meccanismo riduce drasticamente la quantità di prodotti da valutare e dove i panel di assumono in prima persona l’onore della valutazione, escludendo nel modo più assoluto l’uso di bibliometrie.
    Tra l’altro siamo al ridicolo, poiché gli economisti, tra i maggiori fautori di queste metodiche, si sono rifiutati di applicarle a se stessi. Oggi siamo alle comiche, uno che fa statistica medica è bibliometrico, uno che fa statistica matematica pure, uno statistico di mestiere invece no. Un matematico è bibliometrico, uno che fa matematica finanziaria no. Giavazzi straparla sul Corriere contro il sistema universitario, poi i magnifici professori di economia politica (oltre 300 PO e guarda come va l’economia italiana) fuggono come le lepri davanti alle lenti della valutazione da loro pretesa ( per gli altri). Termino dicendo che il miglior giovane ricercatore della mia area vincitore di premi internazionale, speaker nei più importanti convegni mondiali, ha bibliometrie peggiori di uno unanimemente ritenuto “più o meno nella media”, semplicemente perché il secondo scrive tantissime casette con gente con cui si citano e ricitano a vicenda. Tra l’altro una domanda: ma se il sistema è tutto “ingegnerizzato” a che servono i GEV? Può fare tutto un programmatore ( neanche laureato) al Cineca.

  4. Pochi mesi fa come reviewer ho bocciato una pubblicazione in cui gli AA avevano creato classi di frequenza di isolamento di certi microrganismi da stabilimenti alimentari e poi pretendevano di usare i percentili in una formula con alcune variabili (definite soggettivamente, come il livello di igiene, la correttezza delle procedure, etc…). L’editore capì subito e anche gli AA si convinsero di aver preso un abbaglio. Tra loro c’era anche un ingegnere…

    • Da ingegnere, vorrei far presente che non ha troppo senso dare la colpa alla categoria degli “ingegneri”. Si rischia di andare fuori bersaglio.

    • Io sono un ingegnere. Se nell’articolo ho un po’ infierito sulla categoria, l’ho fatto (con autoironia) solo perché sono ingegnere anch’io. Anzi, “INGEGNERIE”, come dicono le Anvurtruppen:
      _________________
      «… Ho scoperto qual è il nostro PROBLEMA!.. Alla GUIDA del veicolen defe sedere il piloten più experten, collaudato conoscitoren di bibliometrien, uno INGEGNERIE, al quale affidaren tutta la responsabilità tekniken!..»

  5. Peppe non aveva fatto in tempo a costruire il grafico della “Cravatta 3D” (no, non è un film anche se un po’ di horror c’è). Lo ha fatto il pomeriggio dello stesso giorno e ha spedito questo grafico a Gedeone.



    ____________________
    I colori corrispondono alle classi di merito VQR (Verde=Eccellente, Viola=Elevato, etc). Al variare di Journal metric index (“g” nell’articolo) e di Citations (“c” nell’articolo) la superficie restituisce il valore del voto B attribuito al prodotto. Si vede subito che, a seconda delle zone, ci sono:
    1. strapiombi (dove piccole variazioni di g o di c proiettano alle stelle o ti sprofondano nell’abisso)
    2. pianori (dove grandi cambiamenti di g o di c influiscono ben poco sul voto B);
    3. cenge (dove, per es., se ti muovi lungo g, la quota cambia poco, ma se fai un passo lungo c ti sfracelli).
    Una superficie di questo genere può condurre a valutazioni irragionevoli (la stessa variazione di c può avere esiti diversissimi a seconda di cosa vale g). L’alternanza tra strapiombi e pianori è la diretta conseguenza dell’effetto “righello di gomma” insito nella manipolazione di dati normalizzati attraverso i percentili.

    • Strapiombi, pianori, cenge… ma eri tu quello che andava allo Sciliar? 😉
      Passeggiare sul Piano Anvuriano è affascinante, specie se non capendo proprio tutto lo si guarda con meraviglia.

    • «È del poeta il fin la meraviglia…». Forse, la valutazione fai-da-te ha più a vedere con la poesia che con la scienza. O forse, invece che inventare strapiombi, sarebbe meglio dedicarsi alle passeggiate sullo Sciliar.

    • Intanto, a dispetto di essere ripetitivo (ma ritengo che non occorra essere parsimoniosi nei confronti delle cose ben fatte), i complimenti a Giuseppe De Nicolao.

      Poi, le tue parole mi hanno ricordato i primi 10 secondi di questo trailer:

      http://youtu.be/8mxntbpha7Q

      E la risposta ad una delle tue domande: occhio che, se NON si presta attenzione, al peggio non c’è limite 😉

  6. Anvurtruppen: «… Se ho strinto bene i bullonen? … Kuali bullonen? …»
    ____________


    _____________
    Dal volume 7 di “Sturmtruppen Raccolten-Strisce dalla 1149 alla 1346” attualmente in edicola. Anche se non esistono studi clinici certificati, c’è qualche evidenza aneddotica che la lettura di Bonvi funga da vaccino contro l’ “anvurite”, una patologia che ha assunto tratti endemici negli ambienti accademici italiani.

    • Ecco, direi che le Sturmtruppen descrivono bene la situazione attuale: “Obbedienza cieca, pronta ed assoluta”.

    • Cerchiamo di essere precisi, almeno noi: l’obbedienza deve essere “cieka, pronta, assoluten”.

  7. Cari colleghi, siccome questa è una discussione tra matematici, alle obiezioni o all’analisi di De Nicolao dovrebbero rispondere, obbligatoriamente e pubblicamente, i matematici dell’Anvur. Io posso soltanto capire, se ho capito bene, che ad es. un percentile di un miglio è cosa diversa da un percentile di un km, per cui i due non possono essere sommati ecc. perché si riferiscono a unità di misura diverse. Ma più in là non ci arrivo.

    • Per quanto sappia io nessun matematico e’ stato consultato, sia sul processo generale che su dettagli tecnici. Le società’ scientifiche di matematica europee, extraeuropee e italiane (con sfumature diverse), in particolare tutte quelle dei paesi del G8, non supportano l’uso delle bibliometrie nella valutazione, per cui neanche stanno a farci sopra grandi elucubrazioni. Nessun dipartimento di matematica in USA, tra le università della Ivy League o tra le top State University fa uso delle bibliometrie (direi che non ne vuol sentire neanche la puzza). Dove le bibliometrie vanno forte sono i paesi BRICS o quelli in via di sviluppo, in Europa qualche paese ex blocco sovietico. Devo dire che poi l’accanimento terapeutico sui percentili in genere appassiona più gli ingegneri dei matematici.

    • In realtà, il punto cruciale non è l’unità di misura, ma la natura ordinale dei percentili. Nella scala ordinale il primo e il secondo distano “uno” come distano “uno” anche il quinto e il sesto. Ma tra il primo e il secondo la distanza può essere molto diversa da quella tra il quinto e il sesto. Nel 2012, avevo cercato di spiegare la cosa attraverso un paragone ciclistico:
      ______________________
      “Il ciclismo illustra bene perché la media dei ranks è problematica. Nel Giro d’Italia, un ciclista che arrivasse ultimo in una tappa in cui si taglia il traguardo in gruppo vedrebbe vanificata la sua vittoria con distacco nel tappone dolomitico”
      ______________________
      Qualcuno potrà dire che la conversione in percentili, dopo tutto, è solo una normalizzazione nonlineare come tante altre. Ma non tutte le normalizzazioni sono ugualmente raccomandabili. In particolare, la conversione in percentili comporta una trasformazione che può essere fortemente nonlineare (come illustrato nell’articolo) e la cui forma non risponde ad una qualche razionalità, ma è frutto della distribuzione empirica dei dati (di conseguenza la forma varia al variare di: indicatore, Subject category, anno). Se in un certo anno, in una data Subject category e per un dato indicatore c’è un ammasso di valori tutti molto vicini tra loro (per esempio riviste con 5Y-IF molto simile) una piccola differenza viene amplificata senza ragionevole motivo e viceversa, se i valori si diradano, le grandi differenze vengono schiacciate.
      È il righello di gomma. Fino a quando si usa su un solo indicatore ci si limita a perdere informazione sul distacco. Vedi per esempio la classifica di una tappa del Giro: anche se non conosco i distacchi, continuo a sapere chi è primo, secondo, eccetera. Il guaio sorge quando pretendo di mettere insieme le classifiche di due tappe (ognuna con il suo specifico righello di gomma), buttando via i distacchi e lavorando solo sugli ordinamenti.

    • Concordo con De Nicolao, non serve essere né statistici né matematici per capire la nefandezza compiuta. La trasformazione di variabili continue in ranghi è una pratica assai diffusa in ambito scientifico e ognuno che la applica deve mandatoriamente conoscere le proprietà delle variabili originali e delle trasformate per poter procedere correttamente con le analisi. L’errore è pacchiano, la spiegazione ottima fornita da De Nicolao permette alla maggior parte di noi di comprenderlo e di poter discettarne amabilmente.
      Cordialità.

    • La responsabilità sarà pure di un paio di ingegneri. Ma ricordiamoci che in ANVUR è costituito un “gruppo di studio” di cui non è nota la composizione. E soprattutto non dimentichiamo che i GEV delle aree bibliometriche hanno tutti adottato il metodo delle cravatte. Quindi ci sono circa trecento colleghi matematici, fisici etc. etc. che hanno letto e quindi votato per l’adozione del metodo di valutazione. O forse non hanno letto e hanno adottato il metodo. O forse non hanno né hanno letto né si sono resi conto di cosa stavano adottando. Felici solo di essere stati prescelti tra gli eccellenti valutatori.

    • Per Alberto Baccini. Io ho una informazione diversa, ovvero che le regole sui GEV sono state calate senza votazioni e discussioni e che i GEV potevano solo aggiungere piccole regole per tenere conto delle specificità del settore. Se le cose fossero andate diversamente mi piacerebbe saperlo.

    • Io non ho informazioni al riguardo. Riformulo la mia domanda: perché oltre 300 eccellenti non hanno nulla da dire ed accettano di partecipare ad un gioco in cui si valuterà sulla base delle cravatte? A mio parere il silenzio non è meno grave dell’assenso esplicito.

  8. Complimenti per la trattazione, che da fisico prestato alla (bio)statistica condivido in pieno. Esiste una nefandezza ancora maggiore: io ho l’ingrato compito di selezionare per il mio dipartimento i lavori da “suggerire” ai docenti, e la nostra università ha acquisito Scival, uno strumentino che riporta alcune soglie di percentili (1-5-10-25) per citazioni, citazioni normalizzate, IPP, SJR e SNIP in previsione dei quadrati magici. Costo >30000 euro. Peccato che il sistema adottato rende Scival praticamente inefficace. Inoltre, per completare l’opera, intercette ed in parte le pendenze delle rette per ogni SSD saranno note solo dal 15 gennaio. Morale: devo andare a buon senso o ad intuito, se preferite.
    A che pro tutto questo? Le conclusioni le lascio a voi…

    • Beh nightwish73: è il mercato bellezza. Abbiamo deciso per la concorrenza nella spartizione della torta. Le università si danno daffare: pagano le società di ranking per le consulenze. E pagano consulenti per la scelta dei prodotti VQR. Tutto perfettamente normale.

    • Più si complica la valutazione, più si crea mercato per chi vende prodotti/consulenze bibliometriche. Ancor meglio, se si sconfina nella cabala o nella stregoneria.

  9. Complimenti per l’articolo.
    Mi piacerebbe, però, che non si dimenticasse un altro aspetto critico, oltre a quello citato: da quello che ho capito io, come nella scorsa edizione, al processo di “informed peer review” non corrisponderà l’estensione di un giudizio motivato, ma solo un punteggio.
    Così, se ho capito bene, gli elementi sono due: da una parte un punteggio che viene assegnato sulla base di normalizzazioni nonlineari, dall’altra parte un punteggio che viene assegnato sulla base di giudizi inconoscibili…

  10. La domanda è: io, come professore universitario sono tenuto a conoscere le regole che vengono emanate per giudicare il mio lavoro? Ovvero, fa parte dei miei compiti istituzionali obbligatori sapermi orientare nell’ambito della bibliometria? Inoltre se le regole vengono emesse per giudicare il lavoro pregresso è chiaro che quando producevo i titoli che sarebbero stati valutati, non conoscendo le regole, non avevo modo di ottimizzare il risultato. Entrare nel merito delle regole emanate e criticarne la validità o peggio evidenziare anche palesi errori metodologici non serve a niente, perché porta a ritenere che regole senza errori potrebbero essere accettate. Quello che si deve fare è non accettare la bibliometria a priori!

    • Sull’uso della bibliometria nella valutazione individuale di prodotti e ricercatori abbiamo scritto più volte, richiamando lo stato dell’arte scientifico e le prese di posizione istituzionali a livello internazionale (vedi per esempio https://www.roars.it/online/rischio-e-ricerca/comment-page-1/#comment-25535). Il fatto che ci siano anche errori metodologici dimostra oltre ogni dubbio l’indifendibilità della valutazione “made in Anvur”. Non sembra un argomento inutile, perché mette a nudo le motivazioni non razionali ma ideologiche dei fautori di *questa valutazione*, così sgangherata da poter essere difesa solo per partito preso.

    • Penso che ognuno noi, in quanto valutato, deve avere una idea sia della situazione internazionale sull’uso della bibliometria sia sui problemi tecnici sull’incredibile (davvero incredibile) maniera in cui si usa in Italia: se non si hanno termini di paragone e non ci si capisce quasi nulla e’ difficile farsi una opinione e visto la richeista in termini di tempo che a tutti noi viene fatta penso sia quasi obbligatorio farsi una cultura sull’argomento. Discorso diverso per i GEV i quali si trovano nell’imbarazzante situazione di perdere settimane se non mesi di lavoro a fare una valutazione che e’ tecnicamente indefendibile: a me sembra ci siano parecchie cose piu’ interessanti che impiegare il proprio tempo in questo modo.

  11. In questi anni ho sostenuto ad nauseam su varie riviste la tesi che buona parte delle scienze umane non siano valutabili bibliometricamente poiché le ridotte dimensioni dei settori e il numero scarso delle citazioni ne riduce il significato a mero rumore statistico. Ora vedo con soddisfazione che ANVUR, il cui direttore generale Torrini non teme di affermare in slides ufficiali che sulla VQR sono state dette anche da fonti autorevoli delle “stupidaggini” è riuscita con il sistema delle cravatte e delle somme di percentili a portare i settori delle scienze dure in una situazione analoga a quella dei cugini delle scienze umane. Ironia della sorte.

  12. Ho fatto una scoperta: su wikipedia non c’è percentile in italiano…, ma solo in queste lingue: العربية, Dansk, Deutsch, Español, Euskara, فارسی, Français, Galego, 한국어, עברית, Nederlands, Norsk bokmål, Polski, Português, Русский, Simple English, Svenska, Türkçe, اردو, 中文…

    Però in inglese c’è questo esempio: “Physicians will often use infant and children’s weight and height to assess their growth in comparison to national averages and percentiles which are found in growth charts.”

    E aggiungo io che però per somministrare un antibiotico (tot grammi per chilo) a un bambino non si moltiplica il percentile per i grammi di antibiotico, ma il reale peso corporeo…

    Può andare come esempio per il resto di noi?

    • Si… tipicamente la versione inglese di wikipedia, specie per le informazioni più o meno “tecniche”, è più completa anche se nel caso specifico nella versione italiana non ci sono i percentili ma i più generici quantili in cui si parla anche dei percentili:
      https://it.wikipedia.org/wiki/Quantile

  13. Esplicito ciò che è contenuto nell’indicazione di Fausto Proietti: Andrea Bonaccorsi, La valutazione possibile. Teoria e pratica nel mondo della ricerca, il Mulino, 2015. Sarebbe stato appropriato, di questi tempi, metterlo on-line gratuitamente, previa identificazione del lettore, nel sito Anvur (se per caso ce l’avessero già messo, mi scuso).
    Così c’è soltanto l’indice. Da cui scelgo cap. II 2. Come fissare le opinioni. Peirce e la ragione pragmatica del giudizio.
    Fissatevi sul “fissare le opinioni”. Leggiucchiando il seguente articolo
    “Riflessioni su Ricerca e Verità Derivanti dal Metodo di Peirce per il Fissarsi della Credenza” di David Wiggins (http://www.ge.infn.it/~zanghi/filo/peirceFdC.pdf), in cui si analizzano, aggiornano, riformulano, attenuano ecc. certe affermazioni di Peirce, ho scelto queste due asserzioni dello studioso americano che, al di là delle critiche o delle confutazioni possibili, mi sembrano invece molto attuali per quel che sta succedendo intorno a noi:
    1. “L’opinione che è destinata a essere definitivamente approvata da tutti quelli che indagano è ciò che intendiamo per verità, e l’oggetto rappresentato in questa opinione è il reale” ( 1877)
    2. alla lunga, ogni errore è destinato ad appianarsi.
    In fatto è che la nostra esistenza individuale, e ancor prima quella professionale, finisce molto prima della indefinita e indefinibile “alla lunga”.
    Prometto che mi dedicherò quanto prima anche alla ‘natura ordinale dei percentili’. Per ora so questo: gli attributi sono ordinabili ma la distanza tra attributi non ha alcun significato http://www2.stat.unibo.it/cazzola/didattica/sondaggi/2.2%20Scale%20di%20misura.pdf

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.