Anvur / Argomenti / Valutazione / VQR

VQR: la bibliometria fai-da-te dell’ANVUR (2/2)

Questa è la seconda parte di un articolo in due parti il cui scopo è analizzare alcuni potenziali errori metodologici in cui i GEV (Gruppi di Esperti della Valutazione) potrebbero incorrere nella definizione dei criteri da utilizzare nella valutazione dei prodotti della ricerca nell’ambito dell’esercizio di Valutazione della Qualità della Ricerca 2004-2010 (VQR). Come riportato nel bando del VQR, entro il 31 gennaio 2012, i GEV dovranno definire i criteri a cui si atterranno nella successiva valutazione dei prodotti della ricerca.

Il compito di definire i criteri per ogni Area Disciplinare è assai complesso e decisivo ai fini dello svolgimento del successivo processo di valutazione. La decisione da parte del Consiglio Direttivo dell’ANVUR di affidare ai GEV non solo la i criteri di valutazione dei prodotti, ma anche lo sviluppo di strumenti bibliometrici e la stesura di classifiche di riviste appare del tutto singolare e senza paragoni a livello internazionale. Infatti, non solo i GEV non appaiono qualificati ad affrontare il compito, ma il tempo messo a loro disposizione (meno di due mesi) sarebbe stato del tutto insufficiente anche per dei comitati di esperti ben più agguerriti.

Anche la scelta di fare svolgere i lavori dei GEV in un clima di chiusura rispetto alla comunità scientifica non trova riscontro negli esercizi di valutazione condotti a livello internazionale. In ogni caso, le indiscrezioni trapelate destano preoccupazione, in quanto sembra profilarsi l’adozione di criteri indifendibili sul piano scientifico o addirittura errati, che non trovano alcun riscontro nella letteratura bibliometrica internazionale. In particolare, ci sono tre aspetti che meritano un’attenta riflessione:

a) La non affidabilità delle classifiche di riviste messe a punto da società scientifiche e gruppi disciplinari rispetto al ricorso alle analisi citazionali.

b) L’inconsistenza metodologica di una valutazione a più stadi degli articoli, la quale attribuisce una classe di merito provvisoria in base alla classificazione della rivista per poi correggerla verso l’alto o verso il basso con le citazioni normalizzate in base alle citazioni degli articoli apparsi sulla stessa rivista nello stesso anno. Quando sono disponibili le citazioni dei singoli articoli, il ricorso alle classifiche delle riviste risulta superfluo e persino dannoso.

c) L’erroneità della classifiche delle riviste basate sulla media dei loro ranks relativi a un ventaglio di indicatori bibliometrici. La classificazione basata sulla media aritmetica dei ranks è un noto errore, ampiamente stigmatizzato da decenni di letteratura scientifica.

Lo scopo dei nostri due articoli è presentare l’evidenza scientifica che rende improponibili queste tre scelte di metodo, nella speranza che i GEV ne tengano conto ed evitino di compromettere l’affidabilità dell’esercizio di valutazione tramite il ricorso a criteri ed algoritmi privi di validità scientifica.

Per la discussione dei punti a) e b) si rimanda all’articolo di Alberto Baccini. Questo secondo articolo, formulato sotto forma di breve racconto, tratta il punto c), spiegando in modo accessibile perchè la media dei ranks da decenni non trova spazio nel trattamento scientifico dei dati.

La classifica di Nonna Papera

ovvero

Perchè non si possono usare le medie dei ranks per classificare le riviste


1. La genesi del “Gedeon Score”

Il mitico Manuale di Nonna Papera la cui autrice è membro del Consiglio Direttivo dell’ANVUR

Il prof. Gedeone P. rientrò nel suo ufficio e richiuse la porta quasi sbattendola. Non sopportava essere contraddetto e, ancor peggio, fare la figura dell’incompetente. Il presidente del Nucleo di Valutazione, Paolo L., aveva la mania di spaccare il capello in quattro. Quando Gedeone aveva preso la parola dicendo che il primo passo per la valutazione dei prodotti della ricerca era classificare le riviste di ogni settore in 3 o 4 livellli di qualità, Paolo L. aveva replicato citando la vicenda della valutazione australiana, il cosiddetto ERA (Excellence of Research in Australia). L’ERA 2010 aveva appunto fatto uso di una classificazione delle riviste, suscitando però infinite dispute e controversie nella comunità accademica. Nel maggio 2011, lo stesso Ministro Carr, davanti ad una commissione del Senato Australiano, non solo aveva dichiarato che la prossima edizione dell’ERA avrebbe rinunciato alla classificazione, ma aveva dovuto ammettere:

There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes

Nelle orecchie di Gedeone risuonava ancora fastidiosamente la voce del collega che declamava l’epitaffio della classificazione australiana, ufficialmente sconfessata ed abbandonata. Intanto, un suono attirò il suo sguardo su un nuovo messaggio, inviato proprio da Paolo. Il collega, per infierire, gli mandava un articolo, scritto da due australiani, che riassumeva tutte le ragioni che sconsigliavano il ricorso alla classificazione delle riviste nella valutazione delle strutture di ricerca ed anche il link ad un articolo in italiano apparso su un blog dal nome strano, “Roars”. Si innervosì ancora di più. Era convinto che tutte quelle obiezioni tecniche non fossero altro che pretesti. Quando si tratta di dare i voti e premiare chi eccelle, c’è sempre qualcuno che rema contro.

Eppure non poteva essere così complicato. Si rincuorò subito: avrebbe mostrato ai colleghi che era facile costruire una classificazione oggettiva. Andò sulla pagina del Journal Citation Report dell’ISI Web of Knowledge. Per ogni rivista, erano elencati diversi indicatori bibliometrici, alcuni noti, altri più misteriosi. Quelli candidabili per stilare una classifica delle riviste erano:

Scegliendone uno, era immediato ottenere la classifica con un colpo di mouse. La scelta più semplice sarebbe stata prendere uno dei due Impact Factors, ma rinunciò subito, ricordandosi che sulla mailing list di facoltà era già circolato quell’articolo allarmista sulla “Top ten in journal impact factor manipulation”. Inoltre, la settimana prima, un collega informatico gli aveva raccontato che le manipolazioni dell’Impact Factor erano talmente notorie che le tecniche per il loro riconoscimento automatico erano oggetto di articoli di ricerca. Gedeone non si sentiva abbastanza preparato per difendere la scelta di uno degli altri due indici.

Ebbe un’idea che gli parve il classico “uovo di Colombo”: indubbiamente, tutti e quattro gli indicatori sono affetti da qualche errore – nessuno è perfetto – ma la loro media aritmetica compenserà gli errori tra di loro, fornendo un compromesso accettabile da tutti. All’improvviso entusiasmo seguì un’altrettanto rapida disillusione: sarebbe stato come sommare le mele con le pere. Non era possibile mediare numeri del tutto eterogenei, anche come ordine di grandezza.

Doveva esserci una soluzione semplice. Ebbe una seconda illuminazione: per avere grandezze omogenee, avrebbe costruito quattro classifiche, una per indicatore, e attribuito ad ogni rivista quattro punteggi, coincidenti con la posizione nelle diverse classifiche. Per esempio, il JEE (Journal of Excellent Engineering) nella sua categoria ISI otteneva i seguenti piazzamenti:

  • 1° – Impact Factor
  • 3° – 5-Year Impact Factor
  • 6° – Eigenfactor Score
  • 10° – Article Influence

Per attribuire un voto oggettivo al JEE bastava un ultimo passaggio: calcolare la media aritmetica delle quattro posizioni in classifica. Ecco fatto: con orgoglio digitò

“Gedeon Score” of JEE = (1 + 3 +6 +10)/4 = 5

Quanto più basso il punteggio tanto migliore la rivista: se una rivista fosse stata in prima posizione in tutte e quattro le classifiche, avrebbe avuto uno score pari a (1+1+1+1)/4 = 1, il minimo possibile. Confrontando il “Gedeon Score” delle riviste, sarebbe stato immediato costruire una classifica delle riviste per una qualsiasi categoria disciplinare. A quel punto, la strada era in discesa: il primo quartile (vale a dire il 25% delle riviste con lo score più basso) avrebbe identificato le riviste di livello A, il secondo quartile quelle di livello B e così via.

Era fiero di se stesso, ma c’era ancora un piccolo problema. Per alcune riviste, non erano disponibili tutti e quattro gli indicatori. Sorrise con sufficienza: se c’erano solo due indicatori avrebbe calcolato la media di due indicatori, invece di quattro. Finalmente una procedura semplice, chiara, basata su dati oggettivi.

Preparò in fretta e furia un documento che spiegava il calcolo del Gedeon Score e stava per spedirlo alla mailing list di facoltà quando si accorse di un errore di formattazione. Assorbito dal problema, non si era accorto che si era fatto tardi e per di più era anche venerdì. Meglio andare a casa. Avrebbe terminato il lavoro lunedì mattina.

2. Il manuale di Nonna Papera

Tex e Kit Carson sotto la minaccia del temibile Mefisto.

Nel weekend lo attendeva un compito ingrato, a lungo rimandato, ma non più procrastinabile. Aveva promesso alla moglie di fare ordine in cantina, facendo sparire un po’ di ciarpame ed anche un paio di scatoloni di libri e fumetti risalenti alla sua adolescenza. Prima di buttare via tutto, volle aprire e vedere cosa c’era dentro. Sfogliò con nostalgia alcuni numeri di Tex che emanavano un tipico odore di cantina. Mentre passava da un “satanasso” pronunciato da Kit Carson ad un intrigo di Mefisto, notò un intruso in mezzo a Tex, Zagor e Alan Ford: un Manuale di Nonna Papera che non ricordava di aver mai posseduto.   Incuriosito, sfogliò alcune pagine. In mezzo alle ricette di cucina, trovò una storiella che attirò la sua attenzione. Si intitolava “La classifica della nonna” ed era una specie di esercizio aritmetico.

 

Nonna Papera organizza una festa per Qui, Quo, Qua ed anche per Gilberto (il nipote di Pippo, noto studente prodigio) e per Pennino, un personaggio meno noto, nipote di Paperoga. La nonna vuole approfittare dell’occasione per premiare con caramelle e cioccolatini i due ragazzi che sono più bravi a scuola e nello sport. Per questo scopo, la nonna trascrive, per tutti e cinque i ragazzi, i voti in Matematica, in Inglese ed anche il numero di canestri che hanno messo a segno nel torneo di basket scolastico (vedi Tabella 1). Gilberto è bravissimo a scuola – ha ben due “10” –  ma un po’ meno nel basket. Non potendo sommare voti scolastici e canestri, il manuale di Nonna Papera consiglia di costruire tre classifiche distinte e poi attribuire ad ogni ragazzo un voto uguale alla media delle sue posizioni nelle tre classifiche di Matematica, Inglese e canestri. Al lettore è chiesto di ricavare la soluzione. I “pari merito” sono trattati nel modo più logico: se nella classifica dei canestri, Qui e Quo sono primi alla pari, si spartiscono i primi due “ranks”: (1+2)/2 = 1,5 punti a testa.

Tabella 1. Nonna Papera deve assegnare due premi. A sorpresa, Qui e Quo sono i vincitori e Gilberto solo terzo. Il paradosso è dovuto all’uso della media dei ranks come criterio di valutazione.

Gedeone sorrise riconoscendo nel metodo proposto il suo “Gedeon Score”. Fece rapidamente i conti a mente, scoprendo che Gilberto, a dispetto dei suoi “10” in pagella, sarebbe finito in terza posizione (Gedeon Score = 2,33), lasciando caramelle e cioccolatini a Qui e Quo, che arrivavano primi e secondi a pari merito (Gedeon Score = 2,17). Un risultato paradossale e ingiusto nei confronti di Gilberto, se si considera che nessun altro otteneva voti scolastici superiori al “7”. Durante il resto del weekend, Gedeone continuò a rimuginare, cercando di capire quale fosse il punto debole del “Gedeon Score”. Non venendo a capo di nulla, domenica sera si decise: l’indomani, avrebbe chiesto un parere a Peppe, il massimo esperto di analisi dati di tutta la facoltà.

3. Prima lo boccio e poi lo inseguo con il forcone

La Ruritania è famosa come teatro delle vicende avventurose del “Prigioniero di Zenda”.

Posso chiederti un parere tecnico?” “Ma certo”, rispose Peppe mentre invitava Gedeone ad entrare e accomodarsi sulla sedia dal rivestimento logoro e persino strappato in un angolo. Per prevenire una possibile brutta figura, Gedeone raccontò che un collega della Ruritania gli aveva esposto un metodo semplice per classificare le riviste scientifiche. Il collega straniero intendeva proporre questo nuovo metodo all’ANVUR, l’Agenzia Nazionale di Valutazione del sistema Universitario della Ruritania, il cui acronimo, per pura coincidenza, è uguale a quello dell’agenzia italiana. Mentre ascoltava i dettagli del “Gedeon Score”, Peppe cominciò ad agitarsi sulla sedia. Alla fine esplose indignato:

Certo che il tuo collega ne capisce proprio poco di analisi dei dati!” (a dire il vero, l’espressione fu più colorita). “Non ha senso sommare o mediare le posizioni in classifica, i cosiddetti ranks, come pure non ha senso sommare o mediare i percentile ranks (le posizioni mormalizzate sulla scala 1-100). Il motivo è semplice: tra una posizione e la successiva può esserci un distacco enorme (e Gedeone pensò ai “10” di Gilberto confrontati ai “7” e “6” di Qui e Quo) oppure piccolissimo. Fare le medie dei ranks è un po’ come sommare le mele con le pere. Fornisce risultati arbitrari. Se lo vedo fare da un mio studente, prima lo boccio e poi lo inseguo con il forcone.

Gedeone si affrettò a dire che anche lui aveva subito sospettato che il criterio fosse sbagliato. Anzi, si domandava se non ci fosse qualche riferimento bibliografico da spedire al collega straniero. Peppe partì in quarta:

In generale, è difficile trovare lavori scientifici che discutono gli errori. Nessuna rivista accetterebbe di pubblicare un lavoro che spiega perché uno svarione è uno svarione. Chi conosce la materia, lo sa già. Punto. Al massimo, qualche libro di testo mette in guardia gli studenti dagli errori più comuni. Questa volta, però, sei fortunato perchè proprio questo svarione ha avuto un ruolo nel dibattito sugli high-stakes tests negli USA.

L’esame per la patente o i test di ammissione all’università sono esempi di “high-stakes tests”.

Gli high-stakes tests sono quelle prove di esame il cui risultato ha un importanza rilevante per chi lo sostiene. Può trattarsi dell’esame per la patente o del test di ammissione all’università. Proprio nel secondo caso, si era diffusa l’abitudine di ottenere il punteggio finale del candidato calcolando la media dei suoi percentile ranks nei test parziali, per esempio di Matematica e Inglese. Agli statistici era evidente che si trattava di una procedura errata, ma non si riusciva a sradicarne l’uso.

“Per tale motivo” spiegò Peppe “nel 1993, uno statistico, Bruce Thompson, pubblicò un “position paper” con lo scopo di chiarire la questione una volta per tutte. Ecco, dovrei averlo nel mio hard disk. Adesso ti spedisco il pdf via e-mail. Non spaventarti per la qualità tipografica:  è un dattiloscritto, ma la qualità tecnica è ineccepibile. Non so se vorrai girarlo al tuo collega, potrebbe rimanerci male. Infatti, Thompson ci va giù duro contro chi sostiene questi metodi.

Mentre diceva queste cose, Peppe aprì il pdf e andò a pagina 27, leggendo ad alta voce:

The only reason for using percentile ranks is ignorance, and it is questionable whether a defense of ignorance will be viable.

“Se in Ruritania adotteranno questo metodo, verranno strapazzati per anni da tutta la letteratura bibliometrica, che citerà la loro classificazione come un tipico esempio delle cose da non fare. Senza offesa per il tuo amico ruritano, a noi due, dopo aver ascoltato le spiegazioni di Paolo, una stupidata simile non sarebbe neppure passata per l’anticamera del cervello. Quando conosci il numero di citazioni di un articolo, che bisogno hai di passare attraverso la classificazione delle riviste? Per trovare la fascia di merito dell’articolo (primo quartile, secondo quartile, eccetera), basta confrontare le citazioni con la distribuzione delle citazioni in quella categoria disciplinare, un metodo molto più semplice e rigoroso.”

4. Non tutti i numeri si possono sommare

Gedeone se ne tornò in ufficio con la coda tra le gambe. Stampò l’articolo di B. Thompson. Il lungo titolo non lasciava adito a dubbi:

GRE [Graduate Record Examination] percentile ranks cannot be added or averaged: a position paper exploring the scaling characteristics of percentile ranks, and the ethical and legal culpabilities created by adding percentile ranks in making “High-Stakes” admission decisions

Il punto fondamentale dell’articolo era che i numeri si possono sommare solo quando corrispondono a misure prese con una scala graduata ad intervalli costanti. Quando i numeri indicano la posizione in una scala ordinale (primo, secondo, terzo, …), le distanze tra una posizione e la successiva potrebbero non essere costanti e l’addizione, anche se possibile sul piano formale, è un’operazione priva di senso. Gedeone non fu particolarmente rincuorato dall’apprendere che poteva invocare qualche attenuante alla sua cantonata:

It seems counterintuitive to many persons, even to some educated people with terminal degrees serving on faculty at world-class universities, that some numbers simply cannot be added … Most of us have paradigms about numbers that were unconsciously formulated, typically in the primary grades of elementary school. When we are given several numerals, we are used to presuming that we can add them up. Few of us were ever admonished that we can only add numbers when the numerals represent data derived using an equal interval measurement ruler. In fact, few of us consciously recognize that addition itself does presume equal-interval measurement.

Una delle famose ricette di Nonna Papera: la “focaccia del paleolitico”.

Nell’appendice dell’articolo, Bruce Thompson aveva persino raccolto una raffica di citazioni scientifiche contrarie all’uso della somma dei ranks. Insomma, il “Gedeon Score” era null’altro che la riproposizione di uno svarione senza appello, già stigmatizzato dagli esperti. Gedeone trascinò nel cestino il file che stava per mandare alla mailing list di facoltà e vuotò il cestino. Meglio pensare ad altro. La moglie, per festeggiare il ritrovamento del suo amato Manuale di Nonna Papera, per cena avrebbe preparato la squisita focaccia del paleolitico.

Avvertenza. Il Prof. Gedeone P. e i suoi colleghi sono personaggi di fantasia come pure di fantasia è il Journal of Excellent Engineering. Il Manuale di Nonna Papera, la cui autrice siede nel Consiglio Direttivo dell’ANVUR, spiega come cucinare la focaccia del paleolitico, ma non contiene la “La classifica della nonna”. Infine, non è l’ANVUR della Ruritania, nazione che esiste solo nei romanzi e nei film, ma è l’ANVUR italiana che potrebbe adottare il “Gedeon Score” per l’esercizio di Valutazione della Qualità della Ricerca 2004-2010. Tutte le altre informazioni riportate nell’articolo sono fedeli alla realtà.

Scarica qui l’articolo di B. Thompson che spiega le ragioni per cui ranks e percentile ranks non possono essere sommati e mediati.

Vai alla prima parte:

Misurare nani e giganti


Send to Kindle
Tag: , , , ,

13 Comments

  1. Ma almeno costruire degli indicatori normalizzati (e.g. a 100)per ciascuna categoria e sommare (o pesare) quelli, come fa anche il più stupidocrate dei ranking unversitari in circolazione, non sono capaci?

  2. ccarminat says:

    Questo articolo mi lascia un po’ perplesso, cerco di spiegare perché.

    1) la discussione sui metodi di ranking mi sembra simile a quella sui sistemi di voto; magari un sistema perfettamente consistente nemmeno esiste (questo nel caso dei sistemi di voto democratico è un teorema-http://it.wikipedia.org/wiki/Teorema_dell%27impossibilit%C3%A0_di_Arrow ).

    2) La scelta è quindi tra diversi metodi di valutazione, con i loro pregi e difetti: bisogna trovare un ragionevole comromesso tra la precisione e la fattibilità. Serve a poco mostrare esempi che un dato metodo ottiene risultati fallaci in casi particolari, bisogna piuttosto mettere due (o più) metodi a confronto, testandoli su casi *realistici*.

    3) Gli esempi riportati nell’articolo sono appunto poco realistici: nel caso del VQR la valutazione di ciascuna struttura è il risultato di una qualche media di numerose ‘performance’ individuali, ed anche il numero di strutture coinvolte è abbastanza alto.

    4) Per evitare che qualcuno tiri fuori le solite ‘soluzioni’ demenziali (tipo la giavazzata dei commissari scelti tramite elezione-sorteggio) sarebbe utile restringere la scelta esaminando tre o quattro sistemi in uso in altri paesi avanzati, scegliendo quello che meglio s’adatta alla nostra realtà.

    5) A mio avviso la bontà di un metodo di valutazione non dipende solo dalla consistenza dei risultati, ma anche dagli effetti che induce. Nel nostro dipartimento abbiamo un criterio di suddivisione dei fondi di ricerca molto grossolano (non entro nei dettagli, anche per evitare che qualcuno venga a darci la caccia col forcone 🙂 il quale tuttavia è comunque utile per indurre comportamenti virtuosi. E una volta che è chiaro il metodo, ciascuno si regola di conseguenza.

    Infine una domanda: qualcuno ha dei dati riguardo alla distribuzione di questi indici su un qualche campione reale? Si tratta di distribuzioni gaussiane (o almeno unimodali)?

    • Giuseppe De Nicolao says:

      Il ciclismo illustra bene perché la media dei ranks è problematica. Nel Giro d’Italia, un ciclista che arrivasse ultimo in una tappa in cui si taglia il traguardo in gruppo vedrebbe vanificata la sua vittoria con distacco nel tappone dolomitico. Se esistono metodi concettualmente corretti, perché adottarne uno che ha delle falle concettuali? Thompson non dice di rinunciare a selezionare gli studenti, ma che si può fare senza usare la media dei percentile rankings. Esaminare sistemi già in uso altrove sarebbe già un progresso. In effetti, a quanto mi risulta, in nessun paese avanzato, si adotta la media dei ranks per classificare le riviste.

    • ccarminat says:

      Fin qui siamo d’accordo.

      Quel che volevo dire io e’ questo: se questi rankings vengono usati per valutare la performace complessiva di una struttura, il bug metodologico (che c’e’ – ovviamente) non e’ comunque in grado di mandare tutto in malora.

      Per rimanere al caso del ciclismo, se invece della classifica individuale consideri quella a squadre, gli errori finiranno per compensarsi (certo: la compensazione si avrebbe anche usando un solo indice).

      Comunque a mio avviso il punto fondamentale e’ il seguente: visto che -probabilmente- qualunque metodo di ranking presentera’ delle magagne o inconsistenze, non sarebbe meglio volgere la questione in positivo, e cercare di capire quali metodologie potrebbero risultare applicabili nel caso in questione?

  3. fratealberto says:

    Ovviamente percentili sono una forma di espressione di funzioni di distribuzione, e come tali andrebbero trattate. La funzione (aspettazione della) somma sarebbe quasi sicuramente multivariata, e poco si addice a rappresentare tramite percentile stesso la qualita’ complessiva.

    Ma non vedo perche’ le stesse non potrebbero essere utilizzate per calcolare un indice di qualita’ stabilizzato utilizzando strumenti di probabilita’ congiunta e/o condizionata a seconda della indipendenza delle variabili.

    Alternativamente potremo supporre le classifiche come osservazioni di un processo latente (la qualita) affette da rumore e suggerire un bel filtro di Kalman… ma vallo a raccontare a nonna papera 😀

  4. L’articolo è spassoso.

    Con il permesso dell’autore lo userò per spiegare agli studenti perché le scale ordinali non ammettono la somma e la media…

    http://en.wikipedia.org/wiki/Level_of_measurement

  5. Francesco says:

    Visto che sono rimasto coinvolto per la mia disciplina in un esercizio ci classificazione delle riviste vorrei essere sicuro di non essere incorso negli errori di Nonna Papera.
    Innanzitutto la mia disciplina si compone principalmente di tre campi sottodisciplinari , pertanto ho considerato separatamente le riviste a seconda del sottocampo disciplinare di appartenenza. Ho considerato due misure da ISI Knowledge, due misure dal repertorio Scopus e due misure da Publish and Perish (H e Hc index). Ho preso per ciascun sottocampo disciplinare la rivista con il punteggio più alto per ciascuna misura e ho diviso il punteggio di ciascuna rivista per tale punteggio. In tal modo ho sostanzialmente standardizzato i punteggi di ciascuna misura in modo che la migliore rivista per quella misura avesse valore pari a 1 e quelle in fondo al ranking si avvicinassero a zero.
    Ogni rivista della quale fosse disponibile un punteggio per ciascuna misura aveva pertanto 6 nuovi indici standardizzati il cui valore al massimo poteva essere 1. Infine ho fatto per ciascuna rivista la media fra l’indice con il valore più alto e l’indice con il valore più basso.
    Applicato al vostro esempio di Nonna Papera questo sistema funziona in modo parecchio ragionevole..

  6. Giuseppe De Nicolao says:

    Un po’ meglio di Nonna Papera, ma non basta. Se in uno dei sei indicatori c’è una rivista che ha uno score 10 volte più grande del secondo in classifica, dopo la normalizzazione i valori di quell’indicatore risultano schiacciati verso il basso per tutte le altre riviste. Nel momento in cui si mediano indicatori eterogenei, è necessario attribuire un peso relativo in base alla loro importanza o alla loro affidabilità. Inoltre, gli indicatori potrebbero essere correlati tra di loro. Se faccio la media di 6 indicatori di cui ve ne sono 5 fortemente correlati, è come se venisse dato un peso enorme a ciò che viene misurato dai 5 indicatori correlati e poco peso al sesto indicatore. Prima di proporre formule, bisogna capire cosa misurano gli indicatori, quali sono più importanti e quali sono ridondanti.

    Non sembra esistere un modo “oggettivo” di mescolare diversi indicatori bibliometrici per costruire velocemente un rank. Come spiegato da Alberto Baccini nel suo articolo “Misurare nani e giganti” (https://www.roars.it/online/?p=3683), non è nemmeno detto che sia necessario passare attraverso la classificazione delle riviste che, per molti versi, è una “mission impossible”. A tal proposito, la già citata esperienza australiana ha molto da insegnare(http://20.132.48.254/ERICWebPortal/contentdelivery/servlet/ERICServlet?accno=EJ926450).

    La soluzione semplice sarebbe classificare in base ad un unico indicatore, come l’IF. Ma se l’impatto sulla comunità scientifica è considerato un criterio importante, diventa più diretto misurare le citazioni dell’articolo specifico, alla luce non solo della manipolabilità dell’IF (http://www.springerlink.com/content/j6524480v8g00884/), ma anche della scarsa correlazione tra numero di citazioni ottenute da un articolo e l’Impact Factor della rivista in cui viene pubblicato (http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2126010/pdf/9056804.pdf). Non risulta che la situazione sia diversa per altri indicatori bibliometrici.

    La classificazione delle riviste tende a rispecchiare la convinzione che alcune riviste siano più valide di altre e che pubblicare in quelle sedi sia un merito a prescindere dall’impatto che avrà l’articolo. Purtroppo, è stato mostrato che in molti casi il giudizio sulla validità risente degli interessi scientifici di chi lo formula (http://foba.lakeheadu.ca/serenko/papers/JOI_AI_Journal_Ranking_Serenko.pdf). Ne deriva il pericolo che l’esercizio di classificare le riviste, sopratttutto se comporta molte classi di merito, si risolva in una lotta di potere tra gruppi scientifici. Come scritto più volte, in Australia questo approccio è stato ufficialmente archiviato, venendo giudicato persino potenzialmente dannoso (http://minister.innovation.gov.au/carr/mediareleases/pages/improvementstoexcellenceinresearchforaustralia.aspx).

    Molte difficoltà sembrano nascere dalla confusione tra qualità di un articolo scientifico e il suo impatto sulla comunità scientifica. A tale proposito, suggerisco caldamente la lettura di un ottimo articolo di Alberto Baccini: “Una valanga di numeri” https://www.roars.it/online/?p=632.

    Insomma, sono problemi spinosi, che non si risolvono con formule semplici e tanto meno delegando il compito ad un gruppo di professori scientificamente brillanti, ma per lo più digiuni di bibliometria e con poche settimane a disposizione.

  7. Pingback: Università: che fretta c’è? | Francesco Sylos Labini | Il Fatto Quotidiano

  8. Pingback: Indici bibliometrici citazionali « Marco Torchiano

  9. Pingback: Università, al sondaggio vota anche Napoleone | Alessandro Ferretti | Il Fatto Quotidiano

  10. Pingback: VQR: AnvurLeaks, il complotto australiano, la maledizione di Atuk e le classifiche di Pinocchio

Leave a Reply

Sostieni ROARS

Sostieni ROARS