Scarica il pdf dell’articolo doppio qui
Questa è la prima parte di un articolo in due parti il cui scopo è analizzare alcuni potenziali errori metodologici in cui i GEV (Gruppi di Esperti della Valutazione) potrebbero incorrere nella definizione dei criteri da utilizzare nella valutazione dei prodotti della ricerca nell’ambito dell’esercizio di Valutazione della Qualità della Ricerca 2004-2010 (VQR). Questo primo articolo riprende il tema dell’uso delle classifiche delle riviste e spiega l’inconsistenza della valutazione a due stadi.
Come riportato nel bando del VQR, entro il 31 gennaio 2012, i GEV dovranno definire i criteri a cui si atterranno nella successiva valutazione dei prodotti della ricerca. Il compito di definire i criteri per ogni Area Disciplinare è assai complesso e decisivo ai fini dello svolgimento del successivo processo di valutazione. La decisione da parte del Consiglio Direttivo dell’ANVUR di affidare ai GEV non solo i criteri di valutazione dei prodotti, ma anche lo sviluppo di strumenti bibliometrici e la stesura di classifiche di riviste appare del tutto singolare e senza paragoni a livello internazionale. Infatti, non solo i GEV non appaiono qualificati ad affrontare il compito, ma il tempo messo a loro disposizione (meno di due mesi) sarebbe stato del tutto insufficiente anche per dei comitati di esperti ben più agguerriti.
Anche la scelta di fare svolgere i lavori dei GEV in un clima di chiusura rispetto alla comunità scientifica non trova riscontro negli esercizi di valutazione condotti a livello internazionale. In ogni caso, le indiscrezioni trapelate destano preoccupazione, in quanto sembra profilarsi l’adozione di criteri indifendibili sul piano scientifico o addirittura errati, che non trovano alcun riscontro nella letteratura bibliometrica internazionale. In particolare, ci sono tre aspetti che meritano un’attenta riflessione:
a) La non affidabilità delle classifiche di riviste messe a punto da società scientifiche e gruppi disciplinari rispetto al ricorso alle analisi citazionali.
b) L’inconsistenza metodologica di una valutazione a più stadi degli articoli, la quale attribuisce una classe di merito provvisoria in base alla classificazione della rivista per poi correggerla verso l’alto o verso il basso con le citazioni normalizzate in base alle citazioni degli articoli apparsi sulla stessa rivista nello stesso anno. Quando sono disponibili le citazioni dei singoli articoli, il ricorso alle classifiche delle riviste risulta superfluo e persino dannoso.
c) L’erroneità delle classifiche delle riviste basate sulla media dei loro ranks relativi a un ventaglio di indicatori bibliometrici. La classificazione basata sulla media aritmetica dei ranks è un noto errore, ampiamente stigmatizzato da decenni di letteratura scientifica.
Lo scopo dei nostri due articoli è presentare l’evidenza scientifica che rende improponibili queste tre scelte di metodo, nella speranza che i GEV ne tengano conto ed evitino di compromettere l’affidabilità dell’esercizio di valutazione tramite il ricorso a criteri ed algoritmi privi di validità scientifica.
Per la discussione del punto c) si rimanda all’articolo di Giuseppe De Nicolao. Questo primo articolo riprende il tema dell’uso delle classifiche delle riviste e spiega l’inconsistenza della valutazione a due stadi.
Misurare nani e giganti
Il disegno del VQR italiano pone problemi inediti in riferimento alle procedure di valutazione adottate a livello internazionale. Come nel RAE/REF britannico, e nel precedente esercizio di valutazione italiano (CIVR), l’unità elementare su cui viene esercitata la valutazione è il singolo prodotto di ricerca (articolo su rivista, capitolo di libro, libro etc.); come nel RAE/REF e nel precedente CIVR si prevede che ogni prodotto di ricerca venga attribuito ad una classe di merito. Nel REF britannico è previsto l’uso esclusivo della peer review per l’attribuzione dei prodotti nelle classi di merito.[1] Ciò che differenzia il VQR dalle altre esperienze è che l’attribuzione alla classe di merito può avvenire in tre diversi modi:
- peer review del prodotto di ricerca;
- uso automatico di qualche indicatore bibliometrico;
- un mix tra peer review e bibliometria.
Sui pericoli connessi all’uso della peer review nella comunità accademica italiana e sui possibili rimedi siamo già intervenuti, indicando i rimedi possibili per ridurre le distorsioni. Qui vogliamo puntare l’attenzione sui problemi che potrebbero derivare dalla costruzione di algoritmi per l’attribuzione automatica dei prodotti alle classi di merito basandosi su dati bibliometrici.
Per rappresentare il problema può essere utile ricorrere ad una analogia. Ci sono quattro gruppi di individui caratterizzati da statura media diversa, per esempio maschietti di quattro classi consecutive di scuola primaria (prima-quarta); è nota la statura media dei bambini per fascia di età; siccome in ogni classe ci sono bambini di una sola fascia di età, la statura media per ogni fascia di età è un riferimento accettabile. Problema: misurare la statura di ogni bambino di ogni classe.
Strategia 1: si misura l’altezza di ogni bambino. Si può così calcolare il rapporto tra l’altezza di ogni bambino e quella media dei bambini della stessa età; e per ogni classe si può calcolare l’altezza media e lo scarto rispetto alla media di riferimento.
Strategia 2: ad ogni bambino di ogni classe viene attribuita la statura media dei bambini della fascia di età di appartenenza.
Strategia 3: E’ una strategia a due stadi. Nel primo si attribuisce ad ogni bambino la statura media della fascia di età di appartenenza. Nel secondo si adottano alcune “correzioni”: si misura anzitutto il bambino; se la sua statura è superiore alla statura media dei bambini di un anno più grandi, la sua altezza è quella media della classe superiore. Se la sua altezza è inferiore all’altezza del suo vicino di banco, allora la sua altezza è quella media dei bambini della classe inferiore. [La regola non prevede cosa accade se le due condizioni si verificano contemporaneamente, cioè se è più alto della media dei bambini più grandi, ma più piccolo del gigante suo vicino di banco].
Ci sono pochi dubbi che la Strategia 1 sia la più corretta per misurare la statura dei bambini.
La strategia 2 è approssimativa; per ogni bambino non dà informazioni affidabili, ma si può sperare che in media non distorca troppo. Ha l’indubbio vantaggio di evitare le procedure di misurazione di ogni singolo bambino. Quindi potrebbe essere adottata quando non sia possibile misurare ogni bambino o quando si voglia risparmiare sui costi di misurazione.
La strategia 3 introduce ulteriori distorsioni rispetto alla strategia 2, e soprattutto richiede comunque di misurare ogni bambino. Tra le tre è sicuramente quella che si allontana di più dal senso comune, quella meno efficiente e più costosa. Essa stabilisce che anche di fronte all’evidenza empirica, il gigante della classe dei più piccoli non può essere più alto della media dei bambini che hanno un anno di più. Stabilisce inoltre che l’altezza di ogni bambino dipende dall’altezza del vicino di banco. Per cui chi ha la sfortuna di avere come vicino di banco un bambino particolarmente alto, deve essere accorciato. I danni prodotti nella misurazione dalla strategia 3 sono ridotti se, come avviene per le stature, la distribuzione statistica è gaussiana ed i giganti, così come i nani, sono molto rari. Se i giganti ed i nani fossero molto diffusi nella popolazione, le situazioni paradossali si moltiplicherebbero.
Ma che c’entra tutto questo con il VQR?
Misurare l’altezza di gruppi di bambini non è poi così diverso dal misurare l’ìmpatto di un prodotto scientifico. L’ANVUR per classificare i prodotti di ricerca potrebbe decidere di ricorrere alla
Strategia 2: ogni articolo viene assegnato alla classe di merito della rivista in cui è pubblicato.
Questa strategia è semplice e poco costosa. Ha l’indubbio vantaggio di poter essere usata anche quando non si abbiano informazioni relative all’impatto specifico del singolo prodotto di ricerca, ma solo sulla qualità o “rilevanza” o utilità della rivista. Concediamo che l’ANVUR, nel caso decida di utilizzare le classifiche delle riviste, lo faccia a ragion veduta, abbia cioè ben valutato che valga la pena incorrere nei ben documentati effetti dell’adozione di queste procedure sui comportamenti della comunità scientifica (modifica dei temi di ricerca, modifica delle strategia di pubblicazione, penalizzazione delle ricerche interdisciplinari, curiosity driven, di nicchia, di interesse nazionale etc.).
Il problema diventa così eminentemente tecnico: chi stila le classifiche delle riviste e con quali tecniche. I modi per costruire le classifiche sono essenzialmente due: si ricorre a strumenti bibliometrici, o a consultazioni di esperti.[2]
Il ricorso a classifiche bibliometriche delle riviste, come quelle contenute nel Journal Citation Reports o SCIMAGO, è una pratica diffusa nell’accademia anche se pressoché inedita in un esercizio nazionale di valutazione. Già si è detto dell’abbandono di questa pratica in Australia. Può essere utile ricordare che nel prossimo REF britannico molti panel “will make use of citation data, where it is available, as an indicator of the academic impact of the outputs, to inform its assessment of output quality” (PANEL A: medicina e biologia), ma che nessun panel userà classifiche di riviste per la valutazione dei singoli prodotti di ricerca. Alcuni panel hanno addirittura reso noto che non intendono ricevere alcuna informazione bibliometrica riguardante le riviste dall’Agenzia.[3] In effetti non ha molto senso usare classifiche bibliometriche per classificare gli articoli, perché quando quelle sono disponibili, sono disponibili anche dati migliori (citazioni dei singoli articoli), e quindi non si capisce quale sia il vantaggio di usarle.
L’uso di classifiche delle riviste stilate attraverso consultazione di esperti diventa più interessante quando non esistono altre e migliori informazioni bibliometriche (e si ritenga di poter procedere con una elevata approssimazione). Per esempio, in Francia il panel di valutazione delle discipline economiche utilizza la classifica delle riviste messa a punto dal CNRS. La procedura è del tutto ragionevole: molti ricercatori delle aree economiche scrivono su riviste che non sono coperte nei database internazionali. Non ci sono quindi informazioni sull’impatto dei loro lavori. Una lista di riviste economiche giudicate di qualità dalla comunità scientifica permette di attribuire il bollino di qualità agli articoli che vi sono pubblicati. Sono ormai molti anni che viene svolta una consultazione pubblica, descritta qui, che ha prodotto diverse versioni della classifica.
In Italia, ROARS lo ha già discusso, non esiste una lista delle “riviste scientifiche”, simile a quelle usate per esempio dalle agenzie di valutazione di Australia, Francia e Norvegia, e che possa essere utilizzata dall’ANVUR per distinguere il lavoro scientifico da quello non scientifico. Le uniche liste di riviste sono quelle messe a punto dalle società disciplinari per alcune aree delle scienze umane e sociali, con i problemi di affidablità che abbiamo già discusso qui. Allo stato attuale non sembra quindi che la procedura sia applicabile facilmente.
Vogliamo sperare che i GEV non siano chiamati a stilare classifiche delle riviste. Si tratterebbe di una procedura inedita, almeno a conoscenza di chi scrive, nelle procedure di valutazione internazionali. Inoltre i GEV dovrebbero fare in un paio di mesi quello che altrove ha richiesto anni di lavoro a gruppi ben più numerosi (le liste australiane per esempio hanno richiesto due anni di lavoro). Si porrebbe inoltre un problema di credibilità dei risultati finali.
Un recente paper di Serenko e Dohan passa in rassegna 23 lavori dedicati al tema della consistenza tra classifiche stilate da esperti e classifiche bibliometriche concludendo che i risultati delle classifiche stilate da esperti “merely reflect their present research preferences rather than an objective assessment of each journal’s quality” e che quindi “the final ranking closely corresponds to the research profile of the group of respondents”. Far stilare classifiche così delicate a gruppi molto ristretti di ricercatori, come nel caso dei GEV, potrebbe condizionare i risultati finali dell’esercizio di valutazione complessivo.[4]
Strategia 3. UNA PROCEDURA A DUE STADI PER LA CLASSIFICAZIONE DEI PRODOTTI DI RICERCA
Si dice che alcuni GEV stiano procedendo all’adozione della Strategia 3. La procedura di classificazione dei prodotti consiste di due stadi: nel primo si distribuiscono le riviste in 4 classi di merito e si attribuisce ad ogni prodotto la classe di merito della rivista. Nel secondo stadio si corregge la classe di merito di una posizione verso l’alto se le citazioni ricevute dal singolo prodotto di ricerca sono superiori alle citazioni medie delle riviste della classe superiore; si corregge la classe di merito di una posizione verso il basso se le citazioni ricevute dal singolo prodotto di ricerca sono inferiori alle citazioni medie ricevute dagli articoli usciti nella stessa rivista nello stesso anno. [La Strategia 3 non prevede cosa accade se le due condizioni si verificano contemporaneamente, cioè se l’articolo è più citato della media degli articoli pubblicati dalle riviste di fascia superiore, ma meno citato rispetto alle citazioni medie ricevute dagli articoli usciti nella stessa rivista nell’anno in cui è stato pubblicato].
Indici citazionali che calcolano la media delle citazioni ricevute da una rivista (Impact factor, citazioni per articolo pubblicato, ma non l’h-index) sono molto sensibili ai valori estremi. Le distribuzioni con cui si ha a che fare in bibliometria non sono gaussiane, ma a code pesanti. Questo significa che è molto frequente la presenza di valori estremi (vicini di banco giganti) che modificano sensibilmente la media. Tra parentesi, è per questo che sarebbe opportuno usare con estrema cautela i valori medi in bibliometria. E questa è la ragione per cui non ha alcun senso confrontare le citazioni ricevute da un articolo con quelle medie ricevute dagli articoli della stessa rivista nello stesso anno. Se in quell’anno qualcuno piazza su quella rivista l’articolo più importante della carriera, o magari il peggiore della carriera, quello che raccoglie una valanga di citazioni negative, i valori medi annuali della rivista saranno molto elevati, e gli articoli che ricevono un numero di citazioni nella norma saranno penalizzati nella valutazione.
Nella tabella 1 c’è un esempio di ciò che potrebbe accadere se l’ANVUR adottasse la strategia 3.
Tabella 1. Dati citazionali 2008-2009 degli articoli pubblicati da ACM Computing Surveys e confronto tra diverse strategie di classificazione. L’impatto normalizzato è calcolato rispetto all’IF medio 1.302 della categoria “Computer science, theory and methods”
La rivista è ACM Computing Surveys. Secondo l’edizione 2010 del Journal of Citation Report, con un Impact Factor pari a 8,0 è la migliore rivista (anche in termini di 5-Year Impact Factor e Article Influence) della categoria “Computer science, theory and methods”.[5] Per ogni anno è riportata la frequenza degli articoli per numero di citazioni, il totale annuale delle citazioni e il numero medio di citazioni per articolo nei due anni. Vediamo il risultato cui porta l’applicazione della strategia 3. Ci sono due articoli, uno per anno che hanno ricevuto 8 citazioni (proprio il valore dell’IF della rivista). Siccome la rivista su cui sono pubblicati è la stessa, il GEV li attribuisce alla stessa fascia di merito iniziale, quella più elevata.
- L’articolo pubblicato nel 2008 ha un gigante per vicino di banco: in quell’anno c’è un articolo che ha ricevuto ben 87 citazioni; il numero medio di citazioni per articolo di quell’anno è 12,4; 8 è minore di 12,4 e quindi l’articolo del 2008 è retrocesso nella classe di merito inferiore.
- L’articolo del 2009 ha un vicino di banco alto “solo” 47 citazioni; la media delle citazioni nell’anno è 6,8; 8 è maggiore di 6,8 e quindi l’articolo resta nella classe di merito iniziale.
Più in generale, possiamo vedere che nel 2008 la presenza del vicino gigante (87 citazioni) contribuirebbe al declassamento di ben 11 articoli su 19 (58%), tutti quelli con meno di 12,4 citazioni; nel 2009, anche se c’è un vicino un po’ meno gigante (47 citazioni), si verifica addirittura il declassamento di 13 articoli su 20 (65%) Risultati, per così dire, idiosincratici; che rendono del tutto incredibile il risultato aggregato finale.
E allora cosa potrebbe fare l’ANVUR?
Come potrebbe l’ANVUR attribuire i prodotti di ricerca ad una fascia di merito, dati i vincoli di tempo, costo e assetto istituzionale in cui si trova ad operare? Potrebbe adottare con un mix semplice di bibliometria e peer review.
Potrebbe applicare la strategia 1 (misurare direttamente l’impatto della ricerca) per tutti quei prodotti per i quali è noto il numero di citazioni ricevute.
In alcune aree disciplinari i GEV avranno a disposizione, per tutti i prodotti o per una quota significativa di essi, il numero di citazioni ricevute dal singolo prodotto di ricerca. Questo numero, tratto da una banca dati solida (Scopus e WOS), è l’indicatore convenzionale più utilizzato in letteratura. Come scrivono Rafols et al. (2012)
Bibliometric measures based on citations to publications provide an internal measure of the impact of the contribution, and hence a proxy of scientific performance. The number of citations per publication (or ‘citation impact’) is neither an indicator of quality nor importance. Instead, it is a reflection of one form of influence (influence on one’s scientific peers) that a publication may exert, which can be used in evaluations provided certain caveats are met
Per ognuno di questi prodotti, i GEV hanno anche una informazioni indiretta di qualità: il prodotto risponde agli standard prevalenti nella disciplina poiché ha superato una peer review per accedere alla pubblicazione su una rivista. Si troveranno dunque nella situazione informativa ideale sognata da ogni bibliometrico.
Non c’è dunque alcuna ragione perché in questi casi si ricorra a dati diversi dal numero di citazioni. Ovviamente il numero di citazioni in sé non è immediatamente significativo nell’attribuzione ad una classe di merito, poiché il comportamento citazionale cambia a seconda delle discipline ed è quindi necessario normalizzare il numero di citazioni rispetto a qualche misura citazionale di riferimento (se la valutazione riguarda una singola disciplina il problema della normalizzazione non si pone). Si tratta del problema forse più dibattuto nella letteratura bibliometrica, per il quale, come scrivono Rafols et al. 2012
the most extensively adopted practice is to normalise by the discipline to which is assigned the journal in which the article is published.
Le citazioni ricevute da ogni articolo potrebbero essere normalizzate in riferimento al numero medio di citazioni ricevute dagli articoli pubblicati nelle riviste appartenenti alla stessa categoria disciplinare della rivista che lo contiene, nel periodo di riferimento. Una volta calcolato questo indicatore, si potrebbe ordinare in senso decrescente gli articoli, e attribuire ogni articolo ad una delle quattro categorie di merito. Il 25% degli articoli con i valori più elevati finirebbe nella categoria di merito più alta; il 25% successivo in seconda categoria e così via. Oppure applicare le soglie previste nel bando (20%, 20%, 10%, 50%).
Se non si è troppo raffinati, ci si potrebbe anche rifare alle categorie già presenti nei database commerciali che l’ANVUR utilizzerà (WOS e Scopus), ed alle statistiche aggregate presenti nel Journal of Citation Report o in Scimago, come si fa di norma nelle ricerche bibliometriche. Nel nostro esempio si potrebbe prendere l’IF medio aggregato delle 97 riviste della categoria “Computer science, theory and methods” che è 1,302; ciò significa che in media ognuno dei 10.933 articoli pubblicati tra 2008 e 2009 sulle 97 riviste della categorie ha ricevuto 1,3 citazioni (per un totale di 14.231 citazioni). La tabella 1 riporta il calcolo dei valori normalizzati. Avere ricevuto 8 citazioni non è poi così male. E soprattutto non è difficile notare che con questo sistema due articoli usciti sulla stessa rivista e che hanno ottenuto lo stesso numero di citazioni sono bibliometricamente indistinguibili tra loro.[6]
Per tutti quei prodotti per cui la strategia 1 non sia applicabile (articoli su riviste non indicizzate, libri, altri prodotti) i GEV potrebbero ricorrere alla peer review, utilizzando opportuni accorgimenti per renderla impermeabile alle manipolazioni da parte di cricche disciplinari. Solo nel caso in cui si ritenga che la peer review sia davvero troppo facilmente manipolabile, si potrebbe adottare con cautela la strategia 2, ricorrendo però a classifiche di riviste messe a punto fuori dai confini nazionali. Quello di cui non c’è davvero bisogno è l’adozione della Strategia 3, e più in generale la creazione di bibliometria e classifiche fai-da-te.
Vai alla seconda parte:
[1] Nel REF britannico è previsto l’uso esclusivo della peer review per l’attribuzione dei prodotti nelle classi di merito; a tale scopo i panel di valutatori decidono se avere o meno informazioni bibliometriche sul prodotto di ricerca sottoposto a valutazione. I revisori devono tenere conto, dando loro peso diverso, della qualità, dell’impatto accademico (diffusione) e dell’impatto socio-economico del singolo prodotto di ricerca. Per l’impatto accademico i panel decidono se avvalersi o meno di qualche indicatore bibliometrico. La peer review effettuata nel corso del REF non è una duplicazione del processo di revisione che un articolo ha già superato quando è stato pubblicato su una rivista, poiché l’insieme informativo su cui deve basarsi il giudizio del revisore è ben più ampio.
[2] Con questa espressione comprendo anche le classifiche costruite sottoponendo questionari a tutti i ricercatori di una certa disciplina.
[3] La logica dietro a questo ragionamento non è antibibliometrica; solo a favore della strategia 1. Se c’è informazione bibliometrica sulle riviste, c’è informazione bibliometrica anche sugli articoli pubblicati in quelle riviste. Si usi quella.
[4] Rafols et. al. 2012 hanno svolto un complesso esercizio in cui hanno costruito il ranking di alcune istituzioni di ricerca usando tre metodi diversi: dati bibliometrici Web of Science; classificazioni bibliometriche delle riviste (IF), e una classificazione delle riviste messa a punto da una società scientifica. I risultati finali cambiano fortemente a seconda del metodo utilizzato.
[5] Per semplicità lavoriamo con un solo valore di IF, quello dell’ultimo anno disponibile nel Journal of Citation Report. Il valore dell’IF delle riviste è rilasciato da Thomson Reuters annualmente.
[6] Per la precisione in questo caso andrebbe fatto notare che l’articolo del 2008 ha lo stesso numero di citazioni di quello pubblicato nel 2009, ma ha avuto un anno di tempo in più per essere citato. Ma ai fini di un esercizio aggregato di valutazione questo punto potrebbe essere considerato trascurabile.
Caro Baccini, non condivido la diffidenza verso le classifiche di riviste operate dalle società scientifiche e la fiducia – invece – verso quelle stilate fuori dal paese. Premetto che parlo da storico (area 11) e da responsabile di una commissione nazionale per la classificazione delle riviste della mia area, con cognizione diretta di tutti i difetti e i problemi di questo genere di operazioni. Bisogna partire dalla situazione di fatto. Punto primo. Le classifiche di riviste SSH redatte all’estero inevitabilmente contengono un numero ridottissimo di riviste italiane. Non vorremo mica che qualche authority o ente straniero faccia per noi il lavoro ? (Diverso sarebbe il discorso coi database: ma anche qui l’inclusisone è bassissima, certo, sperabilmente in crescita, ma non affidabile al momento). Punto secondo. Il panorama delle riviste italiane SSH (o di storia, per parlare del settore che conosco meglio) è molto ampio. Analizzarlo (cosa in sé molto istruttiva) è un’operazione molto difficile, ma che si può e si deve fare. Perché ? Perché così si potrebbe andare verso il riconoscimento di standard funzional-operativi, editoriali e in fin dei conti anche scientifici accettati a livello nazionale (e modellati su quelli internazionali). Dov’è il problema ? Non nei ranking, ma nel fatto che certo non si possono fare 3, 4, 5 o più ranking seguendo standard potenzialmente diversi e applicati in modo diverso. Sarebbe indispensabile che per ogni grande disciplina – la storia, pe esempio – venisse effettuato un unico ranking nazionale, totalmente indipendente dalle sub-discipline (i criteri sono assolutamente trasversali). Ma si potrebbe fare di più. Si potrebbe pensare di dare vita a un database full text di riviste SSH nazionali, proprio come hanno fatto perfino in un paese come la Francia, dove la valutazione è vista come il fumo negli occhi, ma il beneficio dei database full-text è ben percepito (v. anche tutta la storia ormai lunga di Gallica/Gallica 2). L’ammissione nel database diventerebbe un criterio di qualità di per sé (così già funziona per Scopus, Wok, JStor). Avremmo così uno strumento DI LAVORO fondamentale, uno strumento per incentivare la qualità dei periodici scientifici e insieme uno strumento di analisi citazionale (certo, parziale, da integrare con altri database internazionali). Impossibile ? Be’, bisogna conoscere lo stato dell’editoria italiana, il panorama internazionale e anche l’esistenza di sviluppatissimi software (italiani) di estrazione/analisi citazionale. E ci vuole iniziativa progettuale (e interlocutori privati e istituzionali all’altezza). Ma su questo mi ripropongo un intervento su Roars)…Penso che si dovrebbe approfittare di questi passaggi (all’italiana: improvvisati, caotici, incompetenti) per provare a ottenere una positiva “unexpected consequence” e durevolmente tale.
Caro Abbatista, la mia diffidenza per le classifiche italiane deriva dal fatto che alcune di quelle che ho visto sono fatte con criteri non trasparenti e danno luogo a risultati eccellenti per (quasi) tutti. Qui ne parlo un po’ meglio. Che si debbano fare con strumenti adeguati è indubbio. Non credo che lo debbano fare i GEV, o almeno non lo possono fare credibilmente nel tempo che hanno a disposizione. Condivido completamente le tue considerazioni . Il mio unico punto è che la via che suggerisci nel tuo commento è sicuramente condivisibile ed auspicabile, ma richiede tempi lunghi. Dal 2009 in Italia non siamo riusciti neanche a mettere in piedi l’ANPREPS, che è molto più facile di quello che dici tu. Se il VQR avrà come conseguenza non voluta quello che tu auspichi, chi negli anni a venire calcolerà i costi ed i benefici dell’esercizio di valutazione, dovrà conteggiare quella conseguenza come un enorme beneficio per la comunità scientifica italiana. (Purtroppo in Italia nessuno fa mai analisi costi benefici delle politiche; e le unintended consequences sono spesso di segno negativo).
Non ho dubbi che siano state fatte molte classifiche di riviste dai fondamenti poco chiari, ma ti assicuto che non sempre è andata così. Insomma, basterebbe poco per rendere questa una strada percorribile e dagli esiti di sicura utilità. Secondo me si sbaglia (avevo lasciato una replica anche a Paola Galimberti su questo) a parlare di valutazione bibliometrica (e/o di profilo editoriale, come bisognerebbe precisare) come un problema a se stante. L’attenzione deve essere spostata sui presupposti di quel tipo di valutazione. Ossia i database full text. Qui le strade sono due, entrambe necessarie e che possono coesistere: massimo sforzo per entrare in quelli internazionali (ma i processi sono lunghi e non sempre trasparenti) e un progetto per crearne uno di letteratura scientifica SSH sul modello francese Persée. Poi al software di estrazione/analisi citazionale ci pensa chi lo ha prodotto. Il secondo processo è certamente lungo e tremendamente impegnativo. Ma è impossibile ? Io dico di no, non solo, penso che sia indispensabile per un rilancio della nostra cultura SSH (posto, certo, che a qualcuno interessi). E per poterlo “vedere” bisogna partire da quel che c’è, pensare a come svilupparlo e agganciare le linee europee di finanziamento dedicate a questo genere di cose. Mi pongo però un altro problema molto importante legato all’open access, che personalmente considero una via obbligata.
Io non aderisco minimamente al paradigma “normativista”, che mi sembra una violenza inaudita, in base al quale la citazione sarebbe in qualche modo una “valutazione di qualità” del prodotto di ricerca. Ritengo che si tratti di uno “scientismo” deleterio che finirà col causare gravi danni e distorsioni dell’attività di ricerca.
Avrebbero dovuto fare come il REF inglese, come base di questo VQR.
Il ministero e l’ANVUR hanno deciso di procedere in modo inedito. Con un mix tra modello REF e modello bibliometrico. E’ una procedura molto rischiosa. Nel post si prende atto di questa scelta e si suggeriscono correttivi a possibili errori. E si tenta in ogni modo di sottolineare il fatto che la valutazione se bibliometrica riguarda l'”impatto” (diffusione) della ricerca, e non la qualità. Certo si sarebbe potuto fare in altro modo. Ma dato che il dado è tratto almeno vediamo do limitare i danni.
[…] fede, tendono a stilare classifiche che hanno poco a che fare con la qualità e molto con i loro particolari interessi. Ma noi possiamo stare tranquilli perchè nel direttivo dell’Anvur siede un’autentica esperta […]
“Misurare l’altezza di gruppi di bambini non è poi così diverso dal misurare l’ìmpatto di un prodotto scientifico”…Davvero ?
Non sono cosi’ d’accordo. Le cose sono un po’ più complicate. Il numero di citazioni di un prodotto non è necessariamente un miglior indicatore di qualità scientifica rispetto al ranking della rivista su cui quel prodotto è apparso. Spiego una possibile ragione con il seguente esempio.
Supponiate che io sia un esperto di un tema che per sua natura ha un certo numero di cultori in Italia e un minor numero di cultori in altri paesi. I cultori italiani sono mediamente meno attrezzati teoricamente e metodologicamente dei loro colleghi stranieri. Posso decidere di scrivere un paper per una rivista italiana con estesa diffusione in Italia e scarsa diffusione all’estero o scrivere un paper per una rivista internazionale, con estesa diffusione. La prima rivista gode di un numero di citazioni limitato, mentre la seconda è una della 10 riviste più citate al mondo. Per la prima rivista posso scrivere un paper relativamente “facile” e poco innovativo. Il numero di papers sottomessi a questa rivista è proporzionale alle limtate dimensioni della comunità scientifica domestica e la probabilità che il paper venga accettato è piuttosto alta. Date le caratterisitiche della comunità scientifica domestica è pure molto probabile che un certo numero di colleghi italiani citi un lavoro che riescono a comprendere e probabilmente condividono. In termini di citazioni questo lavoro otterrà pertanto un buon risultato. Posso al contrario impegnarmi di più, scegliere di seguire standard internazionali più elevati e cercare di pubblicare sulla prestigiosa rivista internazionale. Riesco a passare il filtro del referaggio ma poichè gli esperti del mio tema a livello internazionali sono una comunità relativamente contenuta il numero di citazioni del mio articolo resta contenuto. I colleghi italiani frequentano poco le riviste internazionali, non comprendono quanto invece a livello internazionale è apprezzato e pertanto non mi citano.
Ovviamente adottando la citazione del prodotto come criterio per valutare la qualità scientifica la prima strategia di pubblicazione sembra molto più redditizia della seconda ? Ha vinto allora la qualità scientifica ? non mi sembra proprio…
Il numero di citazioni ricevute da un articolo è l’indicatore standard utilizzato per approssimare l’impatto di un articolo (cioè la sua diffusione nella comunità scientifica). L’impatto è cosa diversa dalla qualità di un prodotto di ricerca. Non necessariamente un articolo di qualità è un articolo con elevato impatto! Per questo uso l’idea dell’altezza: parlo di una sola dimensione della ricerca: l’impatto non la qualità https://www.roars.it/?p=632.
L’esempio di Francesco mette in luce in modo molto chiaro questo problema: l’articolo pubblicato su rivista internazionale rispetta standard qualitativi più elevati , ma nessuno lo cita. E i colleghi italiani lo snobbano (per usare un eufemismo). Quell’articolo è di qualità più elevata, ma ha un impatto minore.
Se tenessimo conto del ranking (di impatto ) della rivista su cui è pubblicato l’articolo ad impatto più basso avrebbe un risultato migliore. Nel paragrafo finale dell’articolo si dice che procedere in questo modo è un sistema “rozzo”, ma che rientra tra le pratiche adottate in giro per il mondo. L’alternativa, quella di prendere l’impatto del singolo articolo è la procedura bibliometricamente più corretta. [Non è detto che i risultati finali della sua adozione in un esercizio di valutazione siano desiderabili, tanto più in un esercizio concepito per valutare non l’insieme della produzione, ma un sottoinsieme di prodotti considerati mediamenti buoni.]
Ha poco senso (e nessun precedente) aggiustare il ranking nel modo previsto nella procedura a due stadi. Primo stadio ranking delle riviste sulla base dell’impatto della rivista e poi aggiustamento sulla base dell’impatto dell’articolo. E’ questo che non torna.
[…] Inoltre, la valutazione delle Università è operazioni alquanto complessa e, se non andiamo errati, pare non esista alcun sistema diretto per misurare quanto un ateneo sia abile nell’informare, ispirare e stimolare i suoi studenti, e tutti i surrogati mostrano limiti preoccupanti e introducono effetti distorsivi. Inoltre è scientificamente provato che i classificatori, anche se in buona fede, tendono a stilare classifiche che hanno poco a che fare con la qualità e molto con i loro particolari interessi. […]