Nature segnala un nuovo record del numero di riviste che sono state “squalificate” per essersi dopate l’Impact Factor (IF). L’IF mostra segni di declino: non solo è stato messo all’indice da DORA, la San Francisco Declaration on Research Assessment, ma il legame tra IF e tasso di citazioni ha raggiunto il minimo storico nell’arco degli ultimi quarant’anni. E in Italia? Da noi, prigionieri di una sorta di medioevo bibliometrico, l’ANVUR tiene artificialmente in vita l’Impact Factor, che è stato uno degli ingredienti dei “quadrati magici” bibliometrici della VQR.

L’Impact Factor (IF), come spiega Wikipedia

è un indice sintetico, di proprietà di Thomson Reuters, che misura il numero medio di citazioni ricevute in un particolare anno da articoli pubblicati in una rivista scientifica (Journal) nei due anni precedenti.

Nato ad uso delle biblioteche per individuare le riviste più diffuse al fine di decidere quali abbonamenti sottoscrivere, ha finito per essere usato come indicatore dell’impatto della rivista nella comunità scientifica e, da parte di alcuni, come indicatore della qualità scientifica della rivista stessa. Nella VQR, l’esercizio nazionale di valutazione della ricerca appena concluso, diversi GEV dell’ANVUR ne hanno fatto uso come strumento (insieme alle citazioni) per la classificazione automatica dei lavori scientifici sottoposti a valutazione. In particolare, i cosiddetti quadrati magici bibliometrici, nella loro formulazione più semplice usano l’IF per classificare le riviste in quattro classi di merito. Tuttavia, in ambito bibliometrico la tesi che il contenuto (un articolo scientifico) possa essere giudicato automaticamente sulla base delle proprietà del contenitore (la rivista su cui è stato pubblicato) è considerata assai discutibile, al punto che l’agenzia di valutazione inglese, l’HEFCE, esclude del tutto questa possibilità:

No sub-panel will make any use of journal impact factors, rankings, lists or the perceived standing of publishers in assessing the quality of research outputs.

REF 2014 Frequently Asked Questions

Roars ha già menzionato che sono le riviste a più alto IF a collezionare il maggior numero di ritrattazioni: un’ulteriore ombra sulla capacità dell’IF di prevedere l’impatto e l’affidabilità scientifica degli articoli. In effetti, i meccanismi di valutazione bibliometrica automatica dei ricercatori e/o dei progetti di ricerca fanno diventare un valore in sè la pubblicazione su una rivista ad alto IF, incentivando “aggiustamenti” o manipolazioni dei risultati. La pressione a pubblicare a tutti i costi in sedi prestigiose sembra aver giocato un ruolo anche nella vicenda, riguardante alcuni noti ricercatori italiani, segnalata ieri sul Corriere della Sera nell’articolo intitolato «Truccare le foto delle cellule» Il prof universitario sotto accusa.
Tuttavia, i problemi riguardano non solo i comportamenti dei ricercatori, ma anche quelli delle riviste, in competizione tra di loro nella “gara” per l’IF più alto. In patricolare, il 19 giugno scorso il newsblog di Nature ha pubblicato un articolo intitolato

New record: 66 journals banned for boosting impact factor with self-citations

che trae spunto dalla pubblicazione della nuova lista annuale degli Impact Factor (IF) da parte di Thomson-Reuters. Quest’anno 66 riviste scientifiche sono state escluse dalla lista a causa di pratiche volte ad incrementare il proprio Impact Factor tramite autocitazioni o citazioni incrociate tra le riviste. Nel 2012 e nel 2011 il numero delle riviste escluse era stato 51 e 34, rispettivamente.  Tra le 66 riviste escluse quest’anno, vi sono 37 “new entries” in questo poco invidiabile club del doping scientifico.

Se da un lato osserva che le riviste messe al bando costituiscono solo lo 0,5% di un totale di 10.853 riviste, Nature coglie anche l’occasione per ricordare l’adesione di diverse case editrici a DORA, la San Francisco Declaration on Research Assessment, che non solo ha biasimato apertamente l’abuso dell’IF come mezzo per valutare gli scienziati e la qualità dei loro lavori scientifici, ma ha anche chiesto alle case editrici di impegnarsi a mettere in discussione il suo uso a scopi promozionali:

Greatly reduce emphasis on the journal impact factor as a promotional tool, ideally by ceasing to promote the impact factor or by presenting the metric in the context of a variety of journal-based metrics

DORA, point 6

Nature non si fa illusioni: tra i due estremi di chi è talmente ossessionato dall’IF al punto di ricorrere al doping e chi, sottoscrivendo DORA, si impegna a non fare uso dell’IF a fini promozionali sta la maggioranza delle riviste che, pur essendo consapevoli dei limiti di questa metrica, attendono con apprensione l’uscita delle nuove classifiche annuali.

In effetti, come osserva Nature citando di nuovo DORA, l’IF dà solo una media delle citazioni di una rivista, ma dice poco sull’impatto dei singoli articoli pubblicati in quella rivista. A riprova di ciò viene citato un recente post di George Lozano apparso sul blog della London School of Economics, il cui titolo è eloquente:

The demise of the Impact Factor:
The strength of the relationship between citation rates
and IF is down to levels last seen 40 years ago

A sua volta Lozano cita un suo articolo scientifico (The weakening relationship between the Impact Factor and papers’ citations in the digital age) in cui il declino dell’IF come misura dell’impatto dei singoli articoli è visto come conseguenza dell’avvento dell’era digitale in cui gli articoli sono reperibili individualmente e non più come parte di un fascicolo cartaceo:

since 1990, the advent of the digital age, the relation between IFs and paper citations has been weakening. This began first in physics, a field that was quick to make the transition into the electronic domain. Furthermore, since 1990 the overall proportion of highly cited papers coming from highly cited journals has been decreasing and, of these highly cited papers, the proportion not coming from highly cited journals has been increasing. Should this pattern continue, it might bring an end to the use of the IF as a way to evaluate the quality of journals, papers, and researchers.

Rimandiamo alla lettura dell’articolo di Lozano et al. chi fosse interessato all’analisi bibliometrica che dimostra questa inversione di tendenza. In ogni caso, la natura macroscopica del fenomeno è testimoniata dal seguente grafico che evidenzia il netto cambio di tendenza verificatosi nell’ultimo decennio.

Figura. Percentuale tra i “top 5% most cited papers” di quelli che non sono stati pubblicati nei “top 5% most cited journals”. Si noti l’andamento crescente nella parte finale del grafico che sta ad indicare la crescente presenza di lavori molto citati apparsi in riviste che non sono al top nelle classifiche dell’Impact Factor (Fonte: Lozano, G. A., Larivière, V. and Gingras, Y. 2012. The weakening relationship between the Impact Factor and papers’ citations in the digital age. Journal of the American Society for Information Science and Technology 63: 2140-2145).

_____________________
L’articolo di Nature si chiude con una citazione di Damian Pattinson, direttore editoriale di PLoS ONE, una delle riviste che hanno sottoscritto DORA:

The more notable achievement is that we really are publishing all kinds of research, regardless of its estimated impact, and letting the community decide what is worthy of citation … it’s a good time to remember that it is the papers, not the journals they´re published in, that make the impact.

PLOS ONE – Measuring Article Impact

Da parte nostra, possiamo aggiungere che la debole relazione tra IF e citazioni ricevute da un paper è un dato noto da tempo nella letteratura bibliometrica (P.O. Seglen, Why the impact factor of journals should not be used for evaluating research, BMJ 1997;314:497) al punto che, anche prima di DORA, la pretesa di valutare il contenuto scientifico (articolo) sulla base del contenitore (rivista) era considerata priva di legittimazione scientifica. Non dappertutto però, perchè esiste un’enclave staccata dalla comunità scientifica mondiale. Si tratta dell’Italia, prigioniera di un medioevo bibliometrico in cui l’ANVUR tiene artificialmente in vita arcaiche dottrine alchemico-bibliometriche e applica i suoi “quadrati magici” alla VQR.

 

Send to Kindle

28 Commenti

    • Beh, se io mi occupassi di psicologia analitica, immagino che non avrei molte alternative al Journal of Analytical Psychology per far conoscere i miei lavori a livello internazionale ai pochi che si interessano di quest’area della psicologia; ci credo bene che poi la rivista è piena di citazioni tratte da numeri precedenti della rivista stessa, e immagino che anche per altri ambiti minoritari della ricerca sia così. Allora che si fa, si abbandonano questi campi della ricerca, e si fanno solo studi che seguono il “mainstream”? Bella la cultura maggioritaria, che trasforma anche l’Università in una fabbrica di replicanti…
      PS: per chiarezza, mai pubblicato o cercato di pubblicare sul Journal of Analytical Psychology, era solo per fare un esempio di come il sistema dell’IF sia anticulturale.

  1. Che l’IF abbia tanti limiti è palese, al di là del doping scientifico. Una rivista che pubblica 1 issue a settimana è sicuramente penalizzata rispetto ad una rivista che pubblica 1 numero all’anno di sole reviews… tuttavia, l’IF, come d’altra parte le mediane dell’ASN, sono “numeri” e, sebbene assolutamente criticabili, rimangono tali.
    Altre valutazioni scientifiche, fatte per esempio da “esperti”, hanno il difetto che hanno una buona dose di soggettività, legata al possibile rapporto tra “esperti” e valutati, che può essere sia positivo che negativo. Comunque, in grado di scatenare doping a sua volta.
    Con tutti i limiti dell’ANVUR, oggettivamente non è facile trovare criteri che possano valutare in modo reale l’attività scientifica…

    • Beh, in diversi paesi non ci sono concorsi. Viene scelta la persona che approssima meglio il posto che si vuole assegnare, come se fosse un’azienda. Ovviamente, il concetto è semplificato…

    • nightwosh73: “oggettivamente non è facile trovare criteri che possano valutare in modo reale l’attività scientifica…”
      ==========================
      È vero che non è facile. Ed è anche vero che questa difficoltà non giustifica la ricerca di scorciatoie che possono peggiorare la situazione. Dovrebbe far riflettere che le fortissime riserve sull’Impact Factor vengono non solo da questo articolo di Nature, ma dalle più di 400 organizzazioni e riviste che hanno sottoscritto DORA, la San Francisco Declaration on Reasearch Assessment: nella lista c’è l’agenzia di valutazione inglese (HFCE), Science, Plos e PNAS, per dirne solo alcune. Chissà per quale ragione, non c’è l’ANVUR che si muove, più o meno da sola, nella direzione opposta.
      Per quanto riguarda il “doping” è sicuramente un fenomeno che viene fortemente incentivato dall’adozione di criteri automatici basati su indici manipolabili con espedienti o furbizie.

    • faccio però notare che alcune delle “prediche”, spesso a ragione, vengono da riviste ad altissimo IF. Se lo meritano, per l’amor di dio, però… l’IF è in molti casi uno specchietto per le allodole, perché fa mercato: nessuno di noi può dire, credo, di non averlo guardato prima di pubblicare qualcosa, sopprattutto se ritenuto rilevante…

    • Però l’avere un IF alto non ha certo guastato a far preferire quella rivista ad altre per ricerche importanti…

  2. Ricordiamoci sempre che siamo dovuti ricorrere a questi indici per valutare i ricercatori perché chi decide si è dimostrato di non essere in grado di farlo in modo meritocratico, ma solo seguendo logiche baronali.
    E questi indici sono senz’altro meglio delle logiche baronali.

    • Non avendo argomenti migliori (sul piano scientifico e della comparazione internazionale) per giustificare la deriva bibliometrica italiana, si finisce immancabilmente per riproporre il cosiddetto “argomento emergenziale”: la situazione italiana è talmente grave che lo stato di eccezione giustifica il ricorso a metodologie respinte da tutta la letteratura scientifica e dalla pratica internazionale (con qualche eccezione tipo la Serbia). Il punto è che nessuno dei sostenitori di questa tesi riesce a portare dati scientometrici che dimostrino questo stato di eccezione. Ed è anche dubbio che un paziente grave vada curato con la magia. Non è colpa di Roars se letteratura scientifica e agenzie di valutazione indicano strade molto diverse da quelle imboccate dall’Italia. Qualche volta occorre arrendersi all’evidenza.
      Riguardo all’evidenza scientometrica, a costo di farmi odiare dai lettori abituali, ripropongo i dati forniti dall’ANVUR nella terza parte del rapporto finale VQR (“I confronti internazionali nelle Aree bibliometriche”). Dall’esame dei dati non sembra che a livello di sistema il “malcostume baronale” sia un fenomeno così dilagante e distruttivo come si tende a credere. A meno che non esista un male oscuro altrettanto esiziale che sta divorando anche le accademie di USA, Francia, Germania, Corea del Sud e Giappone. Mi sembra significativo l’ultimo grafico: nello stesso periodo in cui un’accanita campagna di opinione preparava il terreno ai tagli Tremonti-Gelmini, la produzione scientifica italiana cresceva percentualmente più di Germania, UK, Francia, Svezia, USA. Non bisogna far l’errore di sopravvalutare questi dati che non vanno adorati ma capiti e interpretati. Tuttavia, sono dati che smentiscono l’idea di dover ricorrrere a pozioni miracolose (che sono universalmente ritenute velenose) per estirpare un male unico al mondo.






  3. Certo gli indici dovrebbero essere migliorati.
    Come è possibile attribuire allo stesso modo l’I.F. o le citazioni (e quindi l’h-index) di un articolo al primo autore e ai coautori? (mi riferisco in particolare al settore biomedico)
    Al momento la posizione del nome non fa alcuna differenza! Ci sono intere carriere costruite piazzando nomi qua e là in mezzo alle author list senza contribuire quasi per nulla alla ricerca… e al momento chi fa tutto il lavoro (primo autore) e chi a mala pena lo legge raccolgono gli stessi frutti…

    • Non è sempre così. Ho letto alcuni criteri di commissioni ASN (ambito biomedico), e la posizione primo-secondo-penultimo-ultimo nome ha in diversi casi un peso… anche in questo caso, però, l’ordine dei nomi “sensibili” non è sempre meritocratico.

  4. Apprezzo moltissimo ROARS per i continui commenti e critiche sul sistema attuale di reclutamento e sull’adozione di tecniche bibliometriche quali quelle dell’ASN. Tuttavia, sarei ancora più grato ai redattori di ROARS se potessero contribuire alla formulazione di criteri alternativi indicando quale, secondo loro, dovrebbe essere la direzione giusta verso cui muoversi. In precedenza, ho solo intravisto qualche breve indicazione e mai una proposta organica e condivisa da più aree.

    • Grazie per la risposta. Da una prima lettura mi pare che le indicazioni sulla valutazione della qualità della produzione scientifica siano veramente troppo generiche. Cito testualmente dall’ultimo articolo:

      ” In particolare è necessario ridefinire il ruolo dell’ANVUR ridimensionando gli enormi poteri attualmente ad essa attribuiti, e sottraendola al controllo diretto del governo. È urgente che si diffonda in Italia un approccio alla valutazione culturalmente e scientificamente al passo con i tempi. Ciò deve avvenire attraverso strumenti efficaci, che tengano conto della letteratura e delle migliori pratiche internazionali, senza mortificare ulteriormente l’autonomia universitaria, ed evitando conflitti di interesse e indebite concentrazioni di poteri. Inoltre, è urgente la definizione di strumenti di costante monitoraggio degli effetti della regolazione, di pari passo con il coinvolgimento attivo delle comunità accademiche;”

      Si rimanda tutto a “migliori pratiche internazionali”. Ma quali? Un approccio abbastanza disarmante.

      Tra l’altro, pensare di risolvere i problemi con l’aumento della mobilità tra sedi è veramente paradossale. Ma cosa accadrebbe in regioni meridionali (si sono meridionale) dove per cambiare università occorre cambiare quasi sempre città? Che incentivi occorrerebbe dare ad un ricercatore per spostare tutta la sua famiglia (ove mai sia possibile) da una città all’altra?

      Vista la complessità e la criticità del tema, spero che ROARS si sforzi di dare corpo e concretezza a proposte e idee su cui tutti abbiamo bisogno di discutere.

    • “migliori pratiche internazionali”: mi sembra che ne abbiamo discusso in lungo e largo se si vuole fare ua idea si inizi a leggere il libro di Baccini https://www.roars.it/online/valutare-la-ricerca-scientifica/. Quelle che abbiamo presentato sono certo delle idee ma come potra’ rendersi conto facendo qualche ricerca sul sito ognuno degli aspetti e’ piuttosto approfondito in molti altri articoli (e libri https://www.roars.it/online/category/libri-roars/)

    • Grazie, articolo molto interessante. Mi sembra che l’articolo di Lozano et al sposti il focus dall’usare l’IF come criterio di valutazione della qualità di un articolo all’usare il numero di citazioni effettive dell’articolo. E infatti il quadrato magico della VQR integrava IF e numero di citazioni per venire incontro a questo tipo di critiche…
      Il problema vero è che se l’IF è imperfetto, manipolabile, etc (ed è sicuramente stato manipolato negli ultimi anni), ancor di più è manipolabile il numero di citazioni dei singoli articoli. Con la differenza che per manipolare l’IF di una rivista si deve fare un intervento su larga scala (dall’editor), mentre per manipolare le citazioni di un singolo articolo basta davvero molto meno (un gruppo limitato di persone che si autocitano).
      Ci sono altri indicatori meno influenzabili? Non ci resta che la tanto vituperata peer review? Oppure, nella migliore tradizione italiana, continuiamo a non valutare nulla, così nessuno avrà obiezioni da fare.

    • Il problema del’IF e’ che non ha nessuna relazione col numero di citazioni ricevute da un articolo in nessun caso. Il problema e’ che la distribuzione delle citazioni non e’ piccata come una Gaussiana ma ha una coda lunga (il punto e’ spiegato qui https://www.roars.it/online/valutazione-impact-factor-e-gaussiane)
      .
      In genere per l’uso degli indici bibliometrici il decalogo dell’accademia delle Scienze francese e’ la cosa piu’ ragionevole e compatta che ho letto https://www.roars.it/online/on-the-proper-use-of-bibliometrics-to-evaluate-individual-researchers/

  5. Grazie!!! Mi ricordo di averlo molto apprezzato a suo tempo. Le indicazioni generali sono tutte perfettamente condivisibili. Vi quoto quì sotto quello che si diceva sul reclutamento, che mi sembra molto attuale per l’ASN. Le indicazioni teoriche sono perfette, il problema è quando si arriva a metterle in pratica e si devono calcolare gli indicatori ….e ci ritroviamo nel marasma più totale (mi sa che è successo lo stesso anche in Francia con la loro agenzia di valutazione, o sbaglio?).

    – In the case of recruitment for or promotion to senior positions, bibliometric indices can be used by the peer panel (see below).
    – In the case of promotion to senior research or teaching positions, using indices and bibliometrics can help to establish a distribution of the candidates and to eliminate those whose performance is too weak.
    – Recruitment for senior level research or teaching positions is closer to the preceding case than to that of young persons. A preliminary screening through bibliometrics is thus possible when there are too many candidates.
    – In cases where the final evaluation does not correspond to the bibliometric indices, explicit explanation for the reasons of the decision taken by the panel must be provided.

    Le raccomandazioni sono perfette, ma noi abbiamo bisogno di capire quali indicatori dobbiamo usare in pratica, che non abbiano il limite di quelli attuali…

    • non ce ne sono altri. l’hindex e’ quello piu’ ragionevole ma aumenta con gli anni e non ha senso per confrontare non solo persone che lavorano in campi diversi ma anche in sotto-campi di una stessa disciplina. Ad esempio: astrofisica osservativa vs. teorica: se non si normalizza al numero di autori non ha senso confrontare chi pubblica con ~ 100 coautori con chi pubblica con ~2 coautori ecc ecc. E cosi’ via. Solo una persona che sa quello che c’e’ scritto nei lavori – e se li legge – e’ capace di giudicare.

    • Mi permetto di esprimere forti dubbi su questa frase:

      <>

      Se, come ragionevole immaginare, si deve ipotizzare che una commissione si legga una decina di lavori (almeno) per tutti i candidati ad un concorso (o abilitazione) nazionale, l’idea, pur valida in linea generale, diviene inapplicabile. Infatti, credo che tutti possano concordare sul fatto che i commissari anche più giudiziosi e corretti difficilmente potrebbero leggere e valutare correttamente centinaia di lavori a concorso. Per raggiungere tali numeri, si noti, bastano anche una decina di candidati. In generale, è impossibile demandare a qualsiasi commissione nazionale un giudizio elaborato con decenza su grandi numeri. Tra l’altro, conosco le procedure di selezione tedesche, inglesi e americane e non mi pare si leggano le pubblicazioni dei candidati. Tra l’altro, nel passato l’applicazione di questo principio in Italia ha aperto la strada a situazioni paradossali di cui tutti sappiamo.

      Il problema è etico ed abbraccia tutta l’accademia italiana e, se vogliamo, tutta la nostra società.

      Io penso che una opzione su cui riflettere sarebbe quella di “fidarsi” o, più banalmente, di tenere conto dei giudizi di valutazione di enti di riconosciuto prestigio. Ad esempio, chi è riuscito ad vedersi approvato un progetto europeo (ce ne sono per tutti i settori disciplinari) certamente ha dovuto elaborare una proposta scientifica valida che ha superato uno dei sistemi di valutazione più accreditati al mondo. L’idea è che se la commissione europea mi hanno giudicato positivamente, c’è chi ha letto il mio progetto con calma e ponderazione e i commissari italiani non è necessario che lo leggano (magari sommariamente) ma si possono fidare di questa valutazione.

      La stessa cosa vale anche per le riviste ma qui sappiamo che il principio, di per sè valido, è stato applicato in maniera balorda dagli accademici italiani che, come predetto, dimostrano che il primo problema sono gli uomini e non i sistemi di valutazione. E’ un gatto che si morde la coda. Da chi cominciare?

    • I problemi (e le teste) di Como non sono quelle di Chiasso (le famose teste di Chiasso 🙂 ) . A Chiasso una dinamica come quella dei concorsi universitari italiani degli ultimi 15 anni se la sognano. Laddove i comportamenti eticamente corretti sono la norma le regole non sono determinanti. Per un concorso in paesi stranieri è sufficiente, spesso, una presentazione delle proprie attività. Non oso immaginare cosa accadrebbe in Italia se la pratica dei concorsi fosse questa. Mi sa che le teste di Chiasso siamo noi..

    • certo e siccome siamo in una logica emergenziale ben vengano le leggi speciali che escluno Higgs e mettono i famosi “baroni”. Sinceramente penso che una comunità accademica che non capisce questo merita di essere cancellata.

    • Boh, veramente la logica emergenziale non c’entra nulla rispetto a quanto tentavo di discutere io. Penso, invece, sarebbe opportuno comprendere come si dovrebbe modificare la ASN per renderla meno assurda e più efficacie, specie per le dinamiche di medio periodo che genera. Tra l’altro, mi pare che proprio il decalogo dell’accademia delle Scienze francese citato in precedenza non escluda totalmente l’impiego di parametri bibliometrici. Si tratta solo di definirli in maniera più equa e corretta. Per una procedura di abilitazione snella e a regime basterebbe questo e una commissione che si prenda la responsabilità di abilitare anche gli Higgs che, in teoria, vagano per l’accademia italiana.

      Altro discorso dovrebbe essere il reclutamento locale rispetto al quale si dovrebbero innescare criteri di premialità. Ad esempio: hai assunto un nuovo ordinario nel settore X, sceglilo pure come vuoi ma ora mi aspetto che in quel settore il tuo ateneo migliori questi parametri (e.g. fondi, internazionalizzazione, didattica, etc. etc. ). Se ciò non accade hai una penalizzazione nel tuo FFO. Ho scritto una follia?

  6. L’Impact Factor è sempre stato un indicatore molto grossolano: quando fu introdotto diceva se una rivista era buona o cattiva, e già allora aveva problemi: ad esempio le Annual Reviews avevano IF più alti di Naturee Science. Se lo si usa per valutare i ricercatori, nella migliore delle ipotesi può distinguere chi è attivo da chi è inattivo, nulla di più. Nel momento in cui gli si attribuisce valore “ufficiale” nelle valutazioni nazionali dei vari paesi, la tentazione di drogarlo con citazioni farlocche diventa irresistibile e l’IF perde anche quella minima significatività che poteva avere.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.