Perché Scholar Search è inaffidabile e non può essere usato per la valutazione dei ricercatori  e per la VQR delle strutture

Google Scholar è uno strumento assai utile che molti di noi usano per integrare ricerche bibliografiche e ampliare il proprio sguardo sulla produzione scientifica dei settori di riferimento. Già da tempo si cerca di farne uso anche per altri scopi, inclusa l’analisi citazionale o la misurazione della produzione scientifica. Alberto Baccini ha su queste pagine già dimostrato egregiamente come vi siano alcuni problemi rilevanti nell’uso di Google Scholar (e dunque di Publish or Perish) per questi scopi.

 

Scrive Baccini:

Tra le riviste, cioè utilizzando la modalità di interrogazione “Journal Impact” di PoP, la situazione non cambia di molto. Sono riviste molto citate (articoli pubblicati e h-index tra parentesi), English Translation (>1000; 19); Editorial Board  (>1000; 11); Editor in Chief (>1000; 6);  Obituary Notices (483, 10);  e  last but not least (una rivista anche questa! 8 articoli e h-index 2) la rivista bibliometrica Impact Factor (40; 4).

Gianni Cesareni, biologo di Tor Vergata, ha sviluppato uno script python per ricavare dalla base dati di Google Scholar il numero di pubblicazioni e il numero di citazioni relativi a una lista di individui o strutture (università o dipartimenti). Gli autori di Scholar Search, costruito appunto sulla base di questo script, avvertono opportunamente che

This database is in beta testing and is offered to the community to stimulate a feedback. We advice users to refrain from using these numbers for acritically ranking the performance of individual academics.

Cesareni, copio e incollo testualmente dal sito di Scholar Search, precisa anche che

openness is the major reason for my choise of Google Scholar.  However, occasional  problems have been described and I have observed myself that some documents, although present in the database, are not easily retrieved, probably because of bad indexing. In general these rare problems do not affect the overall ranking of an institution but they might occasionally impact on the ranking of individuals if, for instance, the main paper of a young investigator is not retrieved from the database.

Dunque, i grandi numeri consentirebbero di ridurre un margine di errore che potrebbe essere rilevante per un individuo, fino a renderlo insignificante, per esempio nella costruzione di rankings.

E’ proprio così?

Cerco di dare una risposta alla domanda attraverso un espediente narrativo già altre volte sperimentato su queste pagine.

Zero tituli!

Torno a casa dopo una cena con un vecchio amico. Una cena faticosa. Mi sono sentito qualche volta sospeso fra l’irritazione e l’imbarazzo davanti ad alcune domande. Una, ad esempio: “perchè studiare il diritto romano? Non è già stato detto tutto nei secoli trascorsi? Cosa ricercate voialtri? E a cosa serve?”. Mentre mi irrito ma cerco di non mostrarlo rispondendo con pazienza, la discussione sconfina sulla bibliometria (il vecchio amico è un ricercatore nelle “scienze dure”). Mi dice che è possibile misurare le scienze umane (HSS) e che gli esiti della misurazione sono sconcertanti. Nelle scienze umane e sociali ci sono troppi fannulloni. Lì si concentra la palla al piede dell’Università italiana.

Sono un po’ seccato perché non so se le mie controdeduzioni siano state davvero convincenti; di sicuro mi ha mandato la cena di traverso. Ho voglia, ma anche un certo timore, di verificare se quello che dice il collega è vero. In effetti ricordo di alcune discussioni apparse in rete sull’improduttività cronica delle scienze umane, che Scholar Search confermerebbe.

Nonostante l’ora tarda mi metto a fare qualche esperimento. Provo, dunque a vedere quale risultato Scholar Search restituisce per un intero settore disciplinare, quello a cui appartengo (IUS 18, diritto romano e diritti dell’antichità). Riempio quindi la mascherina di ricerca:

Improvvisamente mi trovo davanti a un panorama desolante di improduttività. Davvero dei fannulloni questi romanisti.


 

 

 

 

 

 

 

Quasi tutto il settore è una raffica di zeri: zero pubblicazioni, zero citazioni, zero h-index.

 

 

 

 

Un po’ preoccupato vado a vedere la mia posizione; ahi, tutti zeri anche io. Sono proprio un fannullone!

 

Ci resto un po’ male, lo confesso.

So bene che Google Scholar è una banca dati che pone molti problemi, ma davvero non pensavo che mi trattasse così male; mi dico che ci dev’essere qualcosa che non va. Sarei tentato di infischiarmene, ma mi sento infastidito. Poi qualcuno deve avermi detto che c’è chi pensa di usare Scholar Search per le valutazioni di ateneo. Mi vengono i brividi.

Decido quindi di perdere altro tempo e controllare meglio. Vado a vedere i dettagli del mio collega più produttivo: 12 pubblicazioni nel periodo contro una media di settore di 0,42 pubblicazioni a testa (sic!). Mi sento sollevato, almeno c’è qualche studioso censito con un buon numero di pubblicazioni. Capisco che davvero qualcosa non va quando controllo quali siano queste pubblicazioni:

Accidenti, cosa penserebbe un osservatore esterno? Un intero SSD improduttivo; c’è qualcuno che sembra scrivere qualcosa, ma è solo apparenza. Se si va a controllare, si tratta di omonimi, o quasi-omonimi (il cognome e l’iniziale del nome sono le stesse). Nel caso si tratta di un matematico, altro che romanisti.

Siamo proprio dei nullafacenti totali. Davanti alla disfatta mi demoralizzo ulteriormente: che abbia ragione l’amico, siamo le palle al piede dell’Università italiana? Decido di controllare intere strutture. Vado a spulciarmi la Facoltà di Giurisprudenza di Milano Statale. Anche qui un campo minato pieno di zeri. Però l’esito finale indica una produttività di 2,95 papers a persona nel periodo 2004-10. Già meglio. Ma come si ottiene questo esito? Giusto per provare, vado a controllare un collega di diritto penale che la ricerca indica come piuttosto produttivo.

Ecco:

Ancora un omonimo, questa volta però omonimo totale, nome e cognome sono identici. Unica eccezione qualche collega che ha scritto in inglese di questioni di diritto internazionale. Dopo tutte queste valutazioni, valuto di andarmene a dormire sconfortato.

 

 

 

 

 

 

 

 

 

 

 

 

 

The day after: a volte ritornano.

Al risveglio, dopo una notte agitata, ci ripenso e mi viene in mente che su Publish or Perish avevo fatto qualche esperimento, per cui – dopo aver filtrato giudiziosamente gli omonimi – mi ero trovato con un pur piccolo h index e un certo numero di pubblicazioni (non tutte) censite.

Mi faccio forza e mi decido a fare qualche altro test, per verificare se è solo ius 18 a essere un settore quasi totalmente improduttivo: scopro che gli stessi fenomeni si producono anche per gli altri settori delle scienze umane e sociali (invito i lettori delle HSS a controllare di persona).

Inoltre sono perseguitato dal fastidioso ricordo di un tale, che da qualche parte ha scritto quanto segue:

confermiamo due dati impressionanti! Anche considerando Google Scholar inglese e italiano, la percentuale di docenti del tutto improduttiva, sia come citazioni, sia persino come pubblicazioni, e’ intorno al 30%! Inoltre, essa e’ quasi equamente ripartita tra fasce di docenza (smentendo una ipotesi di miglioramento progressivo come vorrebbe Anvur e la logica), mentre ovviamente e’ concentrata su alcuni SSD. Quattro aree CUN (10, 11, 12, 14) e ben 130 SSD hanno oltre il 50% di settori improduttivi

Mentre bevo il caffé torno sulla pagina che mi assegna produttività pari a zero e clicco sul link corrispondente al mio nome. Esce questo:

Vuoto desolante. Però noto le 3 checkboxes in alto, sotto il mio nome. Le spunto e rifaccio la ricerca, constatando che torno improvvisamente alla vita accademica: compaiono i miei scritti. Sono improvvisamente risorto, da zombie della ricerca che ero.

 

 

 

Che significa tutto ciò?

Ci rifletto un po’. Poi capisco: evidentemente Google Scholar indicizza i prodotti classificandoli per macro aree (Business, Engineering, Social Sciences, etc.). Tuttavia, per qualche motivo, non tutti i prodotti sono indicizzati allo stesso modo.

In particolare i dati relativi ai prodotti delle scienze umane e sociali sono in qualche modo carenti, per quel che riguarda l’assegnazione ad aggregati disciplinari. Quindi, una ricerca condotta su Scholar Search, per la quale si specificano tutte le macro aree disciplinari finisce per filtrare i prodotti privi di questi dati di riferimento; è un fenomeno che sembra manifestarsi in maniera particolarmente rilevante per i settori delle scienze umane e sociali. Al contrario, se la ricerca è condotta senza specificare il campo disciplinare, i prodotti magicamente ricompaiono: proprio perché sono privi di questo tipo di dati aggiuntivi.

Mi siedo e rifletto: penso a un giornalista spregiudicato, un tempo si sarebbe parlato di Revolverpresse, che  sfruttando la buona fede degli autori di Scholar Search scrive un articolo a tutta pagina su interi settori o intere aree disciplinari interamente improduttivi. Allo scandalo (“stipendi rubati!”), agli insulti lanciati contro centinaia di inconsapevoli e incolpevoli ricercatori la cui produzione scientifica è azzerata solo perché vi è un errore nel trattamento dei dati. Penso ai danni che un articolo del genere produrrebbe e agli sforzi necessari per porvi rimedio.

Penso agli scatti stipendiali bloccati di tutti costoro per effetto dei giudizi di Nuclei di Valutazione che abbiano deciso di utilizzare Scholar Search per rendere più rapide e meno onerose le loro analisi. Poi mi ricordo improvvisamente che gli scatti sono già bloccati, che si sia produttivi o meno.

Mi consolo sperando che nulla del genere accadrà e che tutto ciò sia solo un brutto sogno.

Mentre mi interrogo sulle altre possibili anomalie di Scholar Search, mi trovo a pensare che questa vicenda dovrebbe stimolare ulteriori riflessioni sull’uso di data base opachi e proprietari, per la misurazione della produttività e dell’impatto dei ricercatori e delle strutture di riferimento.

L’avvio di sistemi della valutazione della ricerca doveva migliorare il quadro generale del sistema dell’università e della ricerca: per ora sembra di dover combattere ogni giorno contro una nuova aberrazione.

Alzo lo sguardo e mi tornano in mente certi versi di un poeta di tanto tempo fa:

 quel che non si sa non si de’ dire,

e tanto men, quando altri n’ha a patire.

Print Friendly, PDF & Email

11 Commenti

  1. Cari amici e colleghi,
    forse con questo intervento farò la figura dell’ingenuo o anche del torsolone…ma mi e vi chiedo: quanto mi/ci può interessare se sono/siamo un top scientist; se la mia produzione è conosciuto o meno; se Google Scholar (in absentia di ISI, Scopus e Scimago..) mi ha filato o meno? Da quel che so il mio lavoro può essere apprezzato, o meno, fra i miei colleghi; posso avere un certo numero di studenti che oltre a seguirmi a lezione mi vengono sugli scavi, partecipano alle ricerche a lavori e seminari comuni; posso passare il mio tempo fra docenza, ricerca, rapporto con il territorio e lavoro per l’istituzione, di cui sempre di meno si parla; posso entrare in dipartimento alle 6,30 del mattino e uscirne lasera alle 20,00, se va bene.. Dette tutte queste cose ma pensate davvero che chi lavora con entusiasmo (nel mio caso) abbia il tempo di trapanarsi il cervello su chi o come lo giudica, se è barone o no, se sarà benevolo o meno? Come ha detto R.R. Ernst in Chimia 64 (2010), 90: And there is indeed another alternative: very simply, start reading papers instead of merely rating them by counting citations! Se per la valutazione abbiamo potuto presentare la nostra produzione, bene basta leggerla per farsi un’idea del profilo di uno studioso..ma forse la cosa non interessa molto.
    Un caro saluto,
    marco rendeli

  2. Caro Rendeli, hai le tue ragioni ma non è questo il punto. Se si diffonde l’idea che interi settori o perfino aree disciplinari sono totalmente improduttivi, attraverso l’uso disinvolto di strumenti questionabili che operano su dati “sporchi”, l’esito non sarà purtroppo di mettere alla berlina i ricercatori che compiono operazioni discutibili di questo genere, ma sarà quello di penalizzare gravemente i settori in tal modo diffamati.
    Cordialmente
    AB

  3. Caro Antonio, come già sottolineato da Baccini in più punti, GS non fa una raccolta sui metadati, e anche se la facesse la metadatazione dei lavori delle HSS, per una serie di motivi risulta ancora da migliorare. E anche con una metadazione ricca e completa, comunque i dati non vengono catturati, segno che il meccanismo di harvesting funziona diversamente dagli harvester tipo Scientific Commons o BASE.
    Qualche tempo fa avevo provato a fare una ricerca in Scholar search per il mio ateneo ed ecco i risultati:
    “per la nostra Facoltà di lettere nel 2004-2008 questo strumento di analisi mi restituisce 298 pubblicazioni a fronte di 5218 presenti nell’Archivio istituzionale della ricerca, per Scienze politiche 222 a fronte di 3542 lavori in AIR, per medicina 665 a fronte di 15754 lavori. Per il dipartimento di fisica (tradizionalmente online da sempre) 92 a fronte di 1722 lavori.
    Sempre nella Facoltà di Lettere viene individuato un dipartimento di Fisica corrispondente ad un unico docente che è effettivamente di fisica ma che non forma un dipartimento.”
    Come vedi non è (solo) un problema di scienze umane. Se un archivio che lavora con standard e protocolli aperti viene visto così male da GS, vuol dire che la fonte di GS non sono i metadati. E questo è un problema per la qualità dell’informazione che viene restituita.
    Abbiamo purtroppo l’abitudine di pensare che una volta che ci sono dati disponibili questi vadano bene comunque. Alla DFG ci sono decine di persone che lavorano sulla qualità dei dati della Excellenzinitiative e in generale sui dati della ricerca.
    Per poter utilizzare i dati di ISI per campagne di valutazione l’IFQ o il CWTS hanno personale dedicato che lavora sulla qualità dei dati cercando di ridurre al minimo gli errori, di affiliation, di omonimia e di identificazione stessa delle pubblicazioni.
    Il prof. Bonaccorsi stesso, presentando il progetto GRBS, ha confermato che i dati grezzi di Scopus sono stati ripuliti da un gruppo di lavoro per circa un mese.
    Non credo mai a chi sostiene che sia possibile avere dati affidabili con poca fatica e a costi contenuti. Credo invece che il lavoro sui dati sia lungo e oneroso, e inevitabile se si vuole ottenere risultati credibili.

  4. Cara Paola,
    impressionanti i numeri. Comunque concordo con Alberto: il mantra dei grandi numeri serve per giustificare le operazioni più bislacche. Inoltre sottolineo quanto ho scritto nell’articolo: in effetti un grande ateneo del nord sta considerando di usare scholar search per la valutazione interna..pensate un po’..

  5. Una piccola testimonianza sull’uso dei database, dei dati e degli strumenti di valutazione “automatici” e “oggettivi”. Potrà sembrare paradossale, addirittura incredibile, ma quando si è trattato di impostare il lavoro della commissione per la valutazione della ricerca del mio ateneo, il primo ostacolo da superare è stato quello di raggiungere tra i suoi componenti un accordo o, per meglio dire, una consapevolezza condivisa su cosa veramente fossero i database di riferimento, cosa contenessero, che informazione potessero dare, in particolare nel caso di Scimago (arduo tenerlo distinto da Scopus) e Google Scholar. La tendenza riscontrata soprattutto negli “hard scientists” (in alcuni di loro) è stata quella di considerare le riposte di quei database come una rappresentazione oggettiva della realtà: poco diversamente da quel che accade per chi prende un’informazione su Internet per “vera” per il solo fatto di averla trovata; e da quel che succedeva negli anni ’60 quando molti giudicavano la qualità di un prodotto di consumo dal fatto che “la TV gli faceva pubblicità”. Presenza-essenza, insomma. Uno scoglio particolarmente arduo da evitare è stato proprio quello abbinato di Google Scholar e P&P, verso il quale la navicella dei valutatori stava navigando impavidamente. A me questo è parso decisamente sorprendente, considerato che alcune di quelle persone sono cosiddetti “top scientists” e quindi teoricamente depositari dei migliori metodi di investigazione scientifica e di raccolta/trattamento dei dati. Che gli “warning” siano dovuti arrivare da uno storico ha valso allo storico il riconoscimento di avere “metodo scientifico”. Forse perché anche noi siamo specialisti di raccolta/trattamento/critica dei dati. Fin qui l’aneddotica e un pizzico di autobiografia. Però vorrei ricordare che in molte università italiane esistono commissioni, osservatori, comitati per la valutazione della ricerca (ovviamente tutt’altra cosa dai Nuclei di Valutazione), incaricati niente meno che di procedere all’analisi a tappeto della produzione scientifica degli atenei su un arco dato di anni (ovviamente tutt’altra cosa da VQR-ANVUR). Per quanto grandi gli sforzi per elaborare metodologie credibili, quegli organi temo che si siano mossi nelle modalità più diverse, senza raccordo tra loro (salvo un tentativo che dopo oltre un anno, a quel che so, non ha portato a risultati apprezzabili), non voglio dire nell’improvvisazione – perché senz’altro c’è stato e c’è un lavoro molto serio e approfondito – ma certamente senza un minimo di coordinamento e senza che ci si ponesse il banale obiettivo di provare ad elaborare una metodologia condivisa, tale da permettere – per esempio – di raffrontare i risultati dei singoli atenei. Tutto questo è avvenuto prima che si mettessero in moto le macchine dell’Anvur e senza che l’Anvur – nella fretta di agire – si ponesse minimamente il problema dell’esistenza di questi processi e dei metodi adoperati. Nel frattempo il CUN procedeva per i fatti suoi a emettere documenti in quella che è sembrata una corsa a chi per primo riusciva a presidiare il territorio appetibile della valutazione. E’ troppo pensare, per dirne una, che potesse costituirsi un coordinamento nazionale interuniversitario (spontaneo o pilotato, fuori, accanto o dentro l’Anvur, del tutto autonomo o come preferite) con l’obiettivo di pervenire a linee-guida, principi condivisi, metodi comuni ? Be’, penso che sarebbe molto interessante sapere quante e quali università stanno effettuando operazioni di valutazione interna della ricerca, con quali metodi, con quali problemi e risultati; e provare a metterle in contatto le une con le altre. Magari si otterrebbe quello, per esempio, che non ho ottenuto io scrivendo direttamente al responsabile di una di quelle commissioni: una risposta.

  6. […] Un aspetto che richiede competenza e rigore scientifico è la scelta di criteri per la valutazione delle attività di ricerca. Lorenzo Rampa, nella sua veste di prorettore con delega al bilancio, è stato il principale promotore dell’uso di Scholar Search per la valutazione della produzione scientifica dell’ateneo (“Un riparto difficile: il backstage del piano triennale pavese“). Scholar Search è un’interfaccia messa a punto dal gruppo di Biologia Molecolare di Roma Tor Vergata per l’interrogazione di Google Scholar. In ambito scientifico, l’uso di Google Scholar per scopi di valutazione è esplicitamente sconsigliato dalla letteratura bibliometrica. Non solo, ma Scholar Search aggrava i problemi, perché commette errori nella disambiguazione dei cognomi. Questi errori sono dei “falsi positivi”, che si verificano quando ad un ricercatore vengono attribuiti i lavori scientifici di un omonimo. Allo stesso tempo, sono però frequenti anche i “falsi negativi”, ovvero l’omissione lavori scientifici che non risultano indicizzati da Google Scholar, la cui copertura delle scienze umane e sociali è a dir poco lacunosa. […]

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.