Limiti e le fragilità di Google Scholar nella valutazione della ricerca

E’ indubbio che una seria regolamentazione ed organizzazione della valutazione della qualità della ricerca in Italia sia urgente ed imprescindibile, ma non per questo si devono percorrere scorciatoie, tipo l’uso semplicistico di Google Scholar, per risolvere problematiche quali l’imputazione di un corretto Impact Factor alle riviste che ne risultino sprovviste.

Numerose e ben conosciute sono, infatti, le critiche mosse in ambito accademico, e non solo, al suo utilizzo, soprattutto non ponderato.

E’ risaputo, infatti, che Google Scholar non indicizza tutti gli articoli pubblicati e nemmeno tutte le riviste, come esempio più che esemplificativo basti ricordare che le ben note riviste di Elsevier non sono apparse su tale motore di ricerca che nella metà del 2007 ed ancora nel 2008 non erano stati inclusi gli ultimi anni degli articoli relativi alle celebri riviste dell’American Chemical Society.

Talaltro, risulta impossibile conoscere lo stato di aggiornamento dell’Impact Factor, in quanto Google non rilascia la data in cui la singola rivista è stata scansionata dal suo crawler, con forte rischio di iniquità ed obsolescenze.

Tali problematiche crescono in maniera esponenziale se si prende in conto che non tutti i testi sono liberamente scansionabili dal crawler di Google, sia per ragioni legali legate ai diritti d’autore, sia per ragioni puramente tecniche legate alle policy interne e alle tecnologie informatiche dei differenti database che accolgono le diverse pubblicazioni scientifiche.

Tutto ciò basterebbe da solo a considerare l’utilizzo di Google Scholar in maniera molto cauta! Ma è d’obbligo far notare che Google Scholar, assegna un alto valore alle citazioni nel suo algoritmo di ranking, risultando quindi vittima del cosiddetto “effetto Matthew”, in base al quale i documenti più citati appaiono nelle prime posizioni, mentre quelli nuovi restano in coda… con la facile conseguenza che chi si trova al Top otterrà sempre più attenzione e citazioni, a discapito delle nuove pubblicazioni.

Inoltre, come spiegato da J. Beel dell’Università di Berkley  e B. Gipp dell’Università di Madgheburg nel loro articolo[1] , i risultati di Google Scholar possano essere facilmente manipolati, persino con l’introduzione e l’indicizzazione di articoli senza senso creati da tool come SCIgen[2].

Google Scholar resta un fantastico strumento per la facile ricerca di articoli scientifici grazie al suo facile utilizzo e alla potenza del suo motore di ricerca, spesso molto più valido ed ergonomico dei database in cui si trovano originariamente gli articoli scientifici, ma non potendone controllare e gestire le succitate problematiche, resta uno strumento non propriamente adatto ad essere utilizzato come riferimento “ufficiale” per l’indicizzazione delle riviste scientifiche.

Invece di percorrere comode ma pericolose scorciatoie, utilizzando strumenti nati per rispondere ad esigenze di mondi totalmente diversi da quello accademico italiano – come quello della battaglia su Internet tra i differenti motori di ricerca americani per l’appropriarsi dell’audience da rivendere ai pubblicitari – forse sarebbe il caso di affrontare il problema con soluzioni ad hoc, semmai mettendo a sistema diverse università in una piattaforma comune, cosicché possano trovare soluzioni calate sulle peculiarità ed esigenze della ricerca in Italia.

Massimiliano Gambardella

University Paris Ouest

Email: massimiliano.gambardella@gmail.com


[1] Joeran Beel and Bela Gipp. Academic search engine spam and google scholar’s resilience against it. Journal of Electronic Publishing, 13(3), December 2010.

 

[2] SCIgen è un programma creato dai ricercatori del MIT per generare articoli senza senso che però includano un vocabolario scientifico, citazione, grafici, alla stregua di veri articoli scientifici.

Print Friendly, PDF & Email

16 Commenti

  1. Dati i limiti di Google Scholar, perchè il Gev13 non considera anche di utilizzzare per le riviste di area economica l’H index costruito da RePEc con Ideas che un database piu’ esteso di molti altri ?

  2. Caro Paolo,
    non saprei, ma ho una mia idea del perché. Se ricordo bene su REPEC bisogna iscriversi (e non tutte le Riviste ci sono)e poi credo che Ideas accetti solo publicazioni in inglese (o almeno SSRN fa così).
    Mentre Google Scholar “ramazza” su internet tutte le riviste, iscritte o no, in qualsiasi lingua…
    …solo che come ho scritto nell’articolo, ciò rende Google Scholar un fantastico strumento per la facile ricerca di articoli, ma nutro dei dubbi sul fatto che possa esserlo anche per la loro valutazione.

  3. Io concordo con te circa la inadeguatezza di GS. Su RePEc è vero occorre iscriversi, conformarsi a certi criteri che pero’ non sono rigidi e sono più trasparenti di quelli di WoS ed anche Scopus. Poi da una analisi fatta, RePEc per le riviste economiche è molto più esteso ovvio di WoS ed anche di Scopus, ed è esteso anche rispetto a Econlit. Solo il 60% delle riviste costituiscono un insieme comune tra Econlit e RePEc. Anche riviste in lingua non inglese sono accolte in RePEc, condizione che i lavori pubblicati abbiano un sommario in inglese, regola che poi non tutte le riviste presenti soddisfano. In RePEc vi sono molte riviste in lingua spagnola, portoghese ed altre ancora, ed anche un certo numero di riviste italiane di economia, che non sono in WoS e neppure in Scopus. Per cui è una fonte utilissima, pubblica non solo H index ma altri indicatori tra cui IF di vario tipo. Ed è più ‘pulito’ di GS.

  4. Perchè usono H index di GS per imputare un IF alle riviste sprovviste di IF in WoS o riviste non WoS, ma per quelle che stanno in RePEc perchè non usare H index di RePEc ? Mistero …. oppure perchè non usare H index di Scopus per quelle che stanno in Scopus, invece del dato sporco di GS ? Doppio mistero !!!!

    • Non c’è scritto da nessuna parte, o almeno io non sono riuscito a trovarlo, il GEV13 non ha calcolato un semplice h-index delle riviste su GS, ma ha calcolato l’h-index per il periodo 2004-2010. Credo restringendo anche l’insieme dei citanti con il filtro economia e finanza (flag su Publish or Perish). Quali sono gli effetti di queste tecnicalità sulla classifica? E perché queste scelte? Mistero.

  5. Come abbia proceduto non è chiaro leggendo il comunicato ultimo. Nel file excel la colonna h index è presente e per molte riviste compare il dato. Per il periodo 2004-2010 sembra di capire si, forse usando PoP ma non viene dichiarato, quindi possiamo solo inferire. Ho fatto alcuni casuali test per alcune riviste usando GS, per riviste che conosco il dato che ottengo non è proprio identico a quello da loro indicato, a volte maggiore di poco, a volte minore di poco, facendo ricerca avanzata ed inserendo il titolo della rivista nel campo specifico previsto.

  6. Nelle mie prove, aggiungo, ho sempre filtrato sui campi economics e business, e non senza filtro che altrimenti si ottengono risultati molto ma molto superiori con tanti errori (citazioni non rilevanti intendo)

  7. Dalle prove casuali che abbiamo effettuato su PoP, l’h-index indicato nella lista viene fuori (in maniera esatta) solo se si restringe la ricerca al periodo 2004-2010 e si ricerca su tutti i campi (business, social sciences etc…). Basta escludere anche solo uno dei campi (anche chemical, ad esempio) che il risultato dell’h-index viene fuori decisamente diverso (provare per credere con la rivista “diritto, immigrazione e cittadinanza”).

  8. Il problema è che lo scopo di GS è quello di “spulciare” la rete e dare il risultato desiderato, non quello di “valutare” i risultati o quantomeno questa fase arriva dopo…
    A mio avviso bisognerebbe creare uno strumento ad hoc, semmai basandosi su quelli esistenti (GS, Repec ed altri), ma che con opportuni “check and balance” ci porti a risolvere il problema, che ripeto non è trovare un articolo, ma bensì “valutare” gli articoli che non hanno un ranking ufficiale.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.