Google Scholar è un potente strumento per la ricerca bibliografica e la qualità dei dati forniti sta velocemente migliorando. Al momento gli indicatori bibliometrici che se ne ricavano sono poco affidabili. Malgrado ciò l’ANVUR si accinge ad usarlo nel prossimo VQR. Non meravigliatevi se troverete il professor Primo Capitolo nella classifica dei migliori scienziati italiani.

Tra un po’ saremo la prima nazione a usare Google Scholar  (GS) in un esercizio di valutazione, almeno stando a questa rassegna di Diane Hicks. Il GEV di Area 13 si accinge infatti ad usare i dati di GS per stimare l’Impact Factor (IF) di riviste che non sono presenti su Web of Science e di cui non è noto l’IF.

D’altra parte alcuni siti da qualche tempo hanno costruito statistiche sui top scienziati italiani usando proprio GS. Ed ormai i giornali usano a man bassa questi dati. Addirittura l’ANVUR chiede nel modulo di autocandidatura a referee di inserire il proprio h-index calcolato su GS con il software Publish or Perish (PoP).

Tra i bibliometrici è in corso una accesa discussione sull’affidabilità di GS. Vi ha avuto un ruolo assai importante il caso di Ike Antkare, ricordato anche su Nature, e che ha interessato i media generalisti. Cyril Labbé il ricercatore francese che ha creato Ike Antkare: uno scienziato inesistente autore di  100 paper (inventati), citati ciascuno almeno 100 volte. Con un h-index di 100 calcolato su GS, Ike Antkare è diventato una delle grandi star del firmamento scientifico. Se tentate adesso con PoP una ricerca per autore, scoprirete che Ike Antkare è stato eliminato dalle indicizzazioni, e tutti i suoi paper sono stati cancellati da Google Scholar (ma li potete trovare ancora qua).

Il problema principale di Google Scholar non è però solo la manipolabilità, come ha dimostrato il caso di Ike Antkare. Il problema di fondo è che allo stato attuale, come scrive Diane Hicks,

[Google Scolar] is not in a form usable for structured analysis. Basically this is beacause GS is not built from structured records, that is from metadata fields. Rather that using the author, affiliation, reference etc. data provided by publishers, GS parses full text to obtains its best guess for these items.

La conseguenze di questo sono piuttosto rilevanti.  I casi illustrati sotto sono meno noti di quello di Antkare. Nella Tabella 1 riportiamo le pubblicazioni ed il relativo h-index di alcuni scienziati, ordinati in base al numero di pubblicazioni. La tabella 1 è stata costruita su GS usando la ricerca per autore del software Publish or Perish (dati al 16 aprile 2012):

Tabella 1. Ricercatori anglofoni ordinati per numero di pubblicazioni su GS
Nome dell’autore Pubblicazioni h-index Citazioni ricevute dall’articolo più citato
Chapter I >1000 12 323
Chapter V >1000 9 58
Chapter X >1000 8 323
Volume I >1000 12 447
Volume V >1000 14 447
Bibliography >1000 8 31
Index >1000 13 355
Preface 457 10 100
Foreword 455 37 2609
Chapter II 276 5 323
Introduction 263 6 33
References 200 10 55
Preface A. 94 4 60
Remarks 66 5 28
Preface I. 33 2 4
Conclusion 12 2 5

Tra gli autori italiani si segnalano, sempre ordinati secondo il numero di pubblicazioni:

Tabella 2. Ricercatori italiani ordinati per numero di pubblicazioni su GS
Autore Pubblicazioni H-index Citazioni ricevute dall’articolo più citato
Capitolo I >1000 3 5
Bibliografia >1000 10 51
Indice I 896 4 6
Capitolo V 430 3 3
Introduzione 403 4 23
Introduzione I 364 4 23
Capitolo X 147 2 2
Prefazione 65 3 5
Prefazione I 14 1 2

Si può notare che (i) anche tra gli italiani ci sono autori molto produttivi, e (ii) gli autori italiani a parità di produttività tendono a ricevere un numero di citazioni più basso degli autori anglofoni.

Tra le riviste, cioè utilizzando la modalità di interrogazione “Journal Impact” di PoP, la situazione non cambia di molto. Sono riviste molto citate (articoli pubblicati e h-index tra parentesi), English Translation (>1000; 19); Editorial Board  (>1000; 11); Editor in Chief (>1000; 6);  Obituary Notices (483, 10);  e  last but not least (una rivista anche questa! 8 articoli e h-index 2) la rivista bibliometrica Impact Factor (40; 4)

E potremmo continuare.

Malgrado la cancellazione di Ike Antkare da GS e da PoP, le conclusioni di Labbé sembrano ancora valide:

At this point in time, tools computing individual researcher  [and journal ndr] performance indices using Google scholar are not reliable. This experiment shows how easily and to what extent computed values can be distorted.

Send to Kindle

3 Commenti

  1. Pur riconoscendo che c’è stato in questi anni uno sforzo da parte di GS di raffinare i meccanismi di selezione delle fonti direi che non ci siamo ancora e ritengo estremamente pericoloso affidarsi ora a GS come fonte per la valutazione, tuttavia non siamo lontani dal momento in cui si potrà tenere conto anche dei dati di GS.
    Questo strumento presenta però in prospettiva gli stessi difetti dei database commerciali.
    Il fatto che sia gratuito non deve trarre in inganno. GS è monopolista nella gestione dell’informazione almeno tanto quanto TR o Scopus. Non a caso rende molto difficile l’estrazione dei dati per (ri)elaborazioni più affidabili (e questo è il primo difetto), la selezione delle fonti ha ancora maglie troppo larghe e soprattutto non lavora sui metadati ma sui full text. Anche GS ha la sua classifica di riviste. Recentemente ha pubblicato la classifica delle top 100 riviste nelle diverse lingue, ordered by their five-year h-index and h-median metrics http://scholar.google.com/intl/en/scholar/metrics.html

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.