Google Scholar è un potente strumento per la ricerca bibliografica e la qualità dei dati forniti sta velocemente migliorando. Al momento gli indicatori bibliometrici che se ne ricavano sono poco affidabili. Malgrado ciò l’ANVUR si accinge ad usarlo nel prossimo VQR. Non meravigliatevi se troverete il professor Primo Capitolo nella classifica dei migliori scienziati italiani.

Tra un po’ saremo la prima nazione a usare Google Scholar  (GS) in un esercizio di valutazione, almeno stando a questa rassegna di Diane Hicks. Il GEV di Area 13 si accinge infatti ad usare i dati di GS per stimare l’Impact Factor (IF) di riviste che non sono presenti su Web of Science e di cui non è noto l’IF.

D’altra parte alcuni siti da qualche tempo hanno costruito statistiche sui top scienziati italiani usando proprio GS. Ed ormai i giornali usano a man bassa questi dati. Addirittura l’ANVUR chiede nel modulo di autocandidatura a referee di inserire il proprio h-index calcolato su GS con il software Publish or Perish (PoP).

Tra i bibliometrici è in corso una accesa discussione sull’affidabilità di GS. Vi ha avuto un ruolo assai importante il caso di Ike Antkare, ricordato anche su Nature, e che ha interessato i media generalisti. Cyril Labbé il ricercatore francese che ha creato Ike Antkare: uno scienziato inesistente autore di  100 paper (inventati), citati ciascuno almeno 100 volte. Con un h-index di 100 calcolato su GS, Ike Antkare è diventato una delle grandi star del firmamento scientifico. Se tentate adesso con PoP una ricerca per autore, scoprirete che Ike Antkare è stato eliminato dalle indicizzazioni, e tutti i suoi paper sono stati cancellati da Google Scholar (ma li potete trovare ancora qua).

Il problema principale di Google Scholar non è però solo la manipolabilità, come ha dimostrato il caso di Ike Antkare. Il problema di fondo è che allo stato attuale, come scrive Diane Hicks,

[Google Scolar] is not in a form usable for structured analysis. Basically this is beacause GS is not built from structured records, that is from metadata fields. Rather that using the author, affiliation, reference etc. data provided by publishers, GS parses full text to obtains its best guess for these items.

La conseguenze di questo sono piuttosto rilevanti.  I casi illustrati sotto sono meno noti di quello di Antkare. Nella Tabella 1 riportiamo le pubblicazioni ed il relativo h-index di alcuni scienziati, ordinati in base al numero di pubblicazioni. La tabella 1 è stata costruita su GS usando la ricerca per autore del software Publish or Perish (dati al 16 aprile 2012):

Tabella 1. Ricercatori anglofoni ordinati per numero di pubblicazioni su GS
Nome dell’autorePubblicazionih-indexCitazioni ricevute dall’articolo più citato
Chapter I>100012323
Chapter V>1000958
Chapter X>10008323
Volume I>100012447
Volume V>100014447
Bibliography>1000831
Index>100013355
Preface45710100
Foreword455372609
Chapter II2765323
Introduction263633
References2001055
Preface A.94460
Remarks66528
Preface I.3324
Conclusion1225

Tra gli autori italiani si segnalano, sempre ordinati secondo il numero di pubblicazioni:

Tabella 2. Ricercatori italiani ordinati per numero di pubblicazioni su GS
AutorePubblicazioniH-indexCitazioni ricevute dall’articolo più citato
Capitolo I>100035
Bibliografia>10001051
Indice I89646
Capitolo V43033
Introduzione403423
Introduzione I364423
Capitolo X14722
Prefazione6535
Prefazione I1412

Si può notare che (i) anche tra gli italiani ci sono autori molto produttivi, e (ii) gli autori italiani a parità di produttività tendono a ricevere un numero di citazioni più basso degli autori anglofoni.

Tra le riviste, cioè utilizzando la modalità di interrogazione “Journal Impact” di PoP, la situazione non cambia di molto. Sono riviste molto citate (articoli pubblicati e h-index tra parentesi), English Translation (>1000; 19); Editorial Board  (>1000; 11); Editor in Chief (>1000; 6);  Obituary Notices (483, 10);  e  last but not least (una rivista anche questa! 8 articoli e h-index 2) la rivista bibliometrica Impact Factor (40; 4)

E potremmo continuare.

Malgrado la cancellazione di Ike Antkare da GS e da PoP, le conclusioni di Labbé sembrano ancora valide:

At this point in time, tools computing individual researcher  [and journal ndr] performance indices using Google scholar are not reliable. This experiment shows how easily and to what extent computed values can be distorted.

3 Commenti

  1. Pur riconoscendo che c’è stato in questi anni uno sforzo da parte di GS di raffinare i meccanismi di selezione delle fonti direi che non ci siamo ancora e ritengo estremamente pericoloso affidarsi ora a GS come fonte per la valutazione, tuttavia non siamo lontani dal momento in cui si potrà tenere conto anche dei dati di GS.
    Questo strumento presenta però in prospettiva gli stessi difetti dei database commerciali.
    Il fatto che sia gratuito non deve trarre in inganno. GS è monopolista nella gestione dell’informazione almeno tanto quanto TR o Scopus. Non a caso rende molto difficile l’estrazione dei dati per (ri)elaborazioni più affidabili (e questo è il primo difetto), la selezione delle fonti ha ancora maglie troppo larghe e soprattutto non lavora sui metadati ma sui full text. Anche GS ha la sua classifica di riviste. Recentemente ha pubblicato la classifica delle top 100 riviste nelle diverse lingue, ordered by their five-year h-index and h-median metrics http://scholar.google.com/intl/en/scholar/metrics.html

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.