Classifiche credibili? La Grande Guida CENSIS Repubblica offre davvero «una panoramica completa e approfondita sull’universo accademico italiano. Una vera e propria bussola soprattutto per le future matricole»? Qualche dubbio è legittimo se nella classifica della ricerca di Ingegneria industriale e dell’informazione finisce al terzo posto un ateneo senza nessun corso di laurea in ingegneria. Incidente di percorso o sintomo di carenze strutturali? Per capirlo, analizziamo in dettaglio indicatori e metodi delle classifiche CENSIS-Repubblica, discutendone incongruenze, criticità e fragilità.

Il 22 luglio 2014 è stata pubblicata l’edizione 2014-15 della Grande Guida Università curata dal CENSIS per conto del quotidiano la Repubblica. Anche se non avete sborsato 9,90 Euro per le 647 pagine della guida, al seguente link trovate una sintesi delle classifiche:

Grande Guida Università 2014- 2015 CLASSIFICHE

Questa era la  presentazione:

La Grande Guida Università di Repubblica (in collaborazione con Censis) torna in edicola per il quindicesimo anno consecutivo con lo scopo di continuare ad offrire a studenti, genitori e al mondo universitario ciò che è difficile trovare in un unico prodotto: una panoramica completa e approfondita sull’universo accademico italiano. Una vera e propria bussola soprattutto per le future matricole che dopo la cosiddetta riforma Gelmini si trovano a dover fare i conti con le nuove strutture degli atenei che prevedono la graduale scomparsa delle facoltà a favore di altre organizzazioni come dipartimenti o scuole. Fatto che ha reso necessario un riassestamento delle classifiche proposte dal Censis, che rappresentano il valore aggiunto della Grande Guida Università. Le valutazioni, suddivise in didattica e ricerca, consentiranno al lettore di fare una scelta più precisa in relazione all’interesse personale e agli obiettivi di studio e di lavoro.

Il messaggio è chiaro: il fulcro della Guida sono le classifiche, che grazie ad una “panoramica completa ed approfondita” aiuterebbero le matricole a scegliere in modo più preciso e consapevole.

È ormai una decina d’anni che l’istruzione universitaria deve fare i conti con una vera e propria “febbre dei ranking” che spazia dalle classifiche internazionali a quelle nazionai. Nonostante l’ampia risonanza a loro attribuiita da tutti  i mezzi di informazione, sono ben note agli esperti le numerose falle tecniche che in passato hanno dato luogo a risultati talmente paradossali da gettare più di un’ombra sulla credibilità di questi ranking.

AlexandriaTHE2010

Nel 2010, nella sua classifica di impatto citazionale, Times Higher Education ha collocato l’Università di Alessandria d’Egitto al quarto posto mondiale davanti a Stanford e Harvard grazie all’exploit bibliometrico di un ricercatore che aveva pubblicato non meno di 320 articoli nella rivista da lui diretta (Times Higher Education World University Rankings: science or quackery?). Di un’altra classifica famosa, il Ranking QS, è stata compilata la Top 10 degli svarioni più clamorosi (Ranking QS: la Top 10 degli svarioni più spettacolari). La progenitrice delle classifiche internazionali, la Classifica di Shanghai, è stata oggetto di una dettagliata stroncatura metodologica, il cui responso finale è stato tranchant:

any of our MCDM [Multiple Criteria Decision Making NdR] student that would have proposed such a methodology in her Master’s Thesis would have surely failed according to our own standards.

Billaut et al. “Should you believe in the Shanghai ranking”, Scienometrics 2010

Se si dirige lo sguardo sulle classifiche nazionali, la situazione non migliora. Tanto per dare un’idea, la classifica del Sole 24 Ore ha  rifilato ai suoi lettori una pretesa misura della qualità dei dottorati che – come ha svelato Roars – era un banale conteggio del numero degli studenti di dottorato (La classifica del Sole 24 Ore: Macerata e Salerno al top per la ricerca … o no?).  Non fa eccezione l’ANVUR che prima spiega che
le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico
ma poi pubblica  una raffica di classifiche di atenei (anzi due raffiche, dato che le classifiche per la stampa erano diverse da quelle sul sito ufficiale) in cui aggrega valutazioni di diverse aree. E anche quando rimaniamo nell’ambito di aree omogenee, nella classifica ANVUR di ingegneria industriale e dell’informazione l’Università di Messina precede di sei posizioni il Politecnico di Milano.
MessinaVsPoliMI
Insomma, il rigore scientifico non sembra essere il punto di forza delle cassifiche universitarie. Una ragione più che valida per verificare se la classifica CENSIS-Repubblica (giunta alla 15-esima edizione) fa eccezione e pende più nella direzione della scienza che in quella della ciarlataneria. Ma prima di entrare nei dettagli tecnici, abbiamo voluto soddisfare una nostra curiosità.

Prologo: Scienze Motorie sul podio … dell’ingegneria

Non c’è niente da fare: quando viene pubblicata una classifica è impossibile resistere alla tentazione di andare a controllare chi ha vinto e chi ha perso. Dato che chi scrive insegna in un corso di Laurea in Ingegneria Informatica, andiamo ad esaminare la  classifica della ricerca per l’Area 09, ovvero per Ingegneria Industriale e dell’Informazione. Insieme alle classifiche per le altre 13 aree scientifiche, questa graduatoria dovrebbe assolvere un compito importante: orientare le matricole verso le sedi dove si svolge la miglior ricerca. Ed ecco la classifica.
CENSISclassificaArea09Il terzo posto di Roma Foro Italico appare sorprendente. Infatti, quell’ateneo non ospita nessun corso di laurea in Ingegneria. Basta una veloce visita al suo sito, per scoprire che l’offerta formativa è concentrata nel campo delle scienze motorie e sportive.
ForoItalico
Eppure, nella classifica della ricerca, Roma Foro Italico supera tutti i politecnici italiani compreso quello di Milano. Cerco di consolarmi pensando che le prime due posizioni sono più plausibili: la fama l’ingegneria di Trento ha una buona fama e anche l’Università di Verona ha una sua reputazione.
Un attimo, però.
A Verona l’unico corso di laurea in Ingegneria è una laurea magistrale in Ingegneria e scienze informatiche, attivato nell’anno accademico 2009/2010. Davide che vince contro Golia? Forse. Però, mancano corsi come l’ingegneria meccanica, elettrica, elettronica e quella delle telecomunicazioni, solo per citarne alcune. Ma allora, come ha fatto Verona a meritarsi la medaglia d’argento?
Insomma, bastano pochi minuti dedicati a sfogliare la guida per rimanere perplessi sulla validità di quelle classifiche che «rappresentano il valore aggiunto della Grande Guida Università». Ecco un altro buon motivo per sottoporre la Grande Guida ad una revisione scientifica. Nel seguito riportiamo gli esiti di questa analisi che, oltre a spiegare l’enigma della Classifica di Area 09, fornirà ai lettori diversi elementi utili per valutare la qualità del lavoro svolto dal CENSIS.
Il primo passo è rintracciare i metodi e gli indicatori con cui sono state stilate le classifiche. Per fortuna, non è difficile,. Infatti, sul sito del CENSIS c’è un’apposita Nota Metodologica:
La Nota 2014 è essenzialmente uguale alla nota Nota 2013. Le principali differenze rispetto alla Nota 2012 e alla Nota 2011 riguardano la valutazione della ricerca, i cui criteri hanno subito una revisione sostanziale nel 2013.
Possiamo ora procedere al secondo passo, ovvero valutare se i metodi e i criteri siano sensati e scientificamente corretti. In particolare, toccheremo i seguenti punti:
  1. Correttezza della metodologia usata per aggregare gli indicatori
  2. Natura e adeguatezza degli indicatori
  3. Adeguatezza del database usato per valutare la ricerca scientifica
  4. Correttezza e robustezza degli indicatori bibliometrici

1. Correttezza della metodologia usata per aggregare gli indicatori

Uno dei problemi comuni a tutte le classifiche è quello di trovare un modo per confrontare le pere con le mele. Per esempio, per misurare i “rapporti internazionali” il CENSIS adotta tre indicatori, poco confrontabili tra loro:
  • la percentuale di studenti che usufruiscono del programma Erasmus
  • il numero di università straniere ospitanti diviso per il totale degli iscritti
  • la percentuale degli studenti stranieri sul totale degli iscritti
Come fare a condensare questi tre indicatori in un unico punteggio RI, rappresentativo dell’internalizzazione dell’ateneo? Ecco la spiegazione fornita dal CENSIS alle pp. 3-4 della nota metodologica.
CENSISaggregationRule
L’idea di convertire ogni indicatore su una scala da 0 a 1.000 per poi calcolarne la media può apparire naturale ed innocua. In realtà, questo tipo di normalizzazione è notoriamente errato, come brillantemente illustrato da J.C. Billaut, D. Bouyssou e P. Vincke in un articolo che analizza la classifica di Shanghai (Should you believe in the Shanghai ranking?).
Possiamo evidenziare le assurdità a cui conduce questa normalizzazione mediante un semplice esempio, che è ispirato a quello mostrato da Billaut nel suo articolo. Per semplicità, consideriamo un problema semplificato, ovvero l’elaborazione di un punteggio che misura l’internazionalizzazione sulla base di due indicatori:
  • la percentuale di studenti che usufruiscono del programma Erasmus
  • il numero di università straniere ospitanti diviso per il totale degli iscritti
Immaginiamo di avere otto università, i cui indicatori sono riportati nella Tabella A, insieme alle loro normalizzazioni su una scala tra 0 e 1.000.
CENSISnormalizationTrap1
Il punteggio di sintesi (penultima colonna) è dato dalla media aritmetica dei due indicatori normalizzati. Come è possibile vedere, l’Università h è in prima posizione seguita dalle altre, la cui classifica coincide con l’ordine alfabetico.
Supponiamo ora che da un anno all’altro, rimanga tutto uguale tranne che per un aumento del numero degli atenei stranieri che ospitano studenti Erasmus dell’Università h: da 24 sono passati a 33. Per le altre università non è cambiato assolutamente nulla. Sarebbe logico aspettarsi che la classifica non subisca mutamenti.
CENSISnormalizationTrap2
Applichiamo nuovamente la standardizzazione adottata dal CENSIS, ricalcolando i punteggi di sintesi e la relativa classifica. Naturalmente, l’Università h rimane in testa, ma – a sorpresa – viene ribaltata la classifica di tutte le altre sette università. L’Università, che era seconda, precipita all’ottavo posto, mentre l’Università g, che era ottava, viene proiettata al seccondo posto e così via.
Questa è quella che Billaut chiama normalization trap: questa standardizzazione, lungi dall’essere oggettiva o neutrale, fa dipendere l’importanza di un indicatore dal valore conseguito dal top performer. Se, a parità di condizioni, il top performer migliora un suo indicatore il peso relativo di quell’indicatore diminuisce. Come conseguenza, la posizione relativa di due atenei può cambiare senza che essi abbiano mutato i valori assoluti dei loro indicatori. Un paradosso che evidenzia l’arbitrarietà delle classifiche ottenute.
Questa arbitrarietà riguarda tutte le classifiche della Grande Guida, dal momento che sono tutte soggette alla normalization trap. Quanto scritto da Billaut per la classifica di Shanghai si applica pertanto anche alle classifiche del CENSIS:
The aggregation technique used is flawed

2. Natura e adeguatezza degli indicatori

Nella Grande Guida ci sono tre tipi di classifiche:

  1. Le classifiche globali degli atenei statali (ripartiti in quattro sottoclassifiche dimensionali: mega, grandi, medi, piccoli) e degli atenei statali (con tre sottoclassifiche: grandi, medi, piccoli).
  2. Le classifiche della didattica, ripartite in 14 sottoclassifiche, una per ogni area scientifica.
  3. Le classifiche della ricerca, ripartite in 14 sottoclassifiche, una per ogni area scientifica.

Le classifiche sono ottenute aggregando (con il metodo appena discusso) numerosi indicatori numerici che misurano diversi aspetti, dai servizi e le strutture, fino alla qualità della didattica e della ricerca. Nello scorrere la lista degli indicatori, è difficile trovare un filo di Arianna, ma sembra che abbia prevalso l’utilizzo dei dati numerici che erano più facilmente a disposizione.

Le classifiche globali sono ottenute tramite la media aritmetica dei 5 voti ottenuti nelle seguenti famiglie di indicatori:

  1. Servizi: pasti e alloggi. Fonte: MIUR.
  2. Borse e contributi: spesa. Fonte: MIUR.
  3. Strutture: posti in aule, bblioteche e laboratori. Fonte: ANVUR
  4. Web: Punteggio assegnato ai siti internet degli atenei sulla base della funzionalità e dei contenuti. Fonte: Censis 2014.
  5. Internazionalizzazione: iscritti stranieri, studenti che hanno trascorso periodi all’estero, studenti stranieri che hanno trascorso periodi nell’ateneo.

La voce “Web” è quella meno verificabile, quasi un Jolly che il CENSIS è libero di giocare a sua discrezione. Tutti le altre voci derivano da indicatori normalizzati in funzione del numero di studenti.

I pesi attribuiti agli indicatori sono uniformi, ma la procedure di normalizzazione tra 0 e 1000, lungi dall’essere neutrale, può spostare i voti, in modo poco prevedibile. Per esempio, nella voce “Servizi” l’Università della Calabria stacca tutte le altre ed il gioco della normalizazione schiaccia verso il basso i punteggi “Servizi” del resto degli atenei. L’inverso succede per il “Web”, dove tre università (Sannio, Napoli Parthenope e Chieti) rimangono staccate a fondo classifica, con la conseguenza di spingere verso l’alto i punteggi “Web” dei rimanenti atenei. La conseguenza è che gli atenei che stanno a metà nell classifica “Servizi” si vedono attribuiti 76 punti su 110, mentre chi sta a metà nella classifica “Web”, riceve 95 punti su 110.

Un sostanziale arretramento della prima università della sottoclassifica “Servizi” o un sostanziale avanzamento delle ultime tre università della sottoclassifica “Web” sarebbero capaci – da soli – di modificare sensibilmente tutti i punteggi degli altri atenei (e la loro classifica finale). Questa forma di instabilità è una conseguenza – del tutto prevedibile – della normalization trap.

Le classifiche della didattica sono basate sulla media di due voti relativi alle seguenti famiglie di indicatori:

  1. Produttività: tasso di persistenza tra il primo ed il secondo anno, indice di regolarità dei crediti, tasso di iscritti regolari, tasso di regolarità dei laureati. Fonte: MIUR.
  2. Rapporti internazionali: mobilità degli studenti in uscita, università ospitanti, iscritti stranieri. Fonte: INDIRE, MIUR.

Gli indicatori della produttività appaiono in buona parte sovrapponibili e nel complesso premiano gli atenei con meno abbandoni e fuori corso. Gli indicatori dei rapporti internazionali includono il numero di università straniere che hanno ospitato gli studenti “Erasmus”, un indicatore che non sembra particolarmente significativo.

Le classifiche della ricerca sono basate sulla media di due voti relativi alle seguenti famiglie di indicatori:

  1. Ricerca: unità di ricerca finanziate dai programmi PRIN per docente di ruolo, finanziamento medio dei programmi PRIN, progetti presentati nel programma PRIN per docente di ruolo, tasso di successo nei programmi PRIN, progetti di ricerca VII Programma Quadro per docente di ruolo. Fonte: MIUR e uffici ricerca degli atenei.
  2. Poduttività scientifica: h-index normalizzato medio, pubblicazioni per docente di ruolo, citazioni per pubblicazione. Fonte: Google Scholar.

Alcuni indicatori sono privi di significato. Per esempio, per primeggiare nell’indicatore che misura il finanziamento medio dei programmi PRIN, basta un solo progetto PRIN finanziato ma di grande entità. Anche il tasso di successo nei programmi PRIN premierebbe chi presenta un unico progetto e lo vede finanziato. Difficile interpretare questo pot-pourri di indicatori in contraddizione tra loro: un ateneo che svetta per numero di progetti PRIN presentati e finanziati potrebbe essere penalizzato negli indicatori del finanziamento medio e del tasso di successo.

Altrettano se non più problematici sono  gli indicatori di produttività scientifica adottati dal CENSIS alla cui discussione sono dedicate le prossime due sezioni.

3. Adeguatezza del database usato per valutare la ricerca scientifica

Le classifiche della ricerca nelle 14 aree scientifiche sono basate su due punteggi di sintesi: R (Ricerca), che dipende da 5 indicatori R1-R5, e PS (Produttività scientifica) che dipende da 3 indicatori PS1-PS3. Come in tutti gli altri casi, i punteggi di sintesi sono ottenuti ed infine aggregati utilizzando la tecnica di normalizzazione che abbiamo già visto essere soggetta alla normalization trap. In questa, sede ci interessa però la fonte da cui sono estratti gli indicatori PS1, PS2 e PS3 che stanno per:
  • PS1 h-index normalizzato medio (2008-2012)
  • PS2 Pubblicazioni/docenti di ruolo (2008-2012)
  • PS3 citazioni/pubblicazioni (2008-2012)
Si tratta di indicatori che richiedono di poter estrarre per ogni docente, non solo le sue pubblicazioni nel periodo 2008-2012 considerato, ma anche le citazioni ricevute in ambito scientifico. Si tratta di un problema non banale. Attualmente, esistono due grandi database bibliometrici: Web of Science della Thomson-Reuters e Scopus di Elsevier. È ben noto che offrono una diversa copertura della letteratura scientifica e che la produzione scientifica di molte discipline, soprattutto nell’ambito delle scienze umane e sociali, è rqppresentata in modo assai lacunoso.

Il CENSIS non utilizza nessuno di questi due database, ma ricorre a Google Scholar, che è un motore di ricerca specializzato nella letteratura scientifica. In virtù della maggiore eterogeneità dei contenuti accessibili attraverso Google Scholar, non è la prima volta che se ne propone l’uso per una valutazione bibliometrica estesa anche nel campo delle scienze umane e sociali. Ma è una soluzione illusoria. Google Scholar è uno strumento inadeguato allo scopo, anche perché introduce distorsioni grossolane come mostrato a più riprese su Roars (qui e qui). In entrambi gli esempi citati, alle intrinseche debolezze di Google Scholar si aggiungevano le distorsioni introdotte da un’interfaccia fatta in casa, denominata Scholar Search, sviluppata e mantenuta dal Molecolar Genetics Group dell’Università di Roma Tor Vergata, sotto il coordinamento di Gianni Cesareni e Daniele Peluso. Nella Grande Guida non è precisato se si sia fatto ricorso o meno  Scholar Search, ma a pagina 10 della versione cartacea si ringraziano “il prof. Cesareni e il dr. Peluso per il supporto sui dati Google Scholar“.

A prescindere dall’utilizzo dell”interfaccia Scholar Search, rimane il fatto che la letteratura scientometrica ritiene Google Scholar inutilizzabile ai fini della valutazione. Prima di tutto, come già osservato su Roars, Google Scholar non indicizza tutti gli articoli pubblicati e nemmeno tutte le riviste:

Tali problematiche crescono in maniera esponenziale se si prende in conto che non tutti i testi sono liberamente scansionabili dal crawler di Google, sia per ragioni legali legate ai diritti d’autore, sia per ragioni puramente tecniche legate alle policy interne e alle tecnologie informatiche dei differenti database che accolgono le diverse pubblicazioni scientifiche.

Un ulteriore problema è quello di disambiguare i docenti che hanno degli omonimi. Un problema tutt’altro che banale che non si riesce a risolvere con espedienti a buon mercato come quelli messi in atto dall’interfaccia Scholar Search già citata. Nella versione attualmente on-line, per estrarre le pubblicazioni di un ipotetico docente padovano “Tizio Fittizio”, Scholar Search utilizza la seguente interrogazione:

QueryPadovaSe nell’ateneo padovano esistesse un ricercatore di nome “Tito Fittizio” (il fratello, per esempio), l’interrogazione metterebbe nello stesso calderone le pubblicazioni di Tizio e Tito. Per inciso, lo stesso accadrebbe se Tito lavorasse nella sede padovana di un istituto del CNR e avesse l’abitudine di usare “Padua” nell’affiliazione. Ma quanto incidono questi equivoci? A suo tempo avevamo mostrato che, come conseguenza della disambiguazione fai-da-te di Scholar Search, i tre ricercatori più produttivi (secondo Scholar Search) del Dipartimento di Scienze Politiche e  Sociali dell’Università di Pavia fossero tali solo in virtù della loro omonimia con altri colleghi dell’ateneo e che almeno il 50% delle citazioni attribuite a quel dipartimento erano frutto di omonimie (Scholar Search e la leggenda del “rettore fannullone”). A riprova delle pesanti distorsioni, basterà ricordare che le percentuali di inattivi nelle aree umanistiche pavesi  10-12 e 14 risultavano sovrastimate di più di 50 punti percentuali rispetto alla realtà.

Non a caso, la letteratura scientometrica non annovera Google Scholar tra le basi dati utilizzabili per svolgere valutazioni della ricerca. Come scrive Diane Hicks,

[Google Scolar] is not in a form usable for structured analysis. Basically this is beacause GS is not built from structured records, that is from metadata fields. Rather that using the author, affiliation, reference etc. data provided by publishers, GS parses full text to obtains its best guess for these items.

4. Correttezza e robustezza degli indicatori bibliometrici

Ritorniamo ora all’indicatore PS (Produttività scientifica) che dipende a sua volta dai 3 indicatori PS1-PS3, ovvero:

  • PS1 h-index normalizzato medio (2008-2012)
  • PS2 Pubblicazioni/docenti di ruolo (2008-2012)
  • PS3 citazioni/pubblicazioni (2008-2012)
Fingiamo pure che i valori degli indicatori, invece che provenire dall’interrogazione di Google Scholar, siano dei dati affidabili. Ebbene, anche in una situazione ideale, l’uso di due dei tre indicatori rimarrebbe concettualmente errato.
Infatti, l’unico dei tre ad avere qualche significato è l’indicatore PS2: esso fornisce una elementare misura di produttività individuale, nemmeno molto affidabile, in quanto Google Scholar considera come pubblicazioni un po’ di tutto. Per fare un esempio, se cerchiamo le pubblicazioni di Umberto Eco, troviamo 3.900 risultati che includono, oltre a diversi contributi scientifici, non solo le loro traduzioni  in diverse lingue, ma anche i romanzi “Il nome della rosa” e “Il Pendolo di Foucault”, come pure le loro numerose traduzioni.
Ma gli indicatori PS1 e PS3 soffrono di problemi persino più gravi. In cosa consiste l’indice PS1 (h-index normalizzato medio)? Non è semplice rispondere alla domanda. La definizione fornita a pag. 6 della Nota metodologica sfida la comprensione del lettore, non senza far violenza alle concordanze grammaticali di genere:
hindexnormalizzato2
L’h-index è un noto indice bibliometrico, la cui definizione può essere trovata anche su Wikipedia. È noto che i suoi intervalli di confidenza sono ampi ed è considerato pertanto inadatto per costruire classifiche. Inoltre, nella letteratura scientifica non è dato trovare traccia dell’h-index normalizzato medio. A quanto pare, si tratta di un’invenzione degli sviluppatori di Scholar Search. Infatti, solo nel sito di Scholar Search è riportata una definizione che possiamo articolare in due passi.
1. Dapprima si definisce il “normalized h-index” di ogni singolo ricercatore:
The normalized H index is the Z score of the specific academic calculated with respect to the distribution of the H indexes of the SSD of pertinence.
ZscoreHindexSi tratta di una classica normalizzazione statistica, che ha l’effetto di produrre un indicatore con media nulla e varianza unitaria.
2. Nel secondo passaggio si sommano i “normalized h-index” dei ricercatori dello stesso ateneo e poi si divide il risultato per il loro numero, il che equivale a calcolare la media aritmetica dei “normalized h-index“. Nel commentare un esempio illustrativo viene infine chiarito che il risultato di questa operazione è proprio il nostro “normalized H index”:
In the left one Institutions are ranked according to the sum of the normalized H index while in the right one the ranking is according to average “normalized H index”
Siamo di fronte ad un indicatore che, non casualmente,  non trova riscontro nella letteratura scientifica. Infatti, è immediato dimostrarne l’inconsistenza attraverso il seguente facile esempio.
Immaginiamo due gruppi di ricerca, A e B, composti entrambi da tre scienziati. Nel gruppo A, i ricercatori A1, A2, A3, pubblicano solo articoli a firma singola:
A1: 10 articoli con 30 citazioni ciascuno (h-index = 10)
A2: 10 articoli con 30 citazioni ciascuno (h-index = 10)
A3: 10 articoli con 30 citazioni ciascuno (h-index = 10)
Il gruppo di ricerca ha prodotto 30 articoli in tutto ricevendo 30×30 = 900 citazioni. Secondo la definizione di Scholar Search, avremo
normalized H index del gruppo A = (10 + 10 + 10)/3 = 10
Veniamo ora al secondo gruppo di ricerca, quello B, i cui ricercatori collaborano gomito a gomito e pubblicano tutti i loro articoli a tre firme. Immaginiamo anche che in totale essi scrivano 30 articoli ricevendo 30 citazioni per ciascuno di esso.
B1: 30 articoli con 30 citazioni ciascuno (h-index = 30)
B2: 30 articoli con 30 citazioni ciascuno (h-index = 30)
B3: 30 articoli con 30 citazioni ciascuno (h-index = 30)
Il gruppo B  ha quindi prodotto 30 articoli in tutto ricevendo 30×30 = 900 citazioni. Secondo la definizione di Scholar Search, avremo
normalized H index del gruppo B = (30 + 30 + 30)/3 = 30
che è tre volte maggiore di quello del gruppo A. Eppure i due gruppi producono lo stesso numero di pubblicazioni (30 in tutto) ed hanno ricevuto lo stesso identico numero di citazioni (900). In altre parole, usare la media degli h-index individuali è un’operazione priva di senso perché nel caso di coautori può dar luogo a conteggi multipli. Una procedura più corretta si baserebbe sul calcolo dell’h-index dell’ateneo, effettuato contando una ed una sola volta tutte le pubblicazioni dei ricercatori affiliati. Anche così l’indicatore non sarebbe privo di debolezze, ma almeno si eviterebbe di usare uno sconclusionato indicatore fai-da-te di cui (giustamente) non c’è traccia nella letteratura bibliometrica.
Anche l’indicatore PS3 (citazioni per pubblicazione) è inadeguato: un ateneo con poche pubblicazioni ma molto citate può superare  atenei con molte più pubblicazioni e citazioni per docente di ruolo. A ben vedere, il clamoroso quarto posto di Alessandria di Egitto nella classifica citazionale 2010 di Times Higher Education nasceva proprio da indicatori soggetti a questo genere di fragilità. Su Roars avevamo anche mostrato che in una classifica delle nazioni costruita utilizzando come criterio bibliometrico il numero di citazioni per pubblicazione, il primo posto sarebbe stato occupato dall’ arcipelago Chagos dell’Oceano Indiano.
Ma non è finita. Tutti e tre gli indicatori PS1-PS3 mancano di robustezza quando vengono calcolati su gruppi poco numerosi. Ad uno sparuto gruppo di ricercatori la cui produttività ed il cui impatto citazionale sono un po’ sopra la media sono consentiti clamorosi sorpassi nei confronti di gruppi più numerosi le cui performance medie difficilmente assumeranno valori estremi.
È proprio questa mancanza di robustezza che spiega l’exploit di Roma Foro Italico nell’area di Ingegneria Industriale e dell’Informazione. Infatti, nell’Area 09, Roma Foro Italico può contare su soli 4 (quattro) soggetti valutati, che da soli sbaragliano il resto d’Italia, ad eccezione di Trento e Verona. Ed anche Verona, a ben vedere, nell’Area 09 dispone di soli 13 soggetti valutati. Qualcosa di simile si verifica anche nell’Area 03 (Scienze Chimiche), dove Catanzaro sale sul terzo gradino del podio grazie ad un drappello di 11 ricercatori.
È abbastanza curioso notare che i curatori delle classifiche dovevano avere qualche sentore dei problemi legati ai campioni poco numerosi. Infatti, come specificato a pag. 5 della nota tecnica
Per le aree CUN si è scelto di non considerare nella valutazione gli Atenei con un numero di docenti al di sotto di una certa soglia. Tale soglia è stata calcolata per ogni area come l’1,64% del numero massimo di docenti presenti in un singolo Ateneo per l’area in oggetto.
Ma come mai, nonostante le precauzioni, Roma Foro Italico non viene esclusa dalla classifica di Area 09? Basta proseguire nella lettura della nota, per scoprire che gi unici ad essere scartati sono stati gli Atenei con Aree CUN che contenevano un solo docente:
La percentuale è stata fissata in modo da poter escludere Atenei con Aree CUN con un solo docente. In particolare è risultato 1,64 = 100 x 1/61 dove 61 è il più piccolo, fra tutte le Aree CUN, numero massimo di docenti appartenenti ad una stessa area CUN.
Insomma, una precauzione minimale e del tutto insufficiente ad evitare esiti paradossali come quello già citato della classifica della ricerca dell’area 09.

Sono credibili le classifiche CENSIS-Repubblica?

Il lettore che ci ha seguito fino a questo punto è in grado di rispondere da solo.

L’analisi dei metodi e degli indicatori ha dimostrato che alcuni esiti paradossali che saltano subito all’occhio non sono infortuni di percorso, ma derivano da falle strutturali di una classifica fai-da-te, precaria nei metodi e nelle fonti dei dati.

Gli studenti e le loro famiglie comprano la guida e la consultano nella speranza di poter fare una scelta oculata a fronte di costi che la famiglia dovrà sostenere. Che servizio offre agli studenti e alle loro famiglie una guida che nella classifica della ricerca di un’area importante colloca al terzo posto nazionale una università con soli quattro docenti? Piuttosto, contribuisce ad accrescere la confusione e il disorientamento di chi deve scegliere.

Giunti alla fine, è lecito domandarsi chi siano i principali beneficiari di una guida di questo genere.

Gli studenti e le loro famiglie?

Oppure serve solo a chi la pubblica, mettendola in vendita a poco meno di 10 Euro a copia?

Send to Kindle

1 commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.