Anvur / Argomenti / Meritocrazia / Valutazione / VQR

VQR: la classifica di Pinocchio dell’ANVUR

Sono appena usciti i criteri della VQR. Ci vorrà tempo per analizzarli in dettaglio, ma da subito possiamo dire che gli errori della bibliometria fai-da-te della VQR non sono finiti.  Il GEV09 dell’ANVUR ha escogitato una “classifica di Pinocchio” in cui le riviste peggiori possono precedere quelle migliori. Da dove nasce l’errore? Dalla lettura frettolosa di un recente articolo, da cui si è presa in prestito una metodologia elaborata per altri scopi, senza rendersi conto che non era applicabile alla costruzione di classifiche di riviste. Si tratta solo di un’altra svista? Oppure esiste una spiegazione più generale dietro gli scivoloni dell’ANVUR? Tentiamo di dare una risposta.

Una nuova classificazione bibliometrica delle riviste

Sono appena usciti i criteri che verranno utilizzati nell’esercizio di Valutazione della Qualità della Ricerca (VQR 2004-2010). Originariamente prevista per la fine di gennaio, la pubblicazione dei criteri è stata posticipata a fine febbraio, probabilmente anche a causa delle incongruenze e degli errori segnalati su ROARS nei due articoli “VQR: la bibliometria fai-da-te dell’ANVUR”, parte I e parte II.

Ad una prima lettura, risulta evidente che i criteri pubblicati sono, in larga parte, ancora lacunosi. Infatti, per buona parte delle aree essi contengono margini di indeterminazione tali da non consentire la classificazione dei prodotti della ricerca. I singoli e le strutture non saranno pertanto in grado di selezionare i migliori prodotti da sottoporre alla valutazione prima della pubblicazione delle informazioni mancanti (soglie bibliometriche e classifiche di riviste, in particolare). Tuttavia, a poche ore dalla pubblicazione, emergono già  anomalie o veri propri errori. Per recensire i criteri delle diverse aree sarà necessario più di un articolo. In questa sede, cominceremo ad esaminare i criteri bibliometrici dell’Area 09, Ingegneria industriale e dell’informazione.

Per valutare gli articoli scientifici verranno usate sia le citazioni che una classifica delle riviste, la quale deriverà da criteri bibliometrici oggettivi. Per quanto riguarda il database ISI Web of Science, l’ANVUR considera i seguenti indici bibliometrici

Un articolo apparso su Roars (La classifica di Nonna Papera) aveva mostrato che la prima proposta dell’ANVUR, basata sulla media dei rankings, era un metodo notoriamente errato. Nel documento pubblicato la media dei rankings è sostituita dal seguente criterio.

“per le riviste indicizzate in WoS, per gli anni da 2004 a 2006 compresi verrà impiegato il solo IF, mentre per gli anni da 2007 a 2010 compresi verrà effettuata una combinazione mediante PCA (Principal Component Analysis) di IF, 5YIF, AI e EF, come descritto in dettaglio nell’appendice 1.”

Questo nuovo criterio supera i problemi che ROARS aveva evidenziato nella prima proposta dell’ANVUR? Sembra proprio di no.

Il ritorno di Nonna Papera?

La PCA è una tecnica usata per riassumere un insieme di variabili (per esempi, i quattro indicatori bibliometrici IF, 5Y-IF, EF, AI associati ad una rivista) in un numero inferiore di variabili. Al limite, utilizzando la prima componente principale, si possono persino riassumere tutte le variabili in un solo numero

A prima vista, sembra che la PCA sia esattamente ciò che serve per riassumere i quattro indicatori bibliometrici in un sola misura, a partire dalla quale diventerebbe poi agevole stilare una classifica univoca da usare nella VQR. Si noti che non è difficile estrarre un unico indice dai quattro indicatori. Per esempio, si potrebbe usare la loro media aritmetica, ma sarebbe una scelta arbitraria e poco difendibile, perché le quattro scale sono diverse e risulterebbero avvantaggiati gli indicatori che assumono valori più elevati, ovvero i due Impact Factor. In realtà, nemmeno la PCA risolve questo problema, perché applicarla senza normalizzare gli indicatori continuerebbe a privilegiare gli indicatori  che assumono valori più elevati. In effetti, nell’Appendice 1 del documento del GEV09 viene specificato che

“Ciascuno dei quattro parametri bibliometrici disponibili viene normalizzato in modo da
ottenere una corrispondente variabile standardizzata”

Quale normalizzazione verrà usata? Il documento non lo specifica, ma lo possiamo dedurre dalla documentazione preparatoria. Infatti, pochi giorni fa, il coordinatore della VQR (facendo riferimento al caso di due indicatori) dava il seguente suggerimento ai presidenti dei GEV:

“Calculate the cumulative distribution of both indicators, thus obtaining homogeneous values comparable in range [0,1]”

Usare i valori della distribuzione cumulativa è equivalente ad usare le posizioni in classifica divise per il numero di riviste classificate. In pratica, si tratta di stilare una classifica delle N riviste in base a ciascun indicatore bibliometrico e normalizzare la posizione in classifica sulla scala [1/N, 1] invece che [1, N]. Per facilitare la comprensione, nel seguito riporteremo i “percentile rankings” distribuiti tra 0% e 100%, dove si intende che i valori più bassi sono riferiti alle riviste migliori mentre il valore 100% è associato all’ultima rivista in classifica. A titolo di esempio, nella seguente tabella vengono riportati i dati relativi a 11 riviste della categoria scientifica “Automation & Control Systems” del Web of Knowledge. Le riviste selezionate sono quelle che vanno dalla decima alla ventesima posizione nella classifica del 5Y_IF (Fattore di Impatto a 5 anni). Per ogni rivista vengono forniti:

  • i valori dei quattro indici bibliometrici IF, 5Y-IF, EF, AI
  • la posizione RIF, R5Y-IF, REF, RAI (ranking) nelle quattro classifiche bibliometriche 
  • i valori dei quattro “percentile rankings” PIF, P5Y-IF, PEF, PAI

In prima istanza, l’ANVUR sembrava orientata a stilare una classifica in base alla media dei rankings

Gedeon_score = 0,25 RIF  + 0,25 R5Y-IF + 0,25 REF  + 0,25 RAI

Come già discusso nella “Classifica di Nonna Papera”, stilare classifiche usando la media dei rankings (o anche dei percentile rankings) è una pratica scorretta, bollata come tale quasi vent’anni fa da B. Thompson. In seguito alla segnalazione di ROARS, pare che il coordinatore della VQR fosse venuto a conoscenza dell’articolo di Thompson e lo avesse fatto circolare tra i membri dei GEV. Era pertanto lecito sperare che l’errore venisse evitato. Purtroppo, sembra che le cose siano andate diversamente.

Infatti, la trasformazione di variabili introdotta dalla PCA non è altro che una particolare trasformazione lineare delle variabili. Pertanto, la nuova metodologia proposta dal GEV09 produce uno score del seguente tipo:

PCA_score = a1 RIF + a2 R5Y-IF + a3 REF + a4 RAI

dove a1, a2, a3, a4 sono dei coefficienti (i cosiddetti “loadings”) calcolati attaverso la Principal Component Analysis. L’unica cosa che cambia, rispetto al Gedeon_score è che i valori dei coefficienti ai non saranno più necessariamente uguali tra loro. Tuttavia, ancora una volta, stiamo combinando in modo additivo i “percentile rankings”. In altre parole, non ci si è accorti che si stava ricascando in una variante della “classifica di Nonna Papera”.

Questa volta, però, l’errore è più grave. Come si vedrà tra poco, applicare la PCA in questo modo può dare origine ad una vera e propria “classifica di Pinocchio” in cui le riviste peggiori precedono quelle migliori.

Il principio di dominanza di Pareto

Il problema di costruire una classifica delle riviste, è un esempio di problema decisionale multiobiettivo. Sull’argomento esiste una vasta letteratura scientifica che contempla una varietà di approcci. Ciò nonostante, c’è un consenso unanime nel ritenere inammissibili i criteri decisionali che non rispettano il cosiddetto “Principio di dominanza di Pareto“. Celato dietro la terminologia un po’ solenne, si tratta di un elementare principio di buon senso, che possiamo illustrare attraverso il seguente esempio, riferito ad una classifica di studenti basata sui voti scolastici.

 

In altre parole, può accadere che il candidato B (Francesco) sia “dominato” dal candidato A (Antonio), nel senso che tutti i voti di B sono peggiori di quelli di A. La formulazione del principio di dominanza è molto semplice.

Principio di dominanza di Pareto: Il vincitore non può essere un candidato B dominato da qualche altro candidato A.

Adottare un criterio decisionale che non garantisce il rispetto del principio di dominanza di Pareto vorrebbe dire esporsi al rischio di prendere decisioni assurde e di costruire classifiche di Pinocchio che premiano i cattivi e puniscono i buoni.

La classifica di Pinocchio

In che senso la procedura proposta dal GEV09 può generare una “classifica di Pinocchio”? Per capirlo meglio, facciamo riferimento ai dati bibliometrici risportati nella precedente tabella delle riviste. I calcoli sono stati effettuati utilizzando il software matematico MATLAB della MathWorks. Il codice di calcolo è riportato nell’appendice dell’articolo. Procedendo al calcolo della PCA, si ottiene il seguente risultato:

PCA_score = – 0,5099 RIF  – 0,525 R5Y-IF + 0,6157 REF  + 0,2920 RAI

È immediato vedere che ci sono due coefficienti positivi e due coefficienti negativi. È questa eterogeneità dei segni che genera le assurdità della “classifica di Pinocchio”. Infatti, volendo stilare una classifica, ci sono due possibilità.

Ipotesi 1. Supponiamo che le riviste migliori siano quelle con PCA_score più basso e prendiamo in esame le seguenti due riviste.

 JEE (Journal of Excellent Engineering)

  • 1° – Impact Factor
  • 3° – 5Year-Impact Factor
  • 6° – Eigenfactor Score
  • 10° – Article Influence

PCA_score = – 0,5099 x 1 – 0,525 x 3 + 0,6157 x 6 + 0,2920 x 10 = 4,53

JQE (Journal of Questionable Engineering)

  • 9° – Impact Factor
  • 10° – 5-Year Impact Factor
  • 12° – Eigenfactor Score
  • 20° – Article Influence

PCA_score = – 0,5099 x 9 – 0,525 x 10 + 0,6157 x 12 + 0,2920 x 20 = 3,39

Il JQE, come intuibile dal suo titolo, è peggiore, tanto è vero che tutti i suoi indicatori sono dominati da quelli del JEE. Tuttavia, il suo PCA_score è più basso e quindi migliore. Evidentemente, ci siamo sbagliati a considerare migliori le riviste con il PCA_score più basso. Passiamo, pertanto, alla seconda ipotesi.

Ipotesi 2. Supponiamo che le riviste migliori siano quelle con PCA_score più alto e consideriamo una terza rivista.

TSE (Transactions on Superfluous Engineering)

  • 8° – Impact Factor
  • 8° – 5-Year Impact Factor
  • 13° – Eigenfactor Score
  • 19° – Article Influence

PCA_score = – 0,5099 x 8 – 0,5250x 8 + 0,6157 x 13 + 0,2920 x 19 = 5,27

Come testimoniato da tutti gli indicatori bibliometrici, le Transactions on Superfluous Engineering, di cui non vi consigliamo la lettura, sono decisamente peggiori del JEE. Eppure, ottengono un PCA_score più grande e quindi migliore di quello del JEE. Insomma, il criterio basato sulla PCA porta, in ogni caso, a risultati assurdi, perché consente la violazione del principio di dominanza.

È bene notare che la sola possibilità che si verifichi tale violazione pone seri dubbi sull’affidabilità del criterio anche nei casi in cui la sua applicazione non produce contraddizioni così evidenti.

Va anche detto che nell’esempio considerato la violazione non è attribuibile alla particolare tecnica di normalizzazione adottata. Anche se il GEV09 abbandonasse la normalizzazione suggerita dal coordinatore, e, piuttosto, trasformasse gli indicatori in variabili standardizzate (cioé con media nulla e varianza unitaria), nel caso considerato la PCA produrrebbe comunque loadings che non garantiscono il rispetto del principio di dominanza.

Concludendo, la PCA può generare classifiche assurde. È un metodo persino più scorretto della media dei rankings inizialmente considerata dall’ANVUR, che a sua volta era stata bollata come un grave errore dalla letteratura statistica già agli inizi degli anni ’90 del secolo scorso.

È lecito chiedersi come sia stato possibile inciampare in questo modo. Dal punto di vista strettamente tecnico, all’origine sembra esserci la lettura troppo frettolosa di un articolo bibliometrico di recente pubblicazione.

 

 

Una lettura frettolosa?

L’idea di utilizzare la PCA non è originale, ma il coordinatore della VQR ha tratto ispirazione da un recente articolo scientifico:

Bollen J, Van de Sompel H, Hagberg A, Chute R (2009) A Principal Component Analysis of 39 Scientific Impact Measures. PLoS ONE 4(6): e6022. doi:10.1371/journal.pone.0006022

L’articolo di Bollen utilizza la PCA come strumento per comprendere meglio le relazioni che esistono tra gli indicatori bibliometrici, considerandone ben 39. Infatti, negli ultimi anni l’interesse crescente per la bibliometria ha generato una vera e propria proliferazione di indicatori. È del tutto plausibile che molti indicatori siano, in misura maggiore o minore, dei “doppioni” di quelli esistenti, nel senso che misurano caratteristiche già misurate da altri indicatori. La PCA è particolarmente adatta a mettere in evidenza queste situazioni e può essere usata per raggruppare gli indicatori simili e distinguere quelli realmente diversi tra di loro. Bollen e i suoi collaboratori mostrano che le 39 variabili potrebbero essere riassunte abbastanza bene da due sole componenti principali. La proiezione lungo la prima componente principale fornisce una misura che distingue tra “impatto rapido” o “differito”. La proiezione lungo la seconda componente principale fornisce una misura che distingue tra “popolarità” e “prestigio”.

Dato che il GEV09 adotta una metodologia usata in questo articolo, qualcuno potrebbe attribuire la responsabilità della classifica di Pinocchio a Bollen. In realtà, è vero che l’articolo di Bollen utilizza la PCA dei percentile rankings, ma tale uso è legittimo perché orientato solo all’esplorazione delle tipologie di indicatori bibliometrici e delle loro affinità reciproche, ovvero di aspetti che risentono poco o nulla delle distorsioni introdotte dai rankings. Ma soprattutto, l’aspetto fondamentale è che l’articolo di Bollen non ha nulla a che fare con la costruzione di classifiche di riviste. Anzi, un lettore non frettoloso avrebbe notato che lungo la prima componente principale vengono ordinate le riviste in funzione della rapidità del loro impatto. Usare questa componente a scopi di classifica vorrebbe dire utilizzare come criterio primario di ordinamento non l’impatto, ma la sua rapidità, con tutti i paradossi che ne conseguirebbero.

Sembra pertanto che, seguendo un suggerimento del coordinatore della VQR, il GEV09 abbia estrapolato dalla letteratura una metodologia pensata per un altro scopo e l’abbia riproposta per costruire classifiche, senza rendersi conto che nel nuovo contesto le condizioni di applicabilità non erano soddisfatte.

È quasi impossibile evitare gli errori quando ci si dedica alla bibliometria fai-da-te. Non è il caso di sottovalutare le competenze e l’esperienza necessarie per muoversi nell’ambito di una disciplina tecnicamente esigente ed anche insidiosa.

La vera origine dei problemi della VQR

Proviamo a ricapitolare gli errori e le anomalie che hanno caratterizzato la fase preparatoria della VQR:

  1. La proposta di una procedura di classificazione bibliometrica a due stadi, senza precedenti e senza basi scientifiche, che può dare esiti paradossali (Misurare Nani e Giganti).
  2. La classifica bibliometrica delle riviste basata sulla media di rankings di indicatori bibliometrici, una pratica scientificamente screditata (La classifica di Nonna Papera).
  3. La nuova proposta di usare una classifica basata sulla PCA che può dar luogo ad una “classifica di Pinocchio” che preferisce le riviste peggiori a quelle migliori (questo articolo).
  4. Una formula per ripartire la quota premiale tra le strutture che si basa su una una combinazione “convessa” con pesi negativi, non solo gravida di paradossi, ma anche capace di instaurare meccanismi di punizione collettiva, in contrasto con i criteri usati all’estero (VQR: gli errori della formula ammazza-atenei dell’ANVUR).
  5. L’annuncio da parte del coordinatore della VQR della chiusura di sedi sulla base delle future classifiche della VQR, quando le agenzie di valutazione straniere (Regno Unito e Australia, in primis) producono solo “quality profiles”, rifiutandosi in modo assoluto di fornire classifiche (VQR: gli errori della formula ammazza-atenei dell’ANVUR).
  6. Il pregiudizio negativo del coordinatore della VQR nei confronti della qualità della produzione scientifica italiana, a dispetto dei dati bibliometrici che mostrano che l’impatto scientifico della quasi totalità degli atenei statali sta sopra la media mondiale (VQR: gli errori della formula ammazza-atenei dell’ANVUR).
  7. I criteri punitivi nei confronti degli enti di ricerca come il CNR, i cui ricercatori devono presentare un numero doppio di prodotti di ricerca (sei, invece che tre, come per gli universitari), quando non sembra esistere evidenza bibliometrica, né nazionale né internazionale, che la “produttività bibliometrica” degli enti di ricerca non universitari debba essere doppia di quella degli universitari (Perché il VQR penalizza gli enti pubblici di ricerca. L’indice di Cipolla).
  8. L’anomala composizione del GEV13, in cui almeno il 75% dei membri sono strettamente legati tra di loro, come dimostrato dalla “network analysis” effettuata da Alberto Baccini sui “gradi di separazione accademici” (Gli esperti di valutazione all’italiana)

Sorge il dubbio che tali e tante anomalie non non siano casuali ma abbiano, piuttosto, una spiegazione comune. Nell’intervista a Sergio Benedetto pubblicata da Repubblica c’è una risposta che merita una riflessione:

 I valutatori saranno valutati?

“No, questo è stato già fatto prima della selezione”

Da quanto è dato sapere, la selezione dei valutatori si è basata su criteri di eccellenza scientifica, sicuramente imprescindibili per condurre al meglio la valutazione dei prodotti e delle strutture. Tuttavia, la stessa architettura del processo di valutazione sembra presumere che l’eccellenza scientifica metta in grado i valutatori di fungere anche da progettisti dei criteri, un compito che dovrebbe essere tenuto separato dalla fase di valutazione ed affidato a persone dotate di competenze specifiche. Questo equivoco spiega la bibliometria fai-da-te sviluppata in segreto e la sua scia di errori. Equivoco aggravato dai conflitti di interesse da cui l’eccellenza scientifica non mette al riparo: inevitabilmente, i membri dei GEV sono indotti a plasmare i criteri a vantaggio dei propri Settori Scientifico Disciplinari, se non della propria scuola scientifica. Da qui l’impossibilità di soluzioni semplici e scientificamente robuste e la preferenza per soluzioni barocche, frutto di compromessi tra le forze in campo. Questi equilibrismi vanno annoverati tra le cause della discutibile qualità dei criteri bibliometrici della VQR.

Sarebbe preoccupante se la risposta di Benedetto all’intervistatrice indicasse che l’eccellenza scientifica nella propria disciplina sia un lasciapassare per costruire criteri bibliometrici, per rendere irrilevanti i conflitti di interesse e per essere esentati dal rispondere dell’esito del processo valutativo. Sarebbe un grave errore, se il necessario rigore tecnico cedesse il passo ad una rudimentale visione premio-punitiva in cui basta delegare agli “eccellenti” la valutazione per essere sicuri del buon esito del processo valutativo. Al contrario, abbiamo drammaticamente bisogno di un processo di valutazione che sia trasparente, che sia all’altezza dello stato dell’arte scientifico e che faccia tesoro della mole di esperienze internazionali.

Inutile nascondersi che, se gli sforzi bibliometrici dell’ANVUR dovessero essere valutati con lo stesso rigore che il coordinatore della VQR auspica per le sedi universitarie (“E qualche sede dovrà essere chiusa”), difficilmente raggiungerebbero la sufficienza.

Happy ending?

A fine gennaio, l’ANVUR stava per pubblicare i criteri della VQR quando due articoli di Roars (Misurare nani e giganti, La classifica di Nonna Papera) hanno indotto il coordinatore ad un repentino cambio di rotta, sfociato poi nel rinvio di un mese. Corre voce che il coordinatore si sia giustificato con i GEV spiegando che non aveva mai fatto di professione l’analista bibliometrico e che stava imparando strada facendo, anche grazie ad alcuni giorni di “full immersion” nella letteratura bibliometrica.

Nelle serate estive, la programmazione televisiva ripiega su film poco impegnativi, a volte anche ingenui, ma che regalano qualche ora di svago. Tra i film dell’estate scorsa, c’era Snakes on a Plane, un bizzarro action-horror-thriller che narra di un aereo invaso da serpenti velenosi che uccidono passeggeri e piloti. Alla fine, l’aereo viene condotto in salvo da un ragazzo che, fortunatamente, aveva diverse ore di pilotaggio al suo attivo. Nel momento cruciale, però, si scopre che la sua esperienza si riduceva a un videogioco di simulazione di volo sulla PlayStation 2.

Emmett Bradley: Sir, are you telling me that your only real flight time is at the controls of a video game?
Troy: No, see, it’s – it’s not a video game, all right? It’s a flight simulator.
Neville Flynn: Is that PlayStation or Xbox?
Troy: PlayStation 2!

Solo al cinema, è possibile pilotare e far atterrare un aereo avendo come unica esperienza un videogioco della PlayStation.

Tornando alla VQR, essa va svolta e va svolta al meglio. Proprio per questo, è bene ricordare che nelle nazioni serie la valutazione non si improvvisa e vengono svolti studi pilota di preparazione che fungono da “flight simulator” per il vero esercizio di valutazione della ricerca.

E in Italia? Allacciamoci le cinture e speriamo di non schiantarci al suolo.

 

Appendice: programma di calcolo

Di seguito è riportato lo script Matlab usato per i calcoli della PCA relativi all’esempio discusso nel testo.

% Classifiche bibliometriche di 11 riviste
% nella categoria ISI “Control and Automation”
% Fonte: Web of Knowledge – Thomson Reuters
% Ogni riga corrisponde ad una diversa rivista
% Ogni colonna contiene i rankings 2010 basati
% su uno dei seguenti parametri bibliometrici
% colonna 1: Impact Factor
% colonna 1: 5-Year Impact Factor
% colonna 3: Eigenfactor
% colonna 4: Article Influence
rankings=[2    1    10    3
1    2    11    9
5    3    9    6
7    4    2    4
4    5    4    7
10    6    7    8
9    7    6    5
11    8    5    10
6    9    3    2
3    10    8    11
8    11    1    1];

% Inizializzazioni
[n,m]=size(rankings);
percentili=zeros(n,m);

for i=1:m

%calcolo della funzione di distribuzione F
[F,x]=ecdf(rankings(:,i));
x=x(2:n+1); F=F(2:n+1);

%calcolo dei percentili
percentili(:,i)=100*interp1(x,F,rankings(:,i));

end

% PCA – Principal Component Analysis
loadings=princomp(percentili);

% coefficienti per pesare gli indici bibliometrici
% al fine di produrre la classifica ANVUR
% delle riviste
coefficienti_PCA=loadings(:,1)

 

Send to Kindle
Tag: , , , , , , , , , , , ,

22 Comments

  1. Luciano Modica says:

    Complimenti a Giuseppe De Nicolao (anche se non ha certo bisogno dei miei). Complimenti da un matematico (pur non esperto di statistica) e da un appassionato di università e di valutazione (pur non esperto in bibliometria). Hai dato definitivi fondamenti razionali ai dubbi che in tanti abbiamo avuto. Per chi è più vecchio, si tratta di dubbi statistici e politici avanzati per molti anni anche sulle formule di ripartizione dell’FFO preparate dal CNVSU, che si sono salvate solo per il moltiplicarsi dei parametri e delle eccezioni ma soprattutto perché non riguardavano i singoli ricercatori.
    Risalta ancora più l’errore politico-accademico che ha portato a selezionare per il direttivo dell’ANVUR alcune persone largamente inesperte anche se dotate di alto indice di Hirsch, mettendo addirittura a rischio l’intera impalcatura della valutazione universitaria e forse la stessa Agenzia.
    Ed è un vero peccato che l’ottima idea del Presidente Fantoni (avanzata nella sua prima intervista a UNIVERSITAS) di dotare l’ANVUR innanzitutto di un centro studi e ricerche è rimasta lettera morta sotto la pressione amministrativa di mille pareri indebiti e quella mediatica di classifiche salvifiche.

  2. Giuseppe De Nicolao says:

    @Luciano Modica: grazie per il commento. È vero: la mancanza di un centro studi e ricerche si fa sentire. Concordo con l’impressione che siano state sottovalutate le competenze necessarie a gestire la valutazione e predisporre griglie valutative e bibliometriche. La presunzione che l’eccellenza scientifica sia sufficiente per orchestrare una valutazione nazionale rivela l’arretratezza culturale entro cui ci muoviamo. È anche degna di riflessione l’ipotesi che l’origine del problema vada almeno in parte ricondotta alla selezione del direttivo da parte del Ministro Gelmini.

  3. Anch’io mi congratulo per l’ottima disamina operata nell’articolo, che peraltro meriterà puntate aggiuntive e altri approfondimenti, che immagino ROARS vorrà continuare a regalare al pubblico.

    Colgo però l’occasione per segnalare qui – come farò altrove – un “giallo” (altro materiale per i detective di ROARS).
    Sul sito del Senato è comparso un documento, evidentemente consegnato in sede di audizione dell’ANVUR alla 7a Commissione il 29/2 (l’oggetto dell’audizione non interessa qui), contenente il testo della “intervista scritta” di S. Fiori di “Repubblica” a S. Benedetto, ***nella versione di Benedetto***, che si discosta da quella pubblicata sul giornale
    http://www.senato.it/documenti/repository/commissioni/comm07/documenti_acquisiti/Prof.%20Benedetto%2029.02.12.pdf

    Ora, mentre è del tutto possibile che l’intervista pubblicata sul quotidiano riassuma e “tagli” certe parti, si notano degli scostamenti vistosi nella parte più “scottante”, circa il fatto che la “mappa del VQR” potrà essere usata per chiudere delle sedi, e per distinguere fra “teaching Universities” e “researching Universities”. A quella domanda, Benedetto riporta una risposta completamente diversa, e *ovviamente* corretta. Pero il testo della Fiori metteva quella risposta fra caporali (cioè « … »), esattamente come le altre.
    Anche in un’altra risposta, riguardo al quesito su “serie A, serie B, …, serie Z”, Benedetto riporta una versione con risposta più lunga, la cui elisione dalla versione pubblicata cambia il senso della frase.

    Beh, si sa che i giornalisti italiani non sono proprio il massimo – per questo esiste(rebbe) anche l’Ordine Professionale – ma per ora non abbiamo visto una smentita pubblicata su “Repubblica”…

  4. Più che Pinocchio e nonna Papera tutto questo mi ricorda la diga del Vajont!
    “Stanno costruendo una diga tra il monte SALTA e il monte TOC sopra un torrente che si chiama VAJONT che in ladino vuol dire „VA GIÙ“! Superstizioni…. tabu ….. pregiudizi, ti pare che la scienza si deve fermare per questi giudizi antropologici……” Vajont T1 Marco Paolini

    http://www.youtube.com/watch?v=ijjKBe4IEbI&feature=related

  5. Giuseppe De Nicolao says:

    @Libera: grazie. Paolini è memorabile. In particolare, 0:10:10

  6. Giuseppe De Nicolao says:

    @Renzino: Grazie della segnalazione. In effetti, nel testo della “intervista scritta” di S. Fiori di “Repubblica” a S. Benedetto, ***nella versione di Benedetto***, mancano del tutto le seguenti frasi che tutti hanno letto nell’intervista apparsa nelle edicole:

    “Tutte le università dovranno ripartire da zero. E quando la valutazione sarà conclusa, avremo la distinzione tra researching university e teaching university. Ad alcune si potrà dire: tu fai solo il corso di laurea triennale. E qualche sede dovrà essere chiusa. Ora rivedremo anche i corsi di dottorato, con criteri che porteranno a una diminuzione molto netta.”

    La giornalista di Repubblica, Simonetta Fiori, avrebbe commesso una grave scorrettezza se avesse inventato di sana pianta queste frasi che riporta tra virgolette. Se invece la Fiori avesse riferito fedelmente quanto dichiarato da Sergio Benedetto, chi e perché ha manipolato il testo apparso sul sito del Senato?

    Dato che il documento acquisito dal Senato sembra mettere in dubbio la correttezza professionale della Fiori, è nell’interesse della stessa giornalista fare chiarezza sulla fedeltà del suo articolo alle reali dichiarazioni di Sergio Benedetto.

  7. pippo12 says:

    Bene fa questo articolo a stigmatizzare la bibliometria fai-da-te, ma io riesco a condividerne la fede assoluta nella bibliometria “professionista”: magari non commetterà errori tecnici, ma di orrori e aberrazioni ne produce tanti anch’essa. La verità è che il metodo perfetto per la valutazione meccanica della ricerca non esiste, e i paesi seri (ad es United Kingdom) si guardano bene da pubblicare ranking, classifiche, metriche di valutazione, ma procedono valutando *tutti* i prodotti (rigorosamente all’interno del panel) mediante expert review. Il peccato originale del ANVUR è il voler procedere mediante pseudo-meccanismi presunti oggettivi, di cui al momento non esistono istanze di qualità sufficiente.

    • Giuseppe De Nicolao says:

      Grazie per il commmento. Nessuna fede acritica. L’uso della bibliometria pone molti e seri problemi di cui ho scritto estesamente in precedenza: “I numeri tossici che minacciano la scienza” http://www.roars.it/online/?p=339. In ogni caso, chi adotta gli strumenti bibliometrici non può esimersi dal rigore metodologico.

  8. Un piccolo commento, che non mette in discussione l’essenza dell’articolo.

    Quando dici “Usare i valori della distribuzione cumulativa è equivalente ad usare le posizioni in classifica divise per il numero di riviste classificate.”
    Non sarei così sicuro: se si mappa sui quantili il risultato non è tanto simile al ranking.

    • Giuseppe De Nicolao says:

      È vero che se conoscessi a priori la distribuzione dell’indicatore, mappando sui quantili otterrei dei risultati diversi dal ranking normalizzato. Però l’ANVUR non fa ipotesi sulla distribuzione. Pertanto non rimane che usare la funzione di distribuzione empirica (empirical cumulative distribution function, la function ecdf.m di MATLAB, vedi codice di calcolo). Il risultato è la posizione in classifica divisa per il numero n di soggetti classificati. Ordinare in senso crescente o decrescente non fa ovviamente differenza ai fini dell’argomentazione.

  9. svelto vito says:

    Mi sono interessato nel tempo a classificazioni varie anche per distribuzioni di fondi di ricerca. Sono perplesso della eccessiva complicazione cui si sta per andare incontro. I criteri validi, anche per essere trasparenti, devono essere semplici e non invocare complesse operazioni statistiche.
    La normalizzazione di alcuni dati (IF,5Y IF….) non può semplicemente essere ottenuta con una (banale) normalizzazione del più elevato dei valori ad 1 (ed una riduzione proporzionale degli altri)? Facendo in questo modo, senza invocare PCA od altro, ed effettuando una somma pesata dei diversi parametri, si hanno risultati palesemente assurdi (Pinocchio)?
    Conosco bene ed ho stima sia di De Nicolao sia di Benedetto; mi preoccupa che il risultato possa essere l’immobilismo nel passato per eccesso di pretese di verità ASSOLUTE.

    • Giuseppe De Nicolao says:

      Sono perfettamente d’accordo sulla necessità di criteri semplici, sia per ragioni di praticità sia per ragioni, ancora più importanti, di trasparenza.

      Anche la standardizzazione lineare nell’intervallo [0,1] presenta alcuni problemi. Se un indicatore presenta un singolo valore eccezionalmente grande, tutti gli altri valori vengono schiacciati verso lo zero e quell’indicatore corre il rischio di diventare irrilevante.

      Forse sarebbe semplicemente meglio avere il coraggio di scegliere un indicatore e procedere di conseguenza. Se si sceglie un indicatore relativo alla rivista in cui è apparso l’articolo si ottiene una classifica bibliometrica delle riviste, che ha molti limiti anche gravi (vedi esperienza australiana) ma è trasparente e facile da usare (la scelta del GEV01 e di parte del GEV09).

      Altrimenti, si possono usare le citazioni dell’articolo. Anche questa è una scelta trasparente e pratica da usare (una volta che siano pubblicate le soglie che identificano i livelli di qualità). Il problema è che le citazioni sono poco adatte a valutare prodotti singoli. Inoltre, un pugno di citazioni può decidere la classe del prodotto, soprattutto per quelli pubblicati di recente: un chiaro incentivo alle pratiche opportunistiche in vista delle future VQR. Se si usavano le citazioni, le Aree “bibliometriche” potevano essere valutate senza nemmeno selezionare i prodotti. Bastava usare Scopus o Web of Knowledge.

      Infine, c’è sempre l’opzione della peer-review per tutti (vedi il RAE/REF britannico).

      Ci siamo cacciati in un vicolo cieco (o quasi cieco) a causa di un bando strutturalmente sbagliato. Bisognerebbe avere il coraggio di fermare i motori e fare una revisione del bando.

      Inoltre, le scelte critiche (classifiche delle riviste, criteri bibliometrici, etc) non possono essere svolte in segreto, tanto più che imembri del GEV non hanno (in generale) competenze specifiche. In questi casi è fondamentale pubblicare delle proposte provvisorie ed aprire consultazioni pubbliche.

    • OK – mi aspetto però una generale passività. Mutismo e rassegnazione, tanto in lo stipendio non dipende mica dal VQR…

    • svelto vito says:

      Caro De Nicolao,
      Sei proprio sicuro che la valutazione del tipo peer review possa essere trasparente, adeguata e sempre migliore di criteri bibliometrici. A parte i costi e, quindi, i periodi lunghi tra valutazioni.
      Ricordo che ciascun articolo ha già subito un processo di referaggio per la pubblicazione, a livello internazionale; è necessario duplicare?
      Ricordo l’esperienza di valutazione dello stesso lavoro o proposta di ricerca, da parte anche solo di due esperti indipendenti. In primo luogo non sempre l’esperto, il referee è veramente tale per il lavoro sottoposto; mi riferisco a persone molto qualificate ma non sempre con assoluta conoscenza dello specifico argomento del lavoro o della proposta scientifica in esame.
      La differenza tra due valutazioni indipendenti risultava, in alcuni casi, notevole; per lavori intorno ad una soglia di discriminazione (cioè non eccezionali o chiaramente balordi) la scelta dei referee influenzava il risultato. E questo con approccio in assoluta onestà e buona fede.
      Dato che non si tratta di assegnare il premio Nobel ad un singolo, ho la convinzione che usando bene qualità della rivista e citazioni del particolare lavoro (con interventi per limitare l’impatto di comportamenti opportunistici) dovrebbe bastare per avvicinarsi alla verità!!

    • Posto che il Prof. De Nicolao potrà dare tutte le proprie risposte/considerazioni, mi permetto di consigliare la lettura dei documenti relativi alla consultazione tenutasi in Gran Bretagna alcuni anni fa in merito alla possibile introduzione “massiccia” di metodi bibliometrici nel loro RAE/REF
      http://www.hefce.ac.uk/research/ref/about/background/2007/
      in particolare l’analisi delle risposte alla consultazione pubblica.
      In generale consiglio la lettura di *tutta* la documentazione relativa allo sviluppo del nuovo REF
      http://www.hefce.ac.uk/research/ref/about/background/
      che dovrebbe essere considerato come un asset “gratis” – da conoscere – per tutti gli altri che, nel mondo, volessero cimentarsi con analoghi esercizi.

      Poi, beninteso, io considero legittime e giustificabili moltissime opinioni (del resto proprio di questo stiamo parlando…. non esistono valutazioni oggettive) e quindi la decisione di seguire una certa strada è comunque una scelta giustificabile con svariate ragioni…

    • Giuseppe De Nicolao says:

      Non ripongo fiducia illimitata nella peer review. Tuttavia, come ha scritto bene Rubele, in UK il RAE/REF, dopo approfondito esame ha concluso che

      “Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF” http://www.hefce.ac.uk/pubs/hefce/2009/09_39/

      Appare esserci un consenso sull’utilizzabilità degli indicatori bibliometrici solo per la valutazione su scala aggregata, non per valutare i singoli ricercatori e ancor meno i singoli prodotti. È l’ANVUR che sta battendo sentieri inediti, proponendo soluzioni che non hanno riscontro nella letteratura bibliometrica.

      Tra l’altro, i problemi non sono limitati alla materia bibliometrica, ma l’ANVUR e i GEV sono a disagio anche con l’analisi statistica dei dati. Due esempi per tutti: l’idea di classificare le riviste mediante la media dei rankings (http://www.roars.it/online/?p=3567) e, da ultimo, l’invenzione di un “algoritmo sperimentale” senza accorgersi che la componente principale di una coppia di variabili casuali con la stessa varianza è una retta a 45 gradi (http://www.roars.it/online/?p=5300). Ma davvero pensano che se esistesse un metodo robusto per valutare bibliometricamente i singoli articoli, non ci avrebbe pensato uno dei tanti studiosi di bibliometria che ci lavorano a tempo pieno? Se nei loro settori scientifici arrivasse un dilettante con la pretesa di fare la scoperta del secolo, come lo tratterebbero? Chiunque può dedicarsi alla bibliometria a tempo perso, ma esercitarsi sulla VQR nazionale mettendone a repentaglio al credibilità scientifica sembra eccessivo.

      In conclusione, un VQR bibliometrico sarebbe possibile, ma andrebbe fatto su base statistica, valutando produzione scientifica e citazioni di intere strutture (dipartimenti o atenei).

  10. Sono semplicemente uno di quelli che subira’ la valutazione ANVUR.
    Concordo con quanto affermato da Luciano Modica. Personalmente ritengo la valutazione della ricerca scientifica un passo essenziale e necessario sia per la sprovincializzazione della ricerca Italiana e sia per l’introduzone di una sana meritocrazia nel sistema accademico. Detto questo sono molto perplesso e critico sulla valutazione in corso.

    Temo infatti che aver dato la gestione della valutazione della ricerca a persone inesperte in ambito di indici bibliometrici (anche se ottimi ricercatori e in perfetta buona fede), troppo coinvolte ed eccessivamente animate dal sacro furore della scienza (anche se assolutamente oneste) finisca per affossare uno degli strumenti piu’ necessari per la crescita della ricerca in Italia.

    Sarebbe stato meglio che glia spetti bibliometrici della valutazione fossero affrontati da statistici esperti piuttosto che da ottimi ricercatori nell’area tematica da valutare.

    Inoltre mi lascia perplesso anche l’assegnare a questi ottimi ricercatori la scelta dei referee per la peer review.

    Sarebbe stato infatti opportuno evitare fossero coinvolti ricercatori a loro volta interessati dalla valutazione. Si rischia (anche inconsapevolmente) che il panel di esperti risolva un problema inverso, ossia dato un risultato da ottenere
    (valutazione positiva/bocciatura) venga scelto il referee giusto per ottenere con certezza il risultato prefisso (ossia che l’esperto del panel (piu’ o meno consapevolmente) valuti a priori il prodotto scientifico e scelga il referee che confermi a priori questo giudizio)

  11. Maurizio Schmid says:

    Caro De Nicolao, grazie per il contributo e complimenti.
    Intervengo per una technicality: se, invece di lavorare attraverso le PCA, si fosse utilizzata la non-negative matrix factorization (NMF), probabilmente avremmo almeno salvato il principio della dominanza. Semplicemente, in quel caso, gli equivalenti dei loadings sarebbero stati tutti positivi, e quindi sarebbero andati nella direzione che anche Svelto ricordava (un po’ di pesi su parametri), e con un criterio che comunque va nella direzione delle PCA, ovvero salvaguardare quei parametri che, in termini statistici, vanno a descrivere con maggiore sensibilità, la variabilità del sistema da valutare.

    • Giuseppe De Nicolao says:

      Grazie per il commento e per la nota metodologica. Credo che Vito Svelto abbia sottolineato, molto opportunamente, l’esigenza che i criteri siano comprensibili a tutti. Da questo punto di vista, mi sembra meglio usare un unico criterio bibliometrico, se proprio è necessario classificare le riviste (ma è proprio necessario farlo? non insegna nulla il fallimento australiano?).

      L’uso di tecniche, più o meno sofisticate, finisce per occultare il vero problema: gli indicatori non sono misure rumorose del “vero valore bibliometrico” (nel qual caso sarebbe sensato ricorrere ad una qualche media che riduca l’influsso del rumore casuale) ma misurano diversi aspetti (impatto di breve periodo, impatto di più lungo periodo, etc). Per poter aggregare bisogna sbilanciarsi sul peso da dare ai diversi aspetti (quanto conta avere un impatto rapido rispetto ad un impatto più durevole?). Dato che è difficile giustificare questo tipo di scelta (potrei dire che l’IF conta il 65% e il 5Y-IF conta il 35% ma andrebbe bene anche 50% vs 50%) si preferisce delegare la scelta dei pesi ad una “formula magica” come la PCA. Ovvio che sarebbe meglio una formula magica che non produce mai loadings negativi, ma rimarrebbe pur sempre una formula magica che ci risparmia l’imbarazzo di scegliere.

      Una soluzione onesta sarebbe definire un criterio globale (esempio: tra due riviste preferisco quella che massimizza il minimo tra IF e 5Y-IF) e dedurre l’aggregazione di conseguenza. Temo però che ne risulterebbero quasi sempre criteri poco comprensibili ai più.

  12. Giorgio Israel says:

    Complimenti davvero a ROARS, e sia detto senza l’ombra di ironia ma in modo sincero e con grande stima. Perché è davvero meritorio che ci sia qualcuno che ha l’energia e la voglia di combattere nel merito questo diluvio di cialtronerie della peggior specie.
    Vorrei soltanto dire che sarebbe anche il caso di esercitare un certo distacco e osservare con un minimo di prospettiva il precipizio di follia in cui stiamo cadendo: il trionfo orgiastico della metodologia, quella che Colletti chiamava la “scienza dei nullatenenti”.
    Mi permetto al riguardo di riproporre una testimonianza di mezzo secolo fa:

    Leo Szilard (Budapest 1898, La Jolla 1964) è stato uno dei fisici più brillanti del XX secolo. Alla fine della sua vita si dedicò alla scrittura di racconti. In uno di questi “The Mark Gable Foundation” un miliardario chiede al personaggio principale, un ricercatore, come si potrebbe rallentare l’avanzata della scienza, a suo avviso troppo veloce.
    Il ricercatore risponde: «Si potrebbe mettere in piedi una fondazione dotata annualmente di 30 milioni di dollari. I ricercatori che hanno bisogno di denaro potrebbero fare domanda, mostrandosi convincenti. Calcoliamo per esaminare i dossier dieci comitati, ciascuno composto da una dozzina di ricercatori. Consideriamo i ricercatori più attivi e nominiamoli membri di questi comitati. In primo luogo, i migliori ricercatori sarebbero sottratti ai loro laboratori e occupati a valutare i dossier. In secondo luogo, i ricercatori alla ricerca di denaro si concentrerebbero sulle questioni ritenute promettenti, e sulle quali sarebbero quasi sicuri di poter pubblicare rapidamente. I primi anni, si avrebbe certamente un aumento notevole della produzione scientifica; ma a forza di ricercare cose evidenti, la scienza presto si sterilizzerebbe. Vi sarebbero delle mode e coloro che le seguissero avrebbero dei crediti. Quelli che non le seguissero non ne avrebbero e apprenderebbero rapidamente a seguire a loro volta le mode».

    Il povero Szilard non avrebbe mai potuto immaginare che la fantasia fosse così modesta rispetto alla realtà e che centinaia di ricercatori sarebbero stati sterilizzati non alla ricerca di cose evidenti e alla valutazione di dossier, ma a “ricerche” nell’ambito di una pseudoscienza ridicola e avvilente rispetto alla quale la tarda scolastica medioevale fa la figura di un pensiero nobile, elevato e pieno di contenuti.

  13. Pingback: VQR: AnvurLeaks, il complotto australiano, la maledizione di Atuk e le classifiche di Pinocchio

Leave a Reply