Anvur

Lo strano caso delle concordanze della VQR

Nella VQR (aree 1-9 e 13) è stato usato un mix di strumenti per la valutazione  del singolo prodotto di ricerca: la bibliometria e la cosiddetta informed peer review. ANVUR ha svolto un esercizio per studiare se i risultati ottenuti con l’uno o l’altro metodo sono concordi. In questo post si mostra che per le aree bibliometriche (1-9) i dati ANVUR mostrano una concordanza limitata o al più modesta. In area 13 (economia e statistica) la concordanza è invece substantial. Questo accade perché il GEV13 ha condotto un “esperimento” sostanzialmente diverso da quello delle aree bibliometriche. Le procedure sono tali per cui si può sostenere che in Area 13 per almeno 326 articoli su 590 il giudizio finale è stato deciso non dai revisori, ma direttamente dai membri del GEV. Sulla base di questo si può congetturare che i risultati finali della VQR sono stati determinati dal mix di tipologie di valutazione adottate. Il mix di strumenti di valutazione adottati ha verosimilmente pesato sia per le strutture che per i dipartimenti, ed indipendentemente dalla normalizzazione che si decida di adottare.

La VQR è a mia conoscenza l’unico esercizio di valutazione che utilizza un mix di strumenti di valutazione del singolo prodotto di ricerca: bibliometria e la cosiddetta informed peer review (da ora in poi IR). Si tratta di un passaggio metodologico particolarmente critico poiché si ipotizza implicitamente che la revisione dei pari e la bibliometria siano egualmente capaci di approssimare una stesso fenomeno: la qualità della ricerca. E’ opinione consolidata in letteratura che (i) la qualità della ricerca è individuabile esclusivamente dalla revisione dei pari,  e (ii) che gli indicatori bibliometrici approssimano la dimensione dell’impatto (qualcosa che ha a che fare con popolarità, audience, successo, utilità) di una ricerca sulla comunità dei pari. Questa distinzione suggerisce che adottare in un esercizio di valutazione un mix di strumenti che approssimano dimensioni diverse (qualità, impatto) può dare luogo a problemi enormi di interpretazione dei risultati.

Per escludere possibili problemi interpretativi e di tenuta complessiva della VQR, ANVUR ha condotto quello che considera un esercizio di verifica della concordanza tra i due strumenti di valutazione. Tale esercizio è sintetizzato nell’appendice B del rapporto finale VQR e nelle appendici A dei rapporti di Area (1-9 e 13). Per ogni area cosiddetta bibliometrica e per area 13 (scienze economiche e statistiche) sono stati estratti dei campioni di articoli su rivista che sono stati valutati sia con strumenti bibliometrici che con IR al fine di verifica la concordanza tra i due sistemi.[1]

ANVUR sintetizza i risultati nelle conclusioni dell’Appendice B del rapporto finale VQR sostenendo che i dati verificano l’ipotesi:

“Nel totale del campione dei prodotti conferiti per la valutazione dai GEV valutati con metodi bibliometrici, si riscontra una più che adeguata concordanza tra valutazioni effettuate con il metodo della revisione tra pari e con quello bibliometrico. […]Questo risultato giustifica pienamente la scelta fatta nella VQR, e dettata da molte ragioni concomitanti, di utilizzare entrambe le tecniche di valutazione.” (p. 25-26; corsivo aggiunto)

Vediamo i dati presentati da ANVUR. La Tabella B7 dell’appendice che riproduciamo qui di seguito, contiene i risultati (allo stato anche questi  irriproducibili)[2] del calcolo della statistica kappa di Cohen. Tale indicatore dà una misura del grado di accordo tra il giudizio attribuito ad ogni articolo tramite IR e quello derivato dagli indicatori bibliometrici. Come sappiamo sia la IR che la bibliometria attribuiscono a ciascun lavoro un giudizio di E(ccellente), B(uono), A(ccettabile) e L(imitato). Il giudizio dei revisori e quello bibliometrico potrebbero coincidere per puro caso. La kappa di Cohen misura di quanto l’accordo tra revisori e bibliometria eccede l’accordo dovuto al semplice operare del caso. La kappa assume valori inferiori o uguali a zero quando l’accordo è dovuto al semplice operare del caso, e valore pari ad 1 quando i giudizi sono perfettamente concordanti. Ad esempio, per l’intero campione VQR (prima riga della tabella) il valore di kappa è 0,32 che significa che c’è concordanza tra i giudizi espressi dai pari e quelli bibliometrici per un numero di articoli superiore del 32% rispetto a quanto sarebbe accaduto per il solo operare del caso.

Tralasciamo la questione dei pesi,[3] e prendiamo per buono il valore di kappa preferito da ANVUR, quello con “pesi VQR”. Come si può vedere per le aree bibliometriche il valore di kappa varia tra un minimo di 0,17 per Area 9 (Ingegneria industriale) e un massimo di 0,29 per Area 5 (scienze biologiche). Si distingue Area 13 con un kappa pari a 0,61,[4] che, sia detto per inciso, verosimilmente spinge verso l’alto il kappa calcolato per il totale del campione VQR.

Una volta noti i valori di kappa, come si giudica se la concordanza è adeguata? I manuali presentano diverse linee guida. Landis and Koch (Biometrics, 1977), articolo citato 22861 volte (al 19/11/2013) secondo Google Scholar, presenta la seguente classificazione di kappa:

Ecco una bella grafica:

 

J.L. Fleiss et al. nel manuale Statistical Methods for Rates and Proportions (Wiley, third ed., 2003: 604) scrivono:

Non è difficile notare che se si adotta il citatissimo articolo di Landis e Koch, per le Aree 1-8, la kappa con pesi VQR mostra un grado di concordanza  fair, che si riduce a poor per l’Area 9. Se si prende a riferimento il manuale di Fleiss tutte le Aree bibliometriche hanno un grado di concordanza poor. Ora poor  può essere tradotto con l’aggettivo scarso –o visto che siamo in ambiente VQR, Limitato. Più difficile rendere in italiano il significato di fair: si potrebbe forse tradurre con discreto o modesto. O forse Accettabile, se si vuole usare un gergo di gradimento ad ANVUR. Certo è che è difficile sostenere che fair o poor possano essere tradotti in italiano con l’espressione usata da ANVUR nel rapporto: “più che adeguato”.

In conclusione, i dati della tabella B.7 non sembrano poter essere commentati sostenendo come fa ANVUR che “si riscontra una più che adeguata concordanza tra valutazioni effettuate con il metodo della revisione tra pari e con quello bibliometrico”. Si potrebbe sostenere invece sulla base della letteratura internazionale prevalente che nei dati ANVUR “si riscontra una modesta o limitata concordanza tra valutazioni effettuate con il metodo della revisione tra pari e con quello bibliometrico”.

Come si può facilmente constatare Area 13 è un’eccezione: la concordanza in questa area è substantial. Perché accade questo? Perché in economia, economia aziendale e statistica ci sono metodi di valutazione condivisi che non esistono nelle altre comunità disciplinari? Niente di tutto questo. Semplicemente perché il GEV13 ha fatto un, diciamo così, “esperimento” sostanzialmente diverso da quello delle aree bibliometriche. Capire la questione richiede un po’ di pazienza.

Lo strano caso delle concordanze di Area 13

Per capire in cosa Area 13 si differenzia dalle altre è necessario fare un passo indietro e vedere come è stato condotto l’esperimento VQR. Per ogni area sono stati estratti casualmente[5] un certo numero di articoli che sono stati giudicati sia con gli strumenti bibliometrici della VQR (le matrici di corrispondenza che abbiamo chiamato quadrati magici bibliometrici), sia con IR.

La procedura di IR non è stata gestita in modo omogeneo in tutte le aree. Per le Aree 1-9 la procedura può essere sinteticamente descritta come segue, senza perdersi in troppi particolari. Per ogni articolo del campione uno o due membri del GEV hanno individuato due diversi revisori. In alcune aree non è escluso che abbiano svolto una o entrambe le revisioni direttamente uno o due membri del GEV. I revisori hanno sintetizzato i loro giudizi sulla base di schede (differenziate tra i GEV) che richiedevano di indicare punteggi separati in relazione a tre dimensioni prestabilite (Originalità, Rilevanza, Internazionalizzazione). Per ogni revisore è stato calcolato un punteggio complessivo. I giudizi dei due revisori sono stati quindi sintetizzati in una valutazione finale attribuendo ogni articolo ad una delle quattro classi di valutazione E, B, A, L. I GEV 1-9, stando alle informazioni disponibili, hanno tutti adottato algoritmi per la sintesi dei punteggi; tali algoritmi diversificati per ogni GEV, non sono stati resi noti.

Nelle Aree 1-9 i revisori hanno operato conoscendo non solo i metadati (autori, anno di pubblicazione, rivista etc.) dell’articolo che stavano valutando, ma sono stati messi al corrente delle informazioni bibliometriche che sarebbero servite alla classificazione bibliometrica dell’articolo. Questa è la ragione per cui questa strana procedura è stata battezzata da ANVUR informed peer review.  E’ da notare che nelle aree 1-9 i revisori –a meno dei casi in cui la revisione non sia stata condotta direttamente dai membri dei GEV, ed a meno che la procedura non prevedesse una esplicita informazione in questo senso dai GEV ai revisori- non sapevano di stare partecipando all’esperimento. Infatti nelle aree bibliometriche sono stati inviati a IR un numero cospicuo di articoli per i quali l’applicazione dei quadrati magici bibliometrici dava risultati, per così dire, non definitivi (discordanza tra citazioni ricevute e IF della rivista). In sintesi, un revisore (non membro GEV) chiamato a valutare un articolo nella aree bibliometriche non sapeva se l’articolo da valutare gli era stato inviato perché di valutazione bibliometrica incerta o perché selezionato nel campione dell’esperimento; egli avrebbe potuto ricostruire la classificazione  bibliometrica adottata dal GEV con difficoltà e con margini di incertezza piuttosto elevati.

In Area 13 la procedura adottata è stata radicalmente diversa. Una prima differenza riguarda le modalità di campionamento: in Area 13 il campionamento casuale è stato aggiustato con inserimenti mirati di articoli i cui autori hanno richiesto di inviare alla revisione dei pari.[6] Su tali inserimenti non è disponibile alcuna informazione.

Ogni articolo è stato inviato da due membri distinti del GEV a un revisore che ha valutato usando una scheda simile a quelle delle Aree 1-9. E’ possibile che alcuni prodotti siano stati classificati direttamente dai membri del GEV come L(imitati) e quindi non siano stati inviati alla peer review. [7]

La seconda differenza fondamentale rispetto alle aree 1-9 è la procedura seguita per la sintesi dei risultati. In Area 13 la sintesi non è stata condotta con procedura automatica come nelle aree bibliometriche, ma è stata ricavata da una gruppo di consenso composto dai due membri del GEV che avevano scelto i due revisori.

Tale procedura viene così descritta nell’Appendice A del rapporto finale di Area 13:

Fonte: Rapporto finale area 13, p. 10

Ed ancora: 

Fonte: Rapporto finale area 13, p. 15

E alternativamente:

 Fonte: Rapporto finale area 13 Appendice E, p. 113

Nell’appendice A del rapporto finale (p. 52) si legge infine:

Nel passaggio dalla reportistica VQR all’articolo scientifico tutte queste delicate informazioni procedurali scompaiono, sintetizzate nella seguente frase:

Quindi di fatto la valutazione finale di ciascun prodotto è stata decisa da un gruppo di consenso formato dai due membri del GEV che avevano scelto i revisori. [8] Ed ecco come hanno lavorato i Gruppi di consenso (Area 13 Rapporto finali, Appendici B: 65).

Con informed peer review ANVUR individua quindi (almeno) due procedure molto diverse tra loro: (1) la valutazione condotta dai revisori conoscendo metadati e indicatori bibliometrici dell’articolo; (2) la valutazione che dà luogo al giudizio finale su un prodotto, fatta dai gruppi di consenso  e basata, come nel caso del GEV 13, anche sulle informed peer reviews fatte dai revisori (una sorta di meta-informed peer review).

In estrema sintesi dunque in Area 13 la valutazione finale è stata in tutti i casi definita non da algoritmi come nelle Aree 1-9, ma dai gruppi di consenso che hanno avuto una discrezionalità pressoché assoluta.

Le differenze non si fermano comunque qua. In Area 13 la procedura di valutazione bibliometrica era estremamente semplificata basandosi su una lista di riviste (pubblicato il giorno 12 settembre 2012 Rapporto finale p. 13). Ogni articolo pubblicato su una delle riviste era assegnato alla classe di valutazione della rivista. A differenza che nelle aree 1-9 dove la bibliometria poteva dare luogo a risultato incerto e richiedere una peer review per la valutazione, in Area 13 la valutazione  è stata automatica. Il revisore esterno cui perveniva un prodotto da valutare pubblicato su una delle riviste della lista GEV, sapeva immediatamente che la sua valutazione era richiesta ai fini dell’esperimento ANVUR, sapeva cioè, a differenza dei revisori delle aree 1-9, che stava partecipando all’esperimento. Ma sapeva anche quale fosse la valutazione bibliometrica di ogni articolo: era sufficiente controllare la lista delle riviste del GEV.[9]

Quindi ogni revisore accorto, comunque scelto da un membro del GEV, nel compilare la scheda di revisione sapeva 1) quale fosse la valutazione bibliometrica dell’articolo attribuita dal GEV; e 2) che la sua revisione sarebbe stata utilizzata per testare la congruenza tra valutazione bibliometrica e la sua revisione. Nelle Aree 1-9, i revisori non erano a conoscenza né dell’informazione sub 1, né di quella sub 2.

Ed ecco un’ultima anomalia procedurale. Il membro del GEV 13 chiamato a scegliere il revisore sapeva che la valutazione dell’articolo sarebbe stata usata per la sperimentazione. Naturale (razionale, direbbe un economista) pensare in questa scelta siano all’opera incentivi molto forti a scegliere revisori esterni che si ritiene valuteranno l’articolo in linea con la valutazione bibliometrica. Per intendersi con un esempio: è stato estratto un articolo su rivista di classe E che applica tecniche standard ad un problema standard. Per quale ragione un membro GEV dovrebbe scegliere un revisore esperto, ma notoriamente critico dell’approccio in questione? Un giudizio diverso da E peggiora la concordanza e destabilizza le linee guida della valutazione condivise dal GEV. In questo modo si riesce a far quadrare il cerchio dell’eterodossia: prendiamo un contributo eterodosso uscito sul Cambridge Journal of Economics (classe E); se il revisore sceglie un revisore simpatetico con tale approccio eterodosso ci sono ottime probabilità che la IR confermi la valutazione bibliometrica. Nel caso in cui invece l’articolo eterodosso sia uscito su rivista limitata (L) è sufficiente scegliere un referee critico dell’approccio in questione per confermare il giudizio bibliometrico. Ed il GEV potrà vantarsi di aver salvaguardato il pluralismo.

Valutazione dei pari o valutazione del GEV?

Si pone a questo punto la questione di chi sia responsabile in Area 13 della classificazione finale degli articoli in IR: in che misura la valutazione  è stata decisa dai gruppi di consenso del GEV ed in che misura è stata decisa dai revisori esterni? Con le informazioni disponibili a chi scrive si possono allo stato fare solo alcune congetture che il lettore volenteroso potrà seguire in dettaglio nell’appendice tecnica.

In Area 13 i prodotti selezionati per l’esperimento sono stati 590. Ogni prodotto è stato attribuito a due membri GEV. Sotto ipotesi assai conservative si può mostrare che per almeno 326 articoli, pari al 55,3% del totale delle valutazioni, la valutazione dei revisori è stata decisa dai membri del GEV con i gruppi di consenso.

I membri del GEV (nei gruppi di consenso) hanno deciso il voto E(ccellente) per almeno 63  articoli (54,3% delle valutazioni E); hanno attribuito il vuoto B ad almeno 101 articoli (58% delle valutazioni B); hanno giudicato A almeno 108 articoli pari all’83,7% degli articoli con voto A; e hanno attribuito il voto L ad almeno 54 articoli (31,6%; ma in questo caso opera una ipotesi molto forte che abbassa in modo drastico la stima).

Conclusioni

Anvur ha svolto nell’ambito dell’esercizio nazionale di valutazione VQR una sperimentazione volta a verificare la concordanza tra giudizi dei pari e indicatori bibliometrici riferiti ai singoli prodotti di ricerca.  Per le Aree 1-9 il calcolo dell’indice kappa mostra, se vengono applicate le linee guida interpretative prevalenti nella letteratura internazionale, una concordanza limitata (poor) o al più modesta.  Fa eccezione l’Area 13 dove il grado di concordanza apparirebbe sostanziale.

L’analisi delle modalità di realizzazione dell’esperimento mostra che le procedure applicate in Area 13 sono radicalmente diverse da quelle applicate nelle Aree 1-9. In particolare:

  1. Il campionamento casuale degli articoli in Area 13 è stato aggiustato tenendo conto delle richieste di accedere alla peer review fatte da parte degli autori degli articoli;
  2. I revisori erano nelle condizioni di sapere che stavano partecipando alla sperimentazione;
  3. I revisori erano nelle condizioni di conoscere con estrema precisione il giudizio derivante dall’applicazione delle bibliometria;
  4. Il giudizio dei due revisori non è stato composto sulla base di un algoritmo (media dei punteggi ad esempio), ma è stato definito da un gruppo di consenso composto da (almeno) due membri del GEV che ha considerato i due giudizi dei revisori come mere informazioni per definire il giudizio finale;
  5. I membri dei Gruppi di consenso sapevano che il loro giudizio finale sarebbe stato utilizzato per la sperimentazione.

Abbiamo mostrato che non meno del 53% dei giudizi è stato espresso non dai revisori, ma dai membri del GEV13. Questa percentuale è stata calcolata adottando ipotesi molto conservative che tendono a spingere tale percentuale verso il basso. Nella sostanza l’elevato indice di concordanza  calcolato per Area13 indica che la valutazione basata sulla lista di riviste sviluppata dal GEV 13 si accorda con i giudizi che i membri del GEV 13 hanno dato quando sono hanno deciso le valutazioni nei Gruppi di consenso. Un po’ come dire:  il GEV13 va d’accordo con se stesso. E non c’era nessuna ragione di dubitarne.

Avere scelto un mix di strumenti per la valutazione dei prodotti di ricerca ha verosimilmente indotto distorsioni consistenti nei risultati finali della VQR. In particolare, come si può vedere sommariamente da questo grafico, almeno in Area 9 esiste una correlazione inversa accentuata tra risultati nella VQR e la quota di lavori valutati attraverso la informed peer review.

Un Settore Scientifico Disciplinare all’interno della stessa area risulta migliore o peggiore a seconda della quota di prodotti valutati in peer review.

Credo che sulla base di quanto argomentato in questo post ci siano elementi per la seguente congettura: i risultati finali della VQR sono stati determinati dal mix di tipologie di valutazione adottate. Il mix di strumenti di valutazione adottati ha verosimilmente pesato sia per le strutture che per i dipartimenti, ed indipendentemente dalla normalizzazione che si decida di adottare. Un risultato sconcertante. D’altra parte ANVUR non ha inteso ascoltare chi questi dubbi li sollevava ben prima che l’esercizio entrasse nella sua fase operativa.

 

APPENDICE TECNICA

In Area 13 i prodotti selezionati per l’esperimento sono stati 590. Ogni prodotto è stato attribuito a due membri GEV. Supponiamo (Ipotesi 1) che nessuno dei prodotti sia stato giudicato Limitato da entrambi i membri GEV;[10] ne segue che 590 prodotti sono stati inviati ciascuno a due revisori diversi. Supponiamo (Ipotesi 2) che il gruppo di consenso non abbia mai  modificato un giudizio su cui i revisori erano concordi.[11] Sappiamo che i revisori hanno dato giudizi concordanti per 264 articoli.[12] Questo significa che la valutazione di almeno[13] 326 articoli, pari al 55,3% del totale delle valutazioni è stata decisa dai gruppi di consenso formati dai membri del GEV.

E’ possibile fare anche altre congetture interessanti. Ma per questo c’è bisogno di una ulteriore supposizione (Ipotesi 3): tutte le volte che i pari hanno espresso una valutazione concorde sull’articolo, tale valutazione ha coinciso con  la valutazione bibliometrica. Per esempio: tutte le volte che i due revisori esterni sono stati d’accordo nel giudicare un lavoro come E(ccellente), anche sulla base della bibliometria il lavoro è classificato come Eccellente. E’ così possibile ricostruire la tabella sottostante.

E

B

A

L

TOTALE

(1) Val. concorde dei Pari

53

73

21

117

264

(2) Val. Biblio e Pari concorde

98

56

39

118

311

(3) Val. Biblio

198

102

103

187

590

(4) Val. Pari complessive

116

174

129

171

590

(5=4-1) Val. Pari decise dal GEV

63

101

108

54

326

(6) % Val. Pari decise dal GEV

54,3%

58,0%

83,7%

31,6%

55,3%

(7=2-1) Val. Pari decise dal GEV e concorde con Biblio*

45

-17

18

1

64**

Fonte: elaborazioni su dati ANVUR; *Vale Ipotesi 3: tutti i voti dei revisori sono in accordo col risultato bibliometrico. ** Il valore -17 non è computato.

Sulle colonne si leggono le categorie di valutazione. Nella prima riga sono riportati il numero di articoli su cui i due revisori hanno espresso uno stesso giudizio (Valutazione concorde dei pari); nella seconda riga sono invece conteggiati gli articoli per i quali si è verificata concordanza tra revisione dei pari e valutazione bibliometrica; nelle righe 3 e 4 si leggono  la distribuzione degli articoli per categoria di valutazione secondo rispettivamente bibliometria e revisione dei pari. La riga 5 contiene la stima del numero minimo di articoli la cui valutazione finale peer è stata decisa dai gruppi di consenso del GEV (vale Ipotesi 1). Come si può vedere il 54,3% delle valutazioni E secondo la peer review è stato in realtà deciso dai gruppi di consenso GEV; tale quota sale al 58% per la categoria B; e almeno l’83,7% dei giudizi A sono stati decisi dai gruppi di consenso. La percentuale si riduce al 31,6% per i prodotti giudicati L; è utile ricordare che per calcolare questa percentuale abbiamo adottato l’ipotesi 1: che i membri del GEV non abbiano mai giudicato concordemente come Limitato uno stesso articolo (sottraendolo quindi alla revisione dei pari). E’ da notare che complessivamente nelle aree 1-9 la quota di articoli giudicati concordemente Limitati da due revisori è del 21,1% (705/3441); in Area 13 la percentuale è più che doppia: 44,3% (117/264).  Quanto questo risultato sia dovuto ad una maggiore concordanza dei due revisori o alla concordanza del giudizio iniziale dei due membri del GEV non può essere stabilito sulla base dei dati resi pubblici. Si può plausibilmente ritenere che 54 sia una sottostima degli articoli valutati L dal gruppo di consenso.

L’ultima riga della tabella contiene una stima del numero di articoli  la cui valutazione dei pari è stata decisa dai gruppi di consenso e che coincide con quella bibliometrica. Questa riga mostra chiaramente che l’ipotesi 3 –quella necessaria a costruire per difetto tutte le stime- è davvero eroica:  nel caso degli articoli giudicati B(uoni) i pari hanno espresso un voto concorde in relazione a 73 articoli; ma valutazione bibliometrica e dei pari coincidono solo per 56 articoli. Questo significa che 64 su 311 articoli (21%) è un valore che verosimilmente sottostima grandemente il numero effettivo di articoli valutati dal gruppo di consenso e con valutazioni bibliometriche concordi.


[1]Tali esercizi sono adesso oggetto di pre-pubblicazioni firmate da collaboratori  di ANVUR. Bertocchi, Graziella & Gambardella, Alfonso & Jappelli, Tullio & Nappi, Carmela A. & Peracchi, Franco, 2013: http://ideas.repec.org/p/sef/csefwp/344.html; Tindaro Cicero and Marco Malgarini and Carmela Anna Nappi and Franco Peracchi, “Bibliometric and peer review methods for research evaluation: a methodological appraisement” (in Italiano), http://mpra.ub.uni-muenchen.de/50470/1/MPRA_paper_50470.pdf

 Con i dati resi disponibili al momento, non è possibile replicare le elaborazioni di ANVUR. Ho richiesto ad ANVUR i dati elementari a fini di replica.

[2] ANVUR ha ritenuto di non pubblicare nel rapporto neanche le matrici di dati aggregati con le quali sono stati calcolati i kappa di Cohen.

[3] Non c’è davvero nulla di naturale nell’adozione di un sistema di pesi del tipo (1; 0,8; 0,5; 0). Si tratta infatti di un sistema di pesi non lineare che attribuisce un peso maggiore alle discordanze più marcate, ma con pesi marginali decrescenti. Nella manualistica corrente si utilizzano di norma pesi lineari o al limite quadratici (a peso marginale crescente).

[4] I dati di area 13 riportati in questa tabella sono gli stessi pubblicati nell’articolo a firma Bertocchi  et al. in nota 1; ma sono diversi da quelli riportati nell’Appendice A del rapporto di area e pubblicati nell’articolo di Cicero et al. in nota 1.

[5] In realtà la selezione non è sempre stata casuale come vedremo più avanti.

[6] Nel rapporto di area 13 Appendice B si legge “La scelta del campione terrà comunque conto della richiesta specifica di peer review segnalata tramite il modulo del CINECA per prodotti altamente specialistici e multidisciplinari” (p. 64). Questa informazione relativa all’aggiustamento manuale del campione non è riportata in: Jappelli et al 2013: 16 dove si parla genericamente di random sample.

[7] Di fatto (lo si capisce leggendo Rapporto finale p. 14 e Appendice E passim) ogni lavoro è stato valutato preliminarmente da due membri GEV separatamente ed attribuito  da ciascuno ad un revisore. Nel caso in cui entrambi abbiano giudicato il lavoro come Limitato il prodotto viene classificato in L definitivamente senza essere inviato ai revisori. Il 10,6% di tutti i prodotti inviati a peer review sono stati valutati L direttamente dai GEV. Non è dato sapere quanti di questi siano parte del campione usato nell’esperimento. (Rapporto finale, p. 109 e Appendice E p. 111).

[8] “Nel caso di doppia valutazione, la valutazione finale del lavoro è stata quella bibliometrica.” Rapporto finale p. 19

[9] Non sono stato in grado di trovare nei rapporti ANVUR se tale informazione (classe della rivista) fosse comunicata al revisore esterno dalla procedura informatica per la revisione.

[10] Ipotesi eroica: significa che non si è mai verificato che due membri GEV di fronte ad un articolo pubblicato su rivista classificata dallo stesso GEV come Limitata, abbiano dato entrambi un giudizio pari ad L.

[11] Anche questa ipotesi eroica: come abbiamo visto il gruppo di consenso aveva la più ampia libertà di decidere e quindi di far prevalere una informazione (bibliometria) sulla peer review.  Immaginate la seguente situazione: revisori esterni concordi nell’attribuire B ad un articolo pubblicato su rivista A. Cosa avrà prevalso nel gruppo di consenso A o B. Se saranno resi noti i dati queste congetture potranno essere verificate.

[12] Il dato è calcolato sommando il totale delle valutazioni concordi dei due revisori come riportate nell’Appendice 1  rapporto finale del GEV 13.

[13] Le ipotesi 1 e 2 tendono a ridurre il numero di casi in cui è intervenuto il giudizio del gruppo di consenso.

Send to Kindle
Tag: , , , , , ,

5 Comments

  1. Pingback: Lo strano caso delle concordanze della VQR | News Novità Notizie Trita Web

  2. Luigi De Matteo says:

    Caro Baccini, la ringrazio davvero molto per quanto roars, e lei in particolare, stanno facendo per disvelare “il grande gioco della VQR”. Forse le chiedo troppo, ma credo che la comunità degli storici dell’economia nel suo insieme vorrebbe capire meglio a cosa è stata sottoposta? Va da sé, come penso di aver chiarito nel dibattito seguito al mio intervento su la “Storia economica l’Anvur e la terza legge fondamentale della stupidità umana”, https://www.roars.it/online/documentazione-asn-e-vqr/#secondo , che non mi interessa che la ricostruzione da me proposta in quella circostanza esca confermata, ma che mi sta a cuore – e, posso assicurare, non sta a cuore solo a me – che si faccia chiarezza su una procedura a dir poco opaca e non priva di conseguenze particolarmente nefaste su una disciplina dell’area 13 e su quanti vi si dedicano. Ci può aiutare a capire… attraverso e al di là della criptica documentazione ufficiale? Grazie Luigi De Matteo

  3. corrado says:

    Posso azzardare un’ipotesi? Il prof Baccini nel suo documento dice: “Ogni articolo pubblicato su una delle riviste era assegnato alla classe di valutazione della rivista”, ipotizzando quindi che tale criterio fosse noto a priori al momento della consegna dei prodotti (chi consegnava un articolo nelle fasce sapeva già il voto che avrebbe preso), in altre parole che la prevalenza della bibliometria (per gli articoli pubblicati su riviste incluse nelle fasce GEV) fosse automatica anche nel caso in cui chi aveva presentato un articolo pubblicato in una delle fasce GEV aveva chiesto la peer review nella scheda delle informazioni aggiuntive.
    Il GEV area 13 però, nel comunicato del 2 aprile si era espresso in modo da ipotizzare che, in ipotesi discordante tra bibliometria e peer review, la peer review poteva prevalere (“Diversi colleghi ci hanno chiesto perché la valutazione bibliometrica non darà luogo necessariamente a una valutazione “automatica….L’articolo riceve una valutazione diversa dall’analisi bibliometrica (per esempio A) e dai due revisori esterni (per esempio, due valutazioni B; ma una procedura analoga varrebbe anche nel caso in cui le due valutazioni esterne fossero difformi). In questo caso i Gruppi di Consenso non si limiteranno a validare le schede, ma potranno effettuare una valutazione di sintesi consensuale (quindi con parere favorevole di entrambi i componenti) che potrà essere A o B, a secondo del peso che il Gruppo di Consenso darà ai 3 indicatori”).
    Da qui, il risultato dell’esperimento (confronto biblio vs per review per il 10% degli articoli collocabili nelle 4 fasce GEV ) ha “fatto gioco” al GEV nel senso che “ha tagliato la testa al toro” ed ha consentito al GEV di dire che, poiché i due metodi sostanzialmente concordano, la valutazione bibliometrica (per gli articoli pubblicati su riviste incluse nelle fasce GEV) prevale sempre su quella in peer review e che proprio il fatto che l’esperimento fosse riuscito li ha fatti decidere (expost quindi) per una prevalenza automatica della bibliometria sulla peer review per gli articoli pubblicati su riviste incluse nelle fasce GEV (p.11-12: “Il confronto nel complesso soddisfacente tra analisi bibliometrica e peer review ha confermato la fiducia nelle valutazioni bibliometriche delle riviste e portato alla decisione di utilizzare la valutazione bibliometrica per tutti gli articoli pubblicati sulle riviste censite).

  4. Luigi De Matteo says:

    A Baccini
    Deduco che le avevo chiesto davvero troppo. Grazie comunque. Tanto più che la Società Italiana degli Storici Economici ha appena comunicato ai soci che, movendo dal suo articolo, chiederà formali chiarimenti all’ANVUR per poter valutare la fondatezza di quanto da lei sostenuto. Grazie a Corrado per la sua ipotesi.
    Buon lavoro. Luigi De Matteo

  5. @Luigi De Matteo
    Mi ero perso il commento. Tutto ciò che so della valutazione VQR è ciò che apprendo dai documenti ufficiali. E ciò che ho scritto già nei miei post dedicati ad Area13. Ad oggi non ho ricevuto risposta alla mia richiesta di accesso ai dati per controllo.

    Sull’iniziativa della SISE che fa riferimento al mio articolo. Sulle procedure VQR, Roars scrive da tempo. Io scrivo su area13 e dintorni da ben prima che fossero noti i risultati, nel silenzio pressoché assoluto delle società scientifiche di area, il cui unico obiettivo è stato per lunghi mesi tentare di catturare il regolatore, facendogli adottare le proprie liste di riviste (per VQR e soprattutto per ASN). Se le società scientifiche (non solo di area13) non fossero state al gioco, forse avremmo avuto una VQR migliore ed anche una ASN migliore.

    @Corrado
    Se non ho frainteso la (caotica) descrizione della procedura presente negli atti ufficiali del GEV13, la valutazione di una articolo presente su riviste presenti nella lista sarebbe stata automatica meno che per gli articoli estratti nel campione e per alcuni (decisione del GEV) di quelli di cui gli autori chiedevano la peer review. Il risultato finale (ex-post) è stato che ha prevalso l’indicazione bibliometrica sempre, come scrivo in una nota del post.

Leave a Reply