Home Anvur VQR: tutte le valutazioni sono uguali, ma alcune sono più uguali delle...

VQR: tutte le valutazioni sono uguali, ma alcune sono più uguali delle altre

24 Marzo 2012

Vi piacerebbe giocare una partita di calcio in cui i vostri goal sono contati normalmente e quelli della squadra avversaria vengono moltiplicati per 1,4? Nella VQR il GEV09 -ingegneri industriali e dell’informazione (ingegneri informatici esclusi)- è l’unico ad usare delle soglie bibliometriche speciali che in media danno punteggi 1,4 volte maggiori rispetto alle regole del bando VQR adottate dagli altri GEV “bibliometrici”. Con queste regole la VQR è una partita le cui regole favoriscono i dipartimenti di ingegneria di area 09 e, soprattutto, i politecnici a danno degli atenei generalisti.

Il quadrato magico

Nella VQR le aree 01-09 hanno deciso di adottare uno strumento inedito nella letteratura bibliometrica che hanno chiamato “matrice di corrispondenza tra classi iniziali della rivista (colonne) e citazioni (righe)”. Nella Figura 1 è riportata la matrice adottata dai GEV09 per gli articoli pubblicati nel triennio 2008-2010.

Figura 1. Matrice di corrispondenza tra classi iniziali della rivista (colonne) e citazioni (righe) e classe finale VQR per articoli pubblicati nel triennio 2008-2010 (fonte: criteri GEV09)

Sull’asse verticale il numero di citazioni degli articoli; sull’asse orizzontale si legge l’indicatore bibliometrico riferito alle riviste (relativamente agli anni 2008-2010 e al database Web of Science di Thomson-Reuters, per il GEV09 tale indicatore è una combinazione di quattro indicatori bibliometrici: Impact Factor, 5 Year Impact Factor, Eigenfactor, Article Influence; per gli altri GEV l’indicatore bibliometrico è di norma l’Impact Factor). Le riviste vengono suddivise in quattro fasce sulla base dei valori assunti dall’indicatore bibliometrico:

Classe D: il 50% con i valori più bassi sono considerate di valore limitato;
Classe C: il successivo 10% sono considerate accettabili;
Classe B: il successivo 20% sono buone:
Classe A: l’ultimo 20% con i punteggi più alti sono eccellenti.

Per ogni categoria scientifica, gli articoli vengono anch’essi suddivisi in quattro fasce crescenti di merito da D ad A sulla base del numero di citazioni ricevute:

Classe D: Il 50% degli articoli meno citati, ovvero quelli con un numero di citazioni inferiori alla mediana settoriale;
Classe C: il 10% successivo;
Classe B: il 20% successivo;
Classe A: l’ultimo 20% con il maggior numero di citazioni.

La matrice ANVUR dà un’impressione visiva errata, perché le mattonelle all’interno della matrice sono tutte della stessa dimensione. Nella Figura 2 abbiamo reso graficamente la matrice con un quadrato le cui mattonelle interne hanno dimensioni che rispecchiano le soglie del bando VQR.

Figura 2. Matrice di corrispondenza in cui le dimensioni dei lati delle mattonelle rispecchiano la suddivisione in percentili dell’indicatore bibliometrico e del conteggio citazionale seguendo le soglie del bando VQR.

Il quadrato è di dimensione 1×1 ed ha quindi un area pari ad 1. Le mattonelle rispettano le proporzioni previste dal bando: 50:10:20:20. La mattonella più in basso a destra, classificata come D, contiene tutti gli articoli pubblicati nel 50% delle riviste peggiori, e che hanno ricevuto un numero di citazioni inferiore al valore mediano delle citazioni nel settore. Le classi di merito per l’indicatore bibliometrico e per le citazioni sono concordi Quella mattonella ha dimensione 0,50×0,50=0,25, rappresenta cioè un quarto dell’intero quadrato. La mattonella più in alto a sinistra ha dimensione 0,20X0,20=0,04 perché contiene tutti gli articoli pubblicati nelle migliori riviste (20%) e che hanno ricevuto un numero di citazioni elevato (superiore alla soglia individuata dall’80% percentile nella distribuzione delle citazioni).

Le classi di merito per l’indicatore bibliometrico e per le citazioni sono concordi solo per quattro “mattonelle” collocate sulla diagonale, che vengono etichettate di conseguenza. Per le altre mattonelle, i GEV dell’ANVUR hanno fornito regole di etichettatura che variano da GEV a GEV. Nella Figura 1, che mostra l’etichettatura decisa dal GEV09, oltre alle mattonelle etichettate con le lettere A-B-C-D, vi sono alcune caselle etichettate come IR (Informed Review). Infatti, alcuni articoli pubblicati su riviste top, ma che hanno ricevute poche citazioni, e altri pubblicati su riviste scarse, ma molto citati, saranno sottoposti a informed peer review (IR).

Possiamo pensare al quadrato come ad un bersaglio per freccette. Scrivere un articolo è l’equivalente di lanciare una freccetta sul bersaglio (in assenza di vento). A seconda di dove cade la freccetta (cioè la rivista in cui è pubblicata ed il numero di citazioni ricevute) si ottiene un punteggio:

D vale 0;
C vale 0,5
B vale 0,8
A vale 1,0

o si va a peer review (IR). I ricercatori italiani hanno avuto 7 anni per lanciare le loro freccette. Nella VQR ogni ricercatore ha la possibilità di scegliere le tre freccette con punteggio maggiore.

Il ricercatore lancia la sua freccetta e può andare a finire in una qualsiasi delle mattonelle. Tanto più grande la mattonella tanto più elevata la probabilità che la freccetta ci finisca sopra. Se le freccette venissero lanciate in modo completamente casuale, l’area della mattonella coinciderebbe con la probabilità che la freccetta ci finisca sopra. Dal punto di vista bibliometrico, questo accadrebbe se non esistesse nessuna relazione statistica (correlazione nulla) tra la rivista dove è pubblicato un articolo ed il numero di citazioni ricevute dall’articolo stesso. Se ipotizziamo che gli articoli sottoposti alla VQR coprano uniformemente il quadrato magico, le probabilità di finire nelle zone etichettate A-B-C-D della Figura 2 saranno:

Probabilità di finire in D: 30% (le due mattonelle D hanno area 0,25+0,05=0,30);
Probabilità di finire in C: 8% (le tre mattonelle C hanno area 0,05+0,01+0,02=0,08);
Probabilità di finire in B: 16% (le tre mattonelle B hanno dimensione 0,1+0,02+0,04=0,16);
Probabilità di finire in A: 14% (le quattro mattonelle A hanno dimensione 0,02+0,04+0,04+0,04=0,14);
Probabilità di peer review: 32% (0,1+0,1+0,1+0,02=0,32).

A questo punto, possiamo persino calcolare il punteggio medio ottenuto dagli articoli:

Score medio = 1 x Pr(A) + 0,8 x Pr(B) + 0,5 x Pr(C) + 0 x Pr(D) = 0,3080

Possiamo immaginare anche la situazione diametralmente opposta. Gli articoli più citati vengono pubblicati sempre sulle riviste con indicatori citazionali più elevati. Ci troviamo nella condizione ideale per cui il ranking bibliometrico della rivista in cui è apparso l’articolo coincide con il ranking delle sue citazioni. In tal caso gli articoli pubblicati da un ricercatore si troverebbero tutti lungo la diagonale del quadrato (correlazione massima e pari a uno). Se questa ipotesi fosse vera, il quadrato magico sarebbe inutile: basterebbe considerare l’indicatore bibliometrico della rivista o il numero di citazioni dell’articolo. Pubblicare in una rivista in classe A significa avere un articolo molto citato (citazioni in classe A). Se immaginiamo che gli articoli sottoposti alla VQR coprano uniformemente la diagonale del quadrato magico, la probabilità di finire nelle classi A-B-C-D sono in questo caso rispettivamente

Probabilità di finire in D: 50%;
Probabilità di finire in C: 10%;
Probabilità di finire in B: 20%;
Probabilità di finire in A: 20%;
Probabilità di peer review: 0%.

Inoltre, possiamo calcolare il punteggio medio ottenuto dagli articoli:

Score medio = 1 x Pr(A) + 0,8 x Pr(B) + 0,5 x Pr(C) + 0 x Pr(D) = 0,41

In questi calcoli e nei successivi, stiamo valutando le probabilità e i punteggi che verrebbero conseguiti da un articolo selezionato a caso dalla produzione scientifica mondiale. L’ideale sarebbe considerare un articolo selezionato a caso tra quelli sottoposti alla VQR. Ciò comporterebbe due differenze: (i) gli articoli sottoposti alla VQR sono articoli selezionati dalla produzione scientifica italiana; (ii) ogni soggetto valutato sceglie i suoi 3 articoli migliori. Non potendo caratterizzare questi fenomeni (il secondo, in particolare), il metodo più corretto per valutare l’imparzialità delle soglie bibliometriche è valutarne l’effetto sulla produzione scientifica mondiale. Un po’ come se volessimo esportare i criteri della nostra VQR a livello internazione e dovessimo convincere la comunità scientifica bibliometrica della bontà delle nostre scelte.

Il quadrato del GEV09

Il GEV09 (ingegneria industriale e dell’informazione), con l’esclusione degli ingegneri informatici (SSD ING-INF/05), ha deciso che le riviste non sono da ripartirsi secondo la formula 50:10:20:20, ma in quartili cioè secondo la formula 25:25:25:25:

Il prodotto da valutare viene attribuito ad una delle 16 coppie di classi rappresentate in una matrice 4×4, che contiene sulle ascisse i quartili dell’indicatore bibliometrico (o le classi di qualità concordate con il GEV01 per il SSD ING/INF-05) e sulle ordinate le classi della distribuzione del numero di citazioni

Criteri GEV09, pagina 9

Che non si sia trattato di un errore di stampa è confermato dalla successiva pubblicazione da parte del GEV09 delle classifiche delle riviste 2007-2010, in cui la suddivisione per classi segue i quartili 25:50:75 e non i percentili 50:60:80 specificati dal Bando VQR (pagina 7) e utilizzati dai GEV 01-08.

La ripartizione in quartili modifica sostanzialmente le dimensioni delle mattonelle. Mettete a confronto la Figura 2 con la Figura 3.

Figura 3. Matrice di corrispondenza in cui le dimensioni dei lati delle mattonelle rispecchiano la suddivisione in percentili dell’indicatore bibliometrico e del conteggio citazionale seguendo le soglie dei criteri del GEV09 invece che del bando VQR.

Come vedete la superficie delle aree contrassegnate con D (a cui corrisponde punteggio nullo) è complessivamente molto più piccola. Le dimensioni delle aree A, B e C (che forniscono punteggi maggiori zero) sono tutte e tre molto più grandi.

Quelli del GEV 9 tireranno le loro freccette su un bersaglio dove è molto più facile raggiungere punteggi più elevati. In particolare, se ipotizziamo che gli articoli sottoposti alla VQR coprano uniformemente il quadrato:

la probabilità di finire in D è del 15%, ovvero la metà rispetto alle regole dei GEV 01-08;
la probabilità di finire in C è del 20% contro l’8%;
quella di finire in B del 20% rispetto al 16%;
quella di finire in A del 17,5% contro il 16%.

In base a queste probabilità, possiamo calcolare il punteggio medio che otterrebbero gli articoli del GEV09:

Score medio = 1 x Pr(A) + 0,8 x Pr(B) + 0,5 x Pr(C) + 0 x Pr(D) = 0,435

con un incremento del 41,23% rispetto al punteggio medio 0,308 derivante dal rispetto delle soglie del bando VQR, adottate dai GEV01-08.

Nell’ipotesi che gli articoli più citati vengano pubblicati sulle riviste con indicatori citazionali più elevati (perfetta correlazione tra rivista e citazioni) e che la diagonale del quadrato venga coperta in modo uniforme, la probabilità di infilare la freccetta in A-B-C-D è del 25% per ogni categoria, con un diminuzione della metà, anche sotto questa ipotesi, della probabilità di finire nella zona D ed un incremento della probabilità di finire nelle zone A-B-C che forniscono punteggi positivi.

Il punteggio medio che otterrebbero gli articoli del GEV09 sarebbe pertanto:

Score medio = 1 x Pr(A) + 0,8 x Pr(B) + 0,5 x Pr(C) + 0 x Pr(D) = 0,575

con un incremento del 40,24% rispetto al punteggio medio 0,410 derivante dal rispetto delle soglie del bando VQR, adottate dai GEV01-08.

Quindi, grazie alla modifica delle soglie per la classificazione delle riviste, il GEV09 aiuterà parte dell’Area 09 ad ottenere punteggi più elevati nella valutazione finale.

Si potrà obiettare: “come al solito avete considerato i soli casi estremi. In realtà ROARS dovrebbe sapere, perché l’ha già scritto in questi due post, che i due casi estremi non si verificano mai nella realtà. E quindi, fino a prova contraria, non si può dire che ci sarà una distorsione sistematica”. L’Appendice 1 di questo articolo, molto più tecnica, dimostra, che anche nei casi intermedi il GEV09 (ingegneri informatici esclusi) otterrebbe punteggi assai più elevati rispetto a quanto accadrebbe se rispettasse per la classificazione delle riviste le soglie del bando VQR, come hanno fatto i GEV 01-08.

In particolare, l’analisi dei casi intermedi, effettuata su quattro diverse distribuzioni, conduce ai risultati illustrati nella Figura 4.

Figura 4. Confronto tra i punteggi medi (ordinate) ottenuti usando le soglie biblometriche speciali del GEV09 (ingegneri informatici esclusi) e punteggi ottenuti seguendo le soglie imposte dl bando VQR (altri GEV). Vengono ipotizzate quattro diverse distribuzioni (Gaussiana, Gumbel, Clayton, Frank) delle caratteristiche bibliometriche degli articoli e per ciascuna distribuzione viene variata la correlazione (ascisse) in modo da considerare i casi intermedi tra nessuna correlazione (estremo sinistro) e correlazione massima (estremo destro). In tutti i casi considerati, l’uso delle soglie bibliometriche speciali aumenta il punteggio medio di almeno il 38%.

È immediato notare che in tutti i casi considerati la speciale piastrellatura del GEV09 implica un significativo incremento del punteggio medio. Inoltre, l’entità del vantaggio percentuale, si dimostra molto stabile. Infatti, la banda di oscillazione è inferiore al 3%, dato che risulta

+38,35% < vantaggio % < +41,23%

In altre parole, la piastrellatura del GEV09 per le 80 distribuzioni considerate garantisce, in media, un incremento del 38.35% (o anche maggiore) del punteggio.

Chi vince e chi perde?

Quali sono le conseguenze per la VQR della piastrellatura diversa del GEV09? Dato che la VQR valuterà le strutture, bisogna considerare gli effetti sia a livello di dipartimenti che di atenei.

A livello di dipartimenti, va ricordato che il SSD ING-INF/05 (ingegneria informatica) non ha adottato la piastrellatura del GEV09. Pertanto:

nel confronto tra dipartimenti di uno stesso ateneo, verranno avvantaggiati i dipartimenti di ingegneria industriale e dell’informazione (per esempio ingegneria meccanica e ingegneria elettronica) tranne quelli prevalentemente composti da ingegneri informatici;
nel confronto tra atenei, verranno avvantaggiate le università in cui c’è una maggiore rappresentanza percentuale dell’Area 09, ovvero si viene a creare una condizione di vantaggio dei politecnici nei confronti degli atenei generalisti.

Se il coordinatore della VQR è consapevole di questa anomalia ha il dovere di spiegare alla comunità scientifica perché si è deciso di concedere questo vantaggio a parte dell’Area 09. Un vantaggio difficilmente giustificabile anche alla luce delle sue dichiarazioni:

Tutte le università dovranno ripartire da zero. E quando la valutazione sarà conclusa, avremo la distinzione tra researching university e teaching university. Ad alcune si potrà dire: tu fai solo il corso di laurea triennale. E qualche sede dovrà essere chiusa.

Se si tratta di un errore, ci domandiamo che senso abbia andare avanti in questo modo, anche perché gli errori presenti nei criteri non si fermano, purtroppo, a quanto segnalato in questo articolo. Si può continuare lungo questa strada senza compromettere la credibilità dell’esercizio di valutazione, dei soggetti istituzionali coinvolti, e degli eccellenti studiosi, membri dei GEV, che hanno accettato di mettere a disposizione le loro competenze senza sospettare le lacune metodologiche e strutturali che li attendevano?

Fermarsi per il tempo strettamente necessario a rivedere radicalmente il bando della VQR con l’ausilio di esperti, anche stranieri, competenti in valutazione e bibliometria sarebbe a questo punto un gesto di responsabilità da parte del Ministro del MIUR e del Presidente dell’ANVUR.

Appendice 1. Le copule bibliometriche del GEV09

Nell’articolo, abbiamo appena visto che in due casi particolari, l’uso dei quartili garantisce al GEV09 un incremento del 40% del loro punteggio medio rispetto al punteggio che avrebbero ottenuto adottando le soglie bibliometriche imposte dal bando VQR. Ricordiamo che i due casi considerati rispecchiano le seguenti condizioni limite:

completa assenza di dipendenza statistica tra classificazione citazionale dell’articolo e classificazione bibliometrica della rivista in cui è apparso;
completa concordanza tra classificazione citazionale dell’articolo e classificazione bibliometrica della rivista in cui è apparso.

Nella realtà ci si troverà in una situazione intermedia. Per quanto sia logico aspettarsi che il vantaggio osservato ai due estremi sia presente anche nelle situazioni intermedie, è opportuno tentare una valutazione quantitativa. Nella seguente figura sono rappresentate alcune possibili distribuzioni delle collocazioni nel quadrato magico di articoli estratti a caso dalla produzione scientifica mondiale. Si noti che nella Figura 5, gli articoli migliori (classificati come A sia per citazioni che per indice bibliometrico della rivista in cui sono pubblicati) sono collocati in alto a destra, invece che in alto a sinistra come nella rappresentazione adottata dall’ANVUR.

Figura 5. Esempi di distribuzione spaziale degli articoli nella matrice di corrispondenza (“quadrato magico”). Rispetto alla rappresentazione adottata dall’ANVUR, gli articoli migliori sono collocati in alto a destra invece che in alto a sinistra.

È possibile vedere che ci sono zone di diversa densità e la loro collocazione spaziale influisce ovviemente sul punteggio medio attribuito agli articoli. Dal punto di vista statistico, questa distribuzione spaziale appartiene ad una particolare famiglia di distribuzioni, le cosiddette “copule”, già menzionate da ROARS in un precedente articolo (VQR? “Lo famo strano!” Le copule bibliometriche dell’ANVUR). Negli ultimi anni le copule hanno assunto un’importanza crescente in ambito finanziario, in particolare nei problemi di gestione di portafoglio e nel pricing dei derivati. Se conoscessimo la “copula del GEV09”, un semplice calcolo statistico permetterebbe di valutare il punteggio medio derivante dall’uso dei quartili e di confrontarlo con quello derivante dalle soglie bibliometriche del bando VQR, usate dai GEV01-08

Purtroppo, non conosciamo in anticipo la “copula del GEV09” e nemmeno possiamo ricavarla dalla letteratura bibliometrica. Infatti, gli articoli presentati alla VQR non costituiranno un campione casuale della produzione scientifica in una data categoria scientifica né a livello mondiale né a livello italiano, in quanto ogni soggetto valutato sceglierà i suoi articoli migliori.

Scegliamo pertanto un’altra strada, ovvero consideriamo una larga varietà di copule per verificare se il vantaggio di alcuni soggetti sottoposti al GEV09 sia più o meno sensibile a cambiamenti nella distribuzione statistica delle caratteristiche bibliometriche degli articoli sottoposti a valutazione. In particolare, verranno considerate quattro diverse famiglie di copule e, all’interno di ciascuna, 20 diverse copule corrispondenti a diverse gradazioni di correlazione tra percentile citazionale dell’articolo e percentile bibliometrico della rivista. Le famiglie di copule considerate sono:

Gaussiana
Gumbel
Clayton
Frank

ovvero tutte quelle disponibili nello Statistics Toolbox del software MATLAB. Ciascuna di queste famiglie contiene infinite copule che vengono individuate attraverso un numero reale. Nel caso delle copule gaussiane, il parametro che individua la singola copula è il coefficiente di correlazione di cui considereremo 20 valori equispaziati tra 0 e 0.95. Per le altre tre famiglie, che appartengono alla categoria delle copule archimedee, la diversa correlazione è modulata da un parametro θ che varia da 0 a infinito, per la Gumbel, e da 1 ad infinito per la Clayton e la Frank. Per le tre famiglie di copule archimedee sono stati scelti 20 valori logaritmicamente equispaziati tra 1 e 100. Complessivamente, sono state pertanto considerate 80 diverse copule. Per ciascuna di esse è stata calcolata la probabilità che gli articoli venissero assegnati in classe A, B, C, D utilizzando la piastrellatura del GEV09 (a quartili, ovvero soglie poste nei percentili 25:50:75) e quella standard del bando VQR (soglie poste nei percentili 50:60:80). I grafici della probabilità di classificazione nelle diverse classi per tutte le quattro famiglie di copule sono riportati nell’Appendice 2. Come logico, la piastrellatura del GEV09 riduce notevolmente la probabilità di cadere nella zona D (che implica un punteggio nullo).

Infine, il punteggio medio è stato ottenuto nel seguente modo:

Score medio = 1 x Pr(A) + 0,8 x Pr(B) + 0,5 x Pr(C) + 0 x Pr(D)

dove Pr(A) indica la probabilità che il generico articolo venga cada in una qualsiasi delle piastrelle che implicano la classificazione automatica in classe A, e dove Pr(B) e Pr(C) hanno analogo significato. I grafici dei punteggi medi per tutte le quattro famiglie di copule sono riportati nella Figura 4, già discussa nell’articolo, che evidenzia il sostanziale vantaggio conseguente all’uso delle soglie bibliometriche speciali.

Appendice 2. Probabilità di finire nelle zone A-B-C-D: confronto tra soglie imposte dal bando VQR e soglie adottate dal GEV09

Questa seconda appendice riporta le figure che illustrano l’influsso delle soglie bibliometriche speciali sulla probabilità che un articolo cada nelle regioni A-B-C-D del quadrato magico.

Figura 6. Sulle ascisse il grado di correlazione tra classificazione citazionale degli articoli e classificazione bibliometrica della rivista in cui sono pubblicati. Sulle ordinate la probabilità di finire nella regione A. Si noti che, grazie alle soglie bibliometriche speciali, per il GEV09 tale probabilità è sempre maggiore.

Figura 7. Sulle ascisse il grado di correlazione tra classificazione citazionale degli articoli e classificazione bibliometrica della rivista in cui sono pubblicati. Sulle ordinate la probabilità di finire nella regione B. Si noti che, grazie alle soglie bibliometriche speciali, per il GEV09 tale probabilità è sempre maggiore.

Figura 8. Sulle ascisse il grado di correlazione tra classificazione citazionale degli articoli e classificazione bibliometrica della rivista in cui sono pubblicati. Sulle ordinate la probabilità di finire nella regione C. Si noti che, grazie alle soglie bibliometriche speciali, per il GEV09 tale probabilità è sempre maggiore.

Figura 9. Sulle ascisse il grado di correlazione tra classificazione citazionale degli articoli e classificazione bibliometrica della rivista in cui sono pubblicati. Sulle ordinate la probabilità di finire nella regione D. Si noti che, grazie alle soglie bibliometriche speciali, per il GEV09 tale probabilità è sempre decisamente inferiore. Ricordiamo che la classe D è l’unica ad attribuire punteggio nullo.

Share this on WhatsApp

16 Commenti

Renzo Rubele 24 Marzo 2012 At 23:57

Pensa tu che quando avevo letto la storia delle suddivisioni in quartili nel GEV 9 pensavo si trattasse di un “errore” – pag. 13, punto (viii) di
http://www.anvur.org/sites/anvur-miur/files/gev/GEV09_criteri.pdf
Invece l’hanno fatto davvero!

MA come mai ING-INF/05 si è sottratta [Appendice 2] alle proprie stesse regole (del GEV)? Come è potuto succedere?

Entra per lasciare un commento
- Libera 25 Marzo 2012 At 21:55
  
  Puoi considerarlo un “trial”!
  
  Vorrei ricordare che nella risposta a ROARS dell´Agenzia Nazionale di Valutazione del sistema Universitario e della Ricerca (ANVUR) nelle prime righe vi è espressamente scritto come viene svolto il lavoro della bibliometria del VQR: “Gli STUDIOSI che ricoprono incarichi nelle istituzioni pubbliche sono, devono essere consapevoli che il loro agire è esposto a critiche: COME STUDIOSI ABITUATI AI PROCESSI “TRIAL AND ERROR” e perché qualsiasi modificazione dello status quo è soggetta a critiche”.
  https://www.roars.it/?p=5420
  
  Domanda: sono i “pazienti” ricercatori consenzienti all`utilizzo della “cura” visti gli esperimenti preliminari? Dovremmo aspettare i risultati per sapere che effetto avrà? E se la “cavia muore”? Dimenticavo tutte le cavie sono uguali, ma alcune sono più uguali delle altre e quindi alcune di esse sopravviveranno comunque……”trial and error”!
Giuseppe De Nicolao 25 Marzo 2012 At 00:02

Credo che ING-INF/05 abbia voluto tener conto della classificazione delle riviste di informatica di INF/01, che fanno riferimento al GEV01.

Entra per lasciare un commento
- Renzo Rubele 25 Marzo 2012 At 00:12
  
  OK. Quello che importa è che Benedetto sia ING-INF/03 (Elettronica), e Profumo ING-IND/32 (Ingegneria Elettrica).
- Giuseppe De Nicolao 25 Marzo 2012 At 11:45
  
  ING-INF/03 è “Telecomunicazioni”, che è comunque un Settore Scientifico Disciplinare incluso nella parte di Area 09 a cui si applicano le soglie speciali.
- Renzo Rubele 25 Marzo 2012 At 14:39
  
  Yup, grazie, avevo erroneamento letto la riga del Dipartimento di afferenza. Peraltro anche per ING-IND/32 devo correggere la denominazione, che è “CONVERTITORI, MACCHINE E AZIONAMENTI ELETTRICI”.
  
  D’altronde Ajmone Marsan, il Presidente del GEV 9, è anch’esso ING-INF/03. Tutti e 3 i citati sono Professori del Politecnico di Torino, come è noto.
Giuseppe De Nicolao 25 Marzo 2012 At 15:17

Una breve nota tecnica sul calcolo della probabilità di cadere nelle singole mattonelle quando la distribuzione è una generica copula. Si tratta di calcolare la probabilità che una coppia di variabili casuali (X,Y) cada nel rettangolo

A={x, y | x1 < x < x2, y1 < y < y2} Tale probabilità è stata ottenuta tramite la formula: P(A) = F_XY(x2,y2) - F_XY(x2,y1) - F_XY(x1,y2) + F_XY(x1,y1) dove F_XY(x,y) è la cosiddetta funzione di distribuzione cumulativa congiunta per la cui definizione e proprietà si rimanda ad un qualsiasi testo di calcolo delle probabilità, vedi per esempio, pag. 66 di: S. Benedetto, E. Biglieri, Teoria della probabilità e variabili casuali, Quaderni di Elettronica (Boringhieri,Torino 1980).

Entra per lasciare un commento
Giuseppe De Nicolao 26 Marzo 2012 At 16:39

Riguardo al possibile meccanismo con cui il maggior punteggio medio potrebbe aiutare l’Area 09 rispetto alle altre, ricordiamo che nella ripartizione delle risorse premiali sarà necessario stabilire il peso relativo tra le aree, operazione non facile e con forti risvolti “politici” in quanto richiede di assegnare una scala di valori a discipline molto eterogenee. Se nella VQR una delle aree ottenesse punteggi medi decisamente superiori alla norma, ciò offrirebbe un’ottima giustificazione “meritocratica” all’assegnazione di un peso maggiore nella ripartizione globale delle risorse. È per questa ragione, che bisogna porre attenzione all’uso di criteri il più possibile uniformi tra le aree, dato che esse sono in naturale competizione tra loro.

Entra per lasciare un commento
Renzo Rubele 26 Marzo 2012 At 19:47

BRAvo Giuseppe, è per questo che gl’Inglesi ci stanno molto attenti, e che quasi nessuno si infogna nell’idea di fare una “valutazione comparativa” di questo tipo.

E’ grave che in Italia si perseveri nell’errore senza nemmeno comprenderlo!!

Entra per lasciare un commento
Alessandro Giua 27 Marzo 2012 At 02:46

Cari colleghi,

non sono convinto dalle vostre tesi che, benché esposte con la consueta brillantezza, non sembrano essere del tutto imparziali.

*** 1 ***
Non mi sembra si possa affermare immediatamente che il GEV09 abbia disatteso le indicazioni del bando VQR scegliendo di ripartire le riviste in quartili cioè secondo la formula 25:25:25:25, piuttosto che secondo la formula 50:10:20:20 (che affermate essere usata da altri GEV).

Infatti:

a) La ripartizione indicata dal bando VQR (50:10:20:20) si riferisce al ranking dei singoli articoli sul totale di quelli pubblicati e non al ranking delle riviste su cui essi sono apparsi. Per affermare che la ripartizione del GEV è difforme dovreste prima fare lo sforzo di valutare il numero di articoli pubblicati su ogni rivista.

b) Supponiamo pure che tutte le riviste prese in esame del GEV09 abbiamo lo stesso numero di articoli per volume. Occorre tenere presente che la ripartizione del GEV09 in quartili si riferisce alle riviste con Impact Factor mentre un numero consistente di articoli scientifici sono pubblicati su riviste senza Impact Factor. Questo vuol dire che è possibile (e anzi probabile) che il numero di articoli pubblicati in riviste del primo quartile (Q1) della classifica ISI-WoS — lungi dall’essere pari al 25% del totale degli articoli pubblicati — sia addirittura inferiore al 20% degli articoli pubblicati nell’area.

E’ dunque possibile (e anzi probabile) che il GEV09 applichi criteri piu’ restrittivi di quelli indicati nel bando VQR, al contrario di quanto voi affermate.

c) Infine, se anche non esistessero riviste non ISI-WoK, avrete certamente notato che i “quartili” delle riviste calcolati dal GEV09 (mediante il complicato algoritmo PCA) non sono equinumerosi. Al contrario le classi piu’ alte (Q1 e Q2) sono meno numerose delle altre. Ad esempio, per la categoria “Automation & Control Systems” nel 2100 sono indicate 60 riviste. Dunque ci si aspetterebbe di avere 15 riviste per classe (un quarto di 60). Invece queste sono le numerosita’:
Q1 = 13, Q2 = 12; Q3 = 17; Q4 = 18.

Notate che in classe Q1 vi sono 13 riviste (mentre il 20% di 60 è pari a 12), e in classe Q2 ve ne sono 12 (coincide con il 20% di 60). Credo quindi che il valore da voi calcolato come “illecito vantaggio” del GEV09 sugli altri (il famigerato fattore 1.4) sia da ridimensionare.

d) Comunque è ovvio che i criteri delle ripartizioni (siano essi 50:10:20:20 o altro) sono solo indicativi ed è scontato che nella realtà ci si discosti da essi così come i voti che noi diamo ai nostri studenti si discostano dal modello teorico ECTS.

*** 2 ***
Se anche i criteri usati da diversi GEV fossero difformi, non credo si possa affermare — come fa il vostro articolo — che il GEV meno “severo” avvantaggi la sua area rispetto alle altre. Infatti la valutazione di una struttura si basa sul punteggio ottenuto dai suoi afferenti che vengono valutati in relazione ai docenti/ricercatori dello stesso settore scientifico disciplinare. Dunque e’ il ranking relativo per settore scientifico disciplinare (e non il punteggio assoluto) che conta: se in una area i punteggi sono “traslati” verso l’alto, il ranking relativo non cambia.

Questa è d’altronde la filosofia alla base della VQR, che ha lo scopo di creare un ranking fra atenei e non un ranking fra aree (sarebbe necessario confrontarci con altri paesi per fare cio’).

Alessandro (giua@diee.unica.it)

Entra per lasciare un commento
- Giuseppe De Nicolao 27 Marzo 2012 At 13:45
  
  Prima di tutto ringrazio il collega Alessandro Giua per il commento attento e tecnicamente qualificato. Provo a rispondere per punti.
  
  ——————————–
  1. “Non mi sembra si possa affermare immediatamente che il GEV09 abbia disatteso le indicazioni del bando VQR scegliendo di ripartire le riviste in quartili cioè secondo la formula 25:25:25:25, piuttosto che secondo la formula 50:10:20:20 (che affermate essere usata da altri GEV).”
  
  Ormai le indicazioni del bando sono state deformate dalla stessa ANVUR con l’introduzione della matrice di corrispondenza. In base alle informazioni trapelate, avremmo dovuto dire più correttamente che il GEV09 ha disatteso l’interpretazione delle norme del bando indicata dal coordinatore a tutti i GEV. Infatti, l’adeguamento di tutti i GEV, tranne il GEV09, alle soglie 50:10:20:20 non è spontaneo o casuale, ma riflette una precisa indicazione del coordinatore. Dai documenti trapelati risulta anche che, con l’aiuto di un membro del GEV09, fosse stata valutata la probabilità di finire nelle zone A-B-C-D conseguente all’uso delle soglie 50:10:20:20 su entrambi gli assi della matrice di corrispondenza applicata ad un campione di Scientific Categories. Ne segue che nel GEV09 c’è chi, prima ancora di leggere il nostro articolo, è stato in grado di valutare l’impatto delle soglie speciali sulla probabilità di finire nelle zone A-B-C-D.
  
  Le considerazioni sull’inconsistenza della pretesa di usare soglie bibliometriche delle riviste come l’IF per dividere in percentili la produzione mondiale mi trovano d’accordo. Sono un’ulteriore dimostrazione delle assurdità della bibliometria fai-da-te che, unici nel mondo, stiamo adottando per valutare la nostra ricerca scientifica. Quello che è in gioco, però, è l’uniformità dei criteri. Se la bibliometria fai-da-te si accompagna ad ulteriori adattamenti ad hoc, ogni (residua) pretesa di scientificità ed imparzialità viene meno. In ogni caso, se anche fosse vero che il GEV09 applica criteri più restrittivi del bando, il vero problema rimane la scelta di una griglia bibliometrica più favorevole rispetto a quella indicata dal coordinatore ed adottata dagli altri GEV e persino da parte del GEV09 (faccio riferimento ad ING-INF/05 che adotta le soglie 50:10:20:20).
  
  ——————————–
  2. “avrete certamente notato che i “quartili” delle riviste calcolati dal GEV09 (mediante il complicato algoritmo PCA) non sono equinumerosi.”
  
  Nel calcolo effettivo dei quartili, il fatto che le proporzioni osservate nelle classifiche pubblicate non rispettino i criteri che lo stesso GEV09 si è dato aggiunge motivi di preoccupazione sulla trasparenza delle procedure. La spiegazione più benevola è che ci siano delle quantizzazioni che comportano degli ex-aequo. Sarebbe urgente pubblicare il codice di calcolo con cui sono state costruite le classifiche in modo che sia possibile una verifica indipendente. In ogni caso, prima ancora delle classifiche pubblicate, fanno testo i criteri e nel nostro articolo ci riferiamo ai criteri. Se le classifiche non fossero conformi ai criteri, ci troveremmo di fronte a una stranezza di cui il GEV09 dovrebbe dare spiegazione. Infatti, se gli scostamenti dalla equinumerosità variassero significativamente da SSD a SSD verrebbe ulteriormente intaccata l’imparzialità della valutazione all’interno dell’Area 09 (la distorsione maggiore riguarda ovviamente ING-INF/05 che usa le soglie standard). Vale la pena di ricordare che l’uso di metriche diverse all’interno di un’area invalida l’imparzialità della VQR perché la valutazione di un dipartimento potrebbe variare a seconda della sua composizione in termini di SSD (risultano favoriti i dipartimenti dove sono maggiormente rappresentati i SSD che usufruiscono di giudizi meno severi).
  
  ——————————–
  3.” è ovvio che i criteri delle ripartizioni (siano essi 50:10:20:20 o altro) sono solo indicativi”
  
  Per quanto riguarda l’idea che i criteri sono “solo indicativi”, io non accetterei di sostenere una prova di concorso in cui, con la scusa che i criteri sono indicativi, i miei titoli vengono valutati con il criterio dei GEV01-08 mentre i titoli dei miei concorrenti vengono valutati con il criterio del GEV09. Tanto meno accetterei disparità di criteri in una valutazione che ha tra le finalità il declassamento di atenei a teaching university o addirittura la chiusura di sedi (intervista del coordinatore Sergio Benedetto a Repubblica). Credo che i criteri fai-da-te siano di per se stessi molto discutibili, ma aumentarne la discrezionalità sembra l’ultima cosa da fare in una valutazione già abbastanza caotica.
  
  ——————————–
  4. “non credo si possa affermare — come fa il vostro articolo — che il GEV meno “severo” avvantaggi la sua area rispetto alle altre”
  
  Per quanto riguarda i favoritismi nei confronti di alcune aree o SSD, bisogna distinguere due aspetti:
  
  a) il confronto all’interno del GEV09 in cui la disparità con ING-INF/05 appare difficilmente giustificabile; come già detto, le disparità di giudizio interne ad un GEV invalidano l’imparzialità della VQR ed il nostro articolo dimostra che la disparità interna al GEV09 è tutt’altro che trascurabile;
  
  b) il confronto tra aree che in linea puramente teorica potrebbe sopportare qualche disparità (che si sperava riguardasse fondamentalmente il confronto tra Aree bibliometriche e non-bibliometriche); per questo secondo aspetto, avevo già pubblicato un commento che riporto per comodità:
  
  “Riguardo al possibile meccanismo con cui il maggior punteggio medio potrebbe aiutare l’Area 09 rispetto alle altre, ricordiamo che nella ripartizione delle risorse premiali sarà necessario stabilire il peso relativo tra le aree, operazione non facile e con forti risvolti “politici” in quanto richiede di assegnare una scala di valori a discipline molto eterogenee. Se nella VQR una delle aree ottenesse punteggi medi decisamente superiori alla norma, ciò offrirebbe un’ottima giustificazione “meritocratica” all’assegnazione di un peso maggiore nella ripartizione globale delle risorse. È per questa ragione, che bisogna porre attenzione all’uso di criteri il più possibile uniformi tra le aree, dato che esse sono in naturale competizione tra loro.”
  
  Nella migliore delle ipotesi, i punteggi di Area 09 non verranno mai resi noti e verranno conosciuti solo i punteggi normalizzati a livello nazionale delle Aree 09 dei singoli atenei (una specie di ranking relativo alla singola area). Tuttavia, per valutare dipartimenti inter-area e per valutare interi atenei sarà necessario stablire il peso relativo delle diverse aree. Siamo sicuri che, nel momento di decidere quanto pesano i matematici, i fisici, gli ingegneri, etc, nessuno guarderà il punteggio medio della VQR su scala nazionale per “spingere” qualche area “più eccellente” rispetto alle altre? Se per puro caso i punteggi assoluti delle aree di un ateneo venissero resi noti, preferireste essere un ingegnere di Area 09 oppure un professore di Area 01-08? Perchè introdurre in modo del tutto gratuito una disparità nel metro di giudizio con il rischio che, in futuro, venga utilizzata per scopi impropri?
  
  Infine, l’uso di soglie diverse implica non solo un punteggio medio diverso, ma anche una diversa distribuzione dei punteggi tra le strutture valutate. Per esempio, è lecito domandarsi quale effetto possa avere su tale distribuzione la diminuzione di area della zona D. In ogni caso, è chiaro che il ranking interno all’Area 09 si svolgerà con regole diverse da quelle usati dalle altre aree. Come detto sopra, nel GEV09 c’è chi, prima della decisione dei criteri, era in grado di valutare gli effetti quantitativi del cambiamento delle soglie.
- Renzo Rubele 27 Marzo 2012 At 14:03
  
  Sulla politica di “confrontabilità fra Aree” mi permetto di segnalare un mio post che faceva riferimenti di qualche interesse alla conduzione e agli esiti del VTR 2001-2003 del CIVR
  http://cronaca.anvur.it/2011/01/dare-valore-alla-ricerca.html
  
  Ricordo che, in un esercizio comparativo di questo tipo in cui l’obiettivo è anche la distribuzione selettiva di fondi come il RAE britannico, l’omogeneità di giudizio è un **valore assoluto**, da implementare al meglio. Del resto, al momento del computo dei finanziamenti, tutti i profili di qualità di tutte le aree sono trattati allo stesso, con un moltiplicatore che dipende dalla sola classe di merito.
- Renzo Rubele 27 Marzo 2012 At 15:09
  
  Scusate se torno su questo importante punto, ma forse non è sufficientemente chiaro che un esercizio di valutazione di questo tipo ha ipso facto ricadute in termini di relazioni tra aree diverse. Per questo, se uno non è capace di farlo, è meglio che si astenga.
  
  Invito alla lettura del Funding Method britannico, dal quale “defalcati i dettagli”, riporto il concetto principale, già espresso più sopra
  http://www.hefce.ac.uk/pubs/hefce/2010/10_24/10_24.pdf
  
  Table 6 Research funding weightings
  Quality rating (with abbreviated description) Funding weighting
  4* (world-leading) 9
  3* (internationally excellent) 3
  2* (recognised internationally) 1
  1* (recognised nationally) 0
  Unclassified (below the standard of nationally recognised work) 0
  
  Si noti bene che già adesso esiste per l’Italia una formula (di derivazione CIVR-VTR) per la ripartizione di fondi a seguito dell’esercizio, usata nel contesto di un indicatore della c.d. “quota premiale” dell’FFO. E’ tenuta all’oscuro di tutti, perchè la sua validità è molto questionabile.
  
  Suggerimento gratis a ROARS (come si suol dire): si faccia un po’ di informazione a riguardo, e garantisco sulla mia parola successoni ancora più grandi al blog di quelli già avuti con questi articoli!!!
- Renzo Rubele 29 Marzo 2012 At 03:58
  
  C’è già una novità per l’anno prossimo sulla funding formula britannica, perchè hanno deciso di togliere anche quell'”1″ per la ricerca di classe 2*.
  Cioè le uniche due classi di merito che conteranno per l’assegnazioni dei fondi saranno la 4* e la 3* (come a dire: Eccellente e Buona), con una ratio relativa sempre di 3:1
  
  http://www.timeshighereducation.co.uk/story.asp?sectioncode=26&storycode=419474&c=1
Chi valuta i valutatori? – Francesco Sylos Labini - Il Fatto Quotidiano 13 Luglio 2012 At 15:45

[…] questa deriva civile prima che culturale, è quello di ribattere con analisi circostanziate e documentate.Molti iniziano a pensare che l’unico modo di fermare la macchina Anvur sia quella di muoversi […]

Entra per lasciare un commento
VQR: AnvurLeaks, il complotto australiano, la maledizione di Atuk e le classifiche di Pinocchio 31 Ottobre 2012 At 15:37

[…] bibliometrici disuniformi e che la distorsione che ne segue è tutt’altro che trascurabile [VQR: tutte le valutazioni sono uguali, ma alcune sono più uguali delle altre]. Edward sa bene che questa disuniformità di giudizio è in grado di invalidare la VQR […]

Entra per lasciare un commento

LASCIA UN COMMENTO Cancella la risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.