Recentemente, la CRUI ha cercato di normalizzare i punteggi attribuiti dalla VQR ai vari Dipartimenti per ottenere una classifica utilizzabile per la distribuzione premiale delle risorse a livello di singolo Ateneo. Per rendere confrontabili i voti dei vari SSD è stata proposta l’adozione del “voto standardizzato”, grazie al quale le distribuzioni di voti all’interno di ciascun SSD dovrebbero essere tendenzialmente simili e non risentire di valutazioni particolarmente severe o particolarmente generose. La classifica si è rapidamente diffusa e nei corridoi e nei consigli di dipartimento, gli SSD con valori negativi vengono segnati a dito, perché pochi hanno capito che il valore minimo non è lo zero. Molti altri scrutano diffidenti la classifica, chiedendosi quanto è “vera” e quanto no. Chiediamocelo anche noi: quanto è standardizzato il voto standardizzato?

Recentemente la CRUI ha intrapreso uno studio con l’obiettivo di normalizzare i punteggi attribuiti dalla VQR ai vari Dipartimenti. Il fine è quello di ottenere una classifica quanto più pulita possibile del valore delle attività di ricerca svolte dai singoli raggruppamenti, utilizzabile anche a livello di singolo Ateneo per la distribuzione premiale delle risorse.

Il documento di accompagnamento allo studio CRUI segnala che i dati VQR non possono essere utilizzati direttamente per classifiche interateneo per due motivi principali (ne esistono anche altri, naturalmente):

1)   i Dipartimenti sono composti (in termini di peso dei vari SSD) in maniera differente;

2)   i GEV hanno valutato i vari SSD con metri di giudizio non necessariamente uguali.

Secondo il documento “i problemi principali che si pongono alla costruzione di indicatori di dipartimento sono sostanzialmente dovuti al fatto che ogni dipartimento è una realtà a sé stante, composta spesso di un numero variabile di membri appartenenti a diversi SSD”.  A ciò si aggiunge la differente scala di valutazione dei GEV che porta alcuni ad essere particolarmente severi, altri più condiscendenti, alcuni a differenziare in maniera netta le valutazioni, altri a preferire valutazioni più omogenee.

Per ridurre l’impatto della variabilità nella valutazione dei GEV e rendere confrontabili i voti dei vari SSD è stata proposta l’adozione del “voto standardizzato”. I proponenti presentano il voto standardizzato come “la valutazione media dei prodotti attesi dal membro di un dipartimento depurata dalle differenze introdotte dalle diverse metodologie di valutazione usate dai vari GEV”. Grazie al voto standardizzato, dunque, le distribuzioni di voti all’interno di ciascun SSD dovrebbero essere tendenzialmente simili e non risentire di valutazioni particolarmente severe o particolarmente generose.

Nelle tabelle allegate al documento CRUI-ANVUR sono stati resi disponibili i voti per ciascun SSD presente in un dipartimento, ma per esigenze di privacy, sono stati resi noti solo i voti relativi a SSD per dipartimento in cui fossero presenti almeno 10 prodotti presentati.  L’esigenza di riservatezza, pertanto, riduce notevolmente la quantità di dati disponibili, tagliando tutte le valutazioni attribuite a SSD con scarso peso nel singolo dipartimento.

Ciononostante, la classifica si è rapidamente diffusa e tutti la stanno già utilizzando. Nei corridoi e nei consigli di dipartimento, gli SSD con valori negativi vengono additati come un danno per la ricerca, perché ben pochi hanno capito che il valore minimo non è lo zero. Molti altri probabilmente scrutano diffidenti la classifica, chiedendosi quanto è “vera” e quanto no.

La tentazione di molti sarà sicuramente stata quella di confrontare i voti ottenuti dai vari SSD. Purtroppo c’è grande variabilità nei voti disponibili, alcuni SSD sono presenti (con almeno 10 valutazioni) solo in 4 o 5 dipartimenti, altri sono presenti in 50 o 70 dipartimenti. Confronti diretti tra SSD risentirebbero troppo della diversa numerosità di voti disponibili.  Resta la possibilità di verificare qual è la distribuzione complessiva dei voti disponibili per capire se essa rispetta le ipotesi statistiche che sono state adottate nel modello di standardizzazione (per il dibattito su quanto è gaussiana la distribuzione reale si rimanda all’apposito articolo su ROARS). Questa verifica, però, non ci direbbe nulla sulla capacità del metodo di rendere omogenei i metri di giudizio utilizzati dai GEV.

Al momento sono disponibili 4317 voti standardizzati attribuiti ai singoli SSD dei vari dipartimenti. I voti disponibili non rispecchiano l’aggregato nazionale ma solo gli SSD sufficientemente presenti in un dipartimento tanto da essere resi pubblici (almeno 10 prodotti presentati) senza violare la privacy. Aggregando i vari SSD per aree disciplinari si ottengono 14 distribuzioni di voti standardizzati.

 

 

 

 

Nonostante l’affollamento di linee nel grafico, si nota che esistono alcune differenze tra le aree. Tuttavia, bisogna notare che le tre aree con distribuzioni meno simmetriche rispetto al totale (2, 4 e 14) sono anche le meno numerose (rispettivamente 150, 99 e 95 voti disponibili). Eliminando le aree “piccole” e suddividendo il grafico in base alla somiglianza visiva tra le curve, si ottengono quattro gruppi di distribuzioni rappresentate nei grafici successivi.

 

 

 

 

Anche se il metodo non è statisticamente rigoroso, non si può negare che tra le varie aree persistono delle differenze di giudizio. Nell’area 7 (304 voti disponibili) sono presenti più valutazioni positive rispetto alla media, mentre nell’area 13 (353 voti disponibili) ci sono più valutazioni negative. Le aree 10 e 11 (rispettivamente 314 e 311 voti disponibili) sono più concentrate intorno allo 0 rispetto alle aree 6, 8 e 9 (rispettivamente 741, 295 e 421 voti disponibili)

E’ dunque vero che le valutazioni sono state depurate “dalle differenze introdotte dalle diverse metodologie di valutazione usate dai vari GEV”? E’ possibile in questo modo ottenere delle valutazioni che consentano “agli atenei interessati di confrontare fra loro i propri dipartimenti secondo la qualità di ricerca, così come misurata dai risultati VQR”?

Proviamo a immaginare il confronto tra due dipartimenti, composti ognuno dallo stesso numero di docenti, equamente ripartiti tra le 14 aree. Nel Dipartimento delle SuperScienze sono presenti i migliori docenti di Italia (con il voto più alto dell’area), mentre nel Dipartimento della Ricerca Assente ci sono i peggiori (con i voti più bassi dell’area).

Il magnifico Rettore deve distribuire 100 talleri tra i due dipartimenti. Poiché i due Dipartimenti sono composti allo stesso modo (stesso numero di docenti totali e per area), non è necessario ricorrere all’artificio del Dipartimento Virtuale suggerito dalla CRUI per confrontare dipartimenti di differente composizione. L’unica differenza tra i due dipartimenti è nella qualità della ricerca. Conoscendo l’ampia differenza qualitativa tra i due Dipartimenti, il Rettore decide di allocare le risorse distribuendo solo una piccola quota (il 10%) su base premiale. Applicando la formuletta di ripartizione delle risorse suggerita nel documento CRUI/ANVUR, suddivide i 100 talleri a sua disposizione tra i due dipartimenti. Il risultato è 70,57 talleri alle SuperScienze e 29,43 talleri alla Ricerca Assente. I Direttori dei Dipartimenti – in conseguenza della valutazione della perfomance e tenuto conto che non ci sono grosse differenze all’interno del dipartimento – adottano una strategia rigorosamente premiale, distribuendo il 100% delle risorse su base premiale. Applicando la formuletta di CRUI/ANVUR, distribuiscono i talleri alle varie aree.

Alla fine della distribuzione dei talleri, due aree (la 13 e la 6) si sono accaparrate il 22% delle risorse di ateneo, mentre l’area 10 rischia di scomparire, nonostante nel Dipartimento delle SuperScienze ci siano i migliori linguisti, filologi e archeologi d’Italia.

Questa storiella è probabilmente troppo semplificata. L’obiezione principale è che il caso è troppo particolare perché sia considerato significativo. Pertanto, abbandoniamo i talleri e torniamo alle statistiche descrittive, cercando, però, un metodo di confronto tra aree “più scientifico”. Senza allontanarci troppo, possiamo trovare un suggerimento per l’analisi nel sito dell’ANVUR. L’ANVUR a suggerisce che i percentili delle distribuzioni possono essere utili ad identificare le eccellenze e a distinguerle dalle risorse di minore qualità. La ripartizione ideale per ANVUR classifica gli oggetti da valutare in 4 categorie: il 50% sono prodotti limitati, il 10% prodotti discreti, il 20% prodotti buoni e il 20% prodotti eccellenti.

Utilizziamo la stessa classificazione per confrontare le varie aree. Calcolando i percentili delle distribuzioni di ciascuna area si può verificare dove si collocano le soglie di mediocrità o eccellenza in termini di voto standardizzato.

 

Tirando un sospiro di sollievo, è possibile verificare che i dipartimenti che hanno presentato prodotti eccellenti hanno sempre punteggi superiori a quelli che hanno presentato prodotti discreti, per qualsiasi area. Un dipartimento eccellente in area 10 avrà sicuramente un voto standardizzato maggiore di un dipartimento di area 13 che abbia presentato prodotti buoni o discreti. Quello che accadeva all’area 10 nel dipartimento delle SuperScienze non può accadere nella realtà.

Guardando le fasce basse della classificazione di merito, però, sorge qualche dubbio..

Consideriamo un ipotetico Dipartimento di Scienze politiche e sociali composto in parti uguali dalle aree 10, 11 e 14 e supponiamo che le tre aree abbiano ottenuto la stessa valutazione, ovvero un voto standardizzato pari a 0,4. Nel grafico successivo il triangolino nero indica la posizione in ciascuna distribuzione dello stesso voto.

 

Con una certa sorpresa, si scopre che lo stesso voto corrisponde ad un giudizio “limitato” in area 10, “discreto” in area 11 e addirittura “buono” in area 14. Di nuovo l’area 10 sembra la più severa: nell’esempio precedente mostrava le performance peggiori e nei grafici delle distribuzioni era l’area con la distribuzione più appuntita.

Consideriamo un nuovo dipartimento, per esempio “Scienze giuridiche, sociali ed economiche”, composto con uguale numerosità da docenti di area 11, 13 e 14. Immaginiamo che ogni area ha ricevuto un voto standardizzato pari a 0,3 e collochiamo i voti sul grafico.

 

Anche in questo caso una valutazione identica in termini numerici corrisponde a differenti classi di giudizio: allo 0,3 dell’area 11 corrisponde un giudizio “limitato”, nell’area 14 un giudizio “discreto” e nell’area 13 un giudizio addirittura “buono”.

Come spiegare queste differenze? Sorge il dubbio che i dipartimenti “meno bibliometrici” siano più soggetti a discordanze. Consideriamo allora un dipartimento di Ingegneria civile e ambientale composto per metà da area 4 e per metà da area 8. Dove si posizionano due valutazioni uguali pari a 0,5?

 

 

Ancora una volta, lo stesso voto appartiene a classi di merito differenti: l’area 8 è nella categoria dei “buoni” mentre l’area 4 è nella categoria dei “discreti”, pur avendo entrambe le aree ottenuto lo stesso punteggio. Non è dunque questione di bibliometria. È opportuno ricordare che, confrontando le varie distribuzioni di voti, alcune aree si presentavano meno simmetriche perché erano molto meno numerose delle altre. Era il caso dell’area 4 del dipartimento di “Ingegneria civile e ambientale”, e lo stesso accadeva per l’area 14 nei dipartimenti precedenti. È opportuno cercare confronti tra aree di numerosità non troppo differente.

Verifichiamo cosa accade in un ipotetico dipartimento di “Tecnologie Agro-Alimentari”, dove le tre aree di uguale dimensione ricevono i seguenti punteggi: area 5, punti 0,3, area 7 e area 3, punti 0,4. Ci aspettiamo che al voto inferiore corrisponda una fascia di merito più bassa.

 

In questo dipartimento accadono due stranezze contemporaneamente: lo stesso voto corrisponde a classi di merito differenti ma, in più, il voto 0,3 dell’area 5 ha un giudizio superiore (discreto) rispetto al voto 0,4 dell’area 3 (limitato). La gerarchia dei numeri non corrisponde alla gerarchia dei giudizi secondo i percentili ANVUR.

E’ opportuno verificare il caso dei valori differenti con un ultimo ipotetico dipartimento di “Scienze dell’Ambiente e del Territorio” dove le aree hanno ottenuto voti tutti diversi: l’area 3 ha ottenuto 0,4 ed è la migliore, seguita dall’area 5 con 0,3 e dall’area 4 con 0,1.

 

In questo caso la “discreta” performance dell’area 4 è fortemente penalizzata dal punteggio decisamente più elevato dei prodotti “limitati” di area 3. Nella ripartizione di risorse otterranno di più i prodotti limitati rispetto a quelli di categoria superiore.

Il mutevole confine dei giudizi di valore fa nascere qualche perplessità sull’utilizzabilità pratica dei dati VQR, anche dopo la complessa procedura di normalizzazione proposta dalla collaborazione CRUI/ANVUR.

Anche se la metodologia di confronto proposta in questi esempi non è del tutto rigorosa, la semplice esistenza di un ragionevole dubbio dovrebbe essere sufficiente per non condannare a morte certa intere discipline.

Send to Kindle

21 Commenti

  1. Come spiegare queste differenze?
    …si chiede giustamente Bruna Bruno nel suo post…
    Provo ad offrire un’ipotesi come già feci qualche post orsono su ‘Voti VQR ai dipartimenti: le normalizzazioni fai-da-te di CRUI e ANVUR’:

    Le differenze (talvolta paradossali) si osservano a causa dell’impiego del fattore R (VQR). Essendo R=I/media dell’area (vedi grafico), ed essendo le medie di area estremamente diverse fra di loro (vedi grafico) si ottengono valori molto discordanti dal valore reale ottenuto nella valutazione ed anche paradossi tipo quelli segnalati.
    In breve, si può ottenere che un voto buono (>0.6<0.8 in chimica) risulti peggiore(!) (usando la R) di un voto limitato ( Dato un dipartimento d con Nd membri totali distribuiti in gruppi di ns membri per SSD s, detto Rs il valore del terzo indicatore VQR (il rapporto fra il voto medio dei membri del SSD s del dipartimento e quello nazionale), l’indicatore IDVAd vale:
    IDVAd =N1 ∑NSSDRs⋅ns =∑NSSDRs⋅πs =〈Rd〉,
    s=1 s=1
    d
    dove NSSD è il numero totale di SSD, e πs = ns / Nd è la percentuale di membri del dipartimento d afferenti al SSD s. In altre parole, IDVAd è un R medio di dipartimento; infatti esso consiste nella media pesata sul dipartimento dei rapporti Rs di SSD.

    Quanto meno avremo un ulteriore elemento di discussione…

  2. Come spiegare queste differenze?
…si chiede giustamente Bruna Bruno nel suo post…
Provo ad offrire un’ipotesi come già feci qualche post orsono su ‘Voti VQR ai dipartimenti: le normalizzazioni fai-da-te di CRUI e ANVUR’:
    Le differenze (talvolta paradossali) si osservano a causa dell’impiego del fattore R (VQR). Essendo R=I/media dell’area (vedi grafico),
    /Users/marco/Desktop/Diapositiva09.png

    ed essendo le medie di area estremamente diverse fra di loro (vedi grafico) si ottengono valori molto discordanti dal valore reale ottenuto nella valutazione ed anche paradossi tipo quelli segnalati.
In breve, si può ottenere che un voto buono (>0.6<0.8 in chimica) risulti peggiore(!) (usando la R) di un voto limitato (<0.5 in economia) a causa delle medie nazionali (0.79 chimica e 0.32 economia).

    Dal documento ANVUR-CRUI:

    ‘Dato un dipartimento d con Nd membri totali distribuiti in gruppi di ns membri per SSD s, detto Rs il valore del terzo indicatore VQR (il rapporto fra il voto medio dei membri del SSD s del dipartimento e quello nazionale), l’indicatore IDVAd vale:
IDVAd =N1 ∑NSSDRs⋅ns =∑NSSDRs⋅πs =〈Rd〉,
s=1 s=1
d
dove NSSD è il numero totale di SSD, e πs = ns / Nd è la percentuale di membri del dipartimento d afferenti al SSD s. In altre parole, IDVAd è un R medio di dipartimento; infatti esso consiste nella media pesata sul dipartimento dei rapporti Rs di SSD.’

    Chiudo con una (semi)provocazione:
    non si potrebbe provare ad inserire la I di VQR al posto della R?

    Quanto meno avremo un ulteriore elemento di discussione…

  3. Carissimi non sono molto addentro alle questioni statistiche ma mi chiedo, alla luce dei voti std per il mio dipartimento, costituito da 3 SSD, due con voto medio positivo ed uno con voto medio negativo, è normale (nel senso accade così sempre in statistica)che un valore già negativo, standardizzato, diventa ancora più negativo ed un valore positivo, std, diventa ancora più positivo o mi devo chiedere cosa è successo nel caso specifico? e le due colonne “voto medio persone nazionale” e “sd nazionale voto persone” come devo leggerle?
    Graze

    • Non so dire in linea di principio se è normale oppure no, ma confrontando le medie del grafico inserito da Marco Diana nel commento poco più su con le medie del voto standardizzato (grafico qui sotto) mi sembra di poter dire che il VS aumenta di molto le distanze tra aree (e forse tra SSD) per cui potrebbe essere normale che il voto positivo diventa “più” positivo e quello negativo “più” negativo.
      Infine, voto persone e sd nazionale indicano la valutazione media e la deviazione standard dell’insieme nazionale del SSD corrispondente.


  4. Carissimi,
    visto che sono chiamato in causa, provo a rispondere al dubbio / domanda di Corrado, sempre che io abbia compreso la questione. Ovviamente sarebbe più semplice se Corrado mi dicesse il caso esplicitamente, in modo da poter rispondere in modo puntuale. Nel dubbio di non aver compreso riformulo a modo mio la domanda di Corrado (così capisce se ho davvero inteso o no).
    Se in un dipartimento ho due ssd, tutti con 10 ricercatori (ammettiamo per semplicità che tutti dovessero presentare tre prodotti) e tutti e due i SSD hanno avuto VS = 1, come mai nel dipartimento che contiene essi e solo essi, non viene un VS di dipartimento pari a 1, come dovrebbe accadere se facessimo una media pesata?
    Matematicamente la risposta è nella formula del VS (vedi il documento sul sito ANVUR a pagina 12, ultima formula in basso): Ud=1/sqrt(30^2+30^2)*[1*sqrt(30^2)+1*sqrt(30^2] = sqrt(2)
    Ovvero il VS del dipartimento è maggiore di ognuno dei valori dei SSD al suo interno (se tutti fossero stati a -1, il VS di dipartimento sarebbe stato -sqrt(2). Il VS del dipartimento infatti non è propriamente una media pesata (cioè lineare nei pesi), ma è appunto una grandezza standardizzata che sul campione intero deve avere valore medio 0 e varianza unitaria. Questo è esattamente il motivo per cui il VS cancella l’effetto imbuto, giustamente messo in evidenza da G. De Nicolao alcuni mesi fa e da me cercato di correggere, fra le altre cose, proprio con il VS.
    Suggerirei a Corrado di guardare, se non ha meglio da fare, il mio intervento sull’altro blog (L’audace standardizzazione….) dove faccio vedere un grafico che mostra l’efficacia del VS nell’eliminare l’effetto imbuto, presente viceversa negli indicatori quali R medio di dipartimento e tutti gli altri di questo tipo proposti dall’ANVUR.
    Il mio modo di ragionare sul DVA, che non sto a ripetere in dettaglio per non annoiarvi, riconduce tale correzione al calcolo della probabilità di avere nel DVA un VS inferiore a quello osservato nel dipartimento (è cioè meno probabile avere 20 membri buoni tutti in un dip, che singolarmente 10 in uno stesso SSD).

    Approfitto, ringraziando Corrado per l’occasione che mi fornisce, per ripetere che la osservazione sui fisici e medici bresciani dalla quale De Nicolao ha preso spunto per muovere nuove le critiche al VS sul blog appena citato, nascevano, secondo me, proprio dal non aver compreso (De Nicolao) che stava osservando l’efficacia del VS nel compensare l’effetto imbuto. E’ curioso che dopo un momento di gloria, questo effetto imbuto appaia ora derubricato o misconosciuto.
    Spero di essere stato chiaro, sempre che abbia compreso la domanda. Se non l’ho compresa, Corrado me la ponga nuovamente, possibilmente con riferimento al caso in studio.
    Saluti a tutti (forse a breve un intervento sul tema generale in discussione)
    Giacomo Poggi

  5. Per Bruna Bruno.
    Vorrei commentare in via generale la tua riflessione su “Quanto è standardizzato …”.
    In realtà commenterei solo la seconda parte, perché sulla prima condivido la tua riflessione finale (sì, si tratta di un caso francamente tirato per i capelli ).
    Quanto alla seconda parte, a mio parere molte, se non tutte le riflessioni che esponi, sono figlie di un equivoco semantico (in realtà questo equivoco aleggia anche nella prima parte). “Standardizzato” è infatti un termine tecnico: se prendo una variabile o aleatoria o appartenente ad un campione (questo è il nostro caso) posso fare una trasformazione che non altera la forma della distribuzione complessiva della variabile e che consiste nella sottrazione dalla variabile del suo valor medio campionario e poi nella divisione del risultato per la radice della varianza campionaria (cioè la deviazione standard).
    Questa trasformazione (insisto: che non altera la forma della distribuzione, ma la trasla e la comprime o espande uniformemente) produce una nuova variabile che è detta appunto standardizzata. La “standardizzazione” si riferisce quindi esclusivamente al fatto che la variabile ha ora media campionaria nulla e varianza campionaria unitaria. Tutte e sole le variabili con queste proprietà sono dette standardizzate. Scusa la lezioncina, di cui –sono certo- tu non avevi bisogno; ma si tratta di un punto fondamentale da chiarire a tutti.
    Da queste proprietà matematiche e solo da queste discendono le proprietà (niente affatto miracolose) del VS che ho cercato di illustrare, in particolare la correzione dell’effetto imbuto e la semplicità con la quale si riesce a calcolare la probabilità di ottenere nel Dipartimento virtuale associato (DVA) al nostro dipartimento reale (DR) un VS inferiore a quello osservato; probabilità da utilizzare poi, da parte di chi vuole farlo, per confrontare i dipartimenti, come spiegato dal sottoscritto nel documento sul sito ANVUR e illustrato dall’amico matematico (altre discussioni).
    Mi scuso (e soprattutto mi vergogno) se da quello che segue si dovesse evincere che non ho capito nulla dei tuoi argomenti, ma ti confesso che ho fatto molta, molta fatica a capire le tue riflessioni, forse proprio per quell’equivoco sopra detto. Comunque ci provo.
    Mi pare quindi che tu attribuisca al VS alcune proprietà che evidentemente tu classifichi come “standardizzanti”: in particolare quella (che nessuno attribuisce alle variabili standardizzate, figuriamoci il sottoscritto!) di riuscire a distorcere (nota a distorcere) la forma delle distribuzioni dei voti attribuiti dai vari GEV nelle varie Aree e SSD, in modo tale da riprodurre i percentili “suggeriti” dall’ANVUR per stabilire i criteri con cui classificare la qualità delle pubblicazioni secondo una presunta scala condivisa dalla comunità scientifica nazionale.
    A parte la impossibilità della standardizzazione a compiere travasi di percentili, francamente non riesco proprio a entrare in sintonia logica con questo approccio. Ho difficoltà perché, al di là della tua contestazione della efficacia del VS, perché mai la distribuzione della qualità dei prodotti dovrebbe fedelmente rappresentare quella della qualità delle riviste in tutte le Aree? Ulteriore confusione mi genera in testa il fatto che tu guardi la distribuzione del VS di aggregazioni di membri di varia numerosità (meno male che il VS compensa per l’effetto imbuto), in ogni caso superiore al limite minimo concesso per motivi di riservatezza.
    Immagino che le tue riflessioni partano dal rapporto finale ANVUR e precisamente dalla fig. 6.2, dalla quale si evince che le numerosità di prodotti E, B… variano da Area a Area e non rispettano affatto le percentuali prima citate. Un’altra volta a me questo non stupisce affatto e non costituisce per me alcun problema. E’ il risultato che i GEV hanno prodotto e quindi si tratta di una caratteristica intrinseca delle votazioni VQR, che per essere modificata comporterebbe appunto travasi nella distribuzione, che non mi sento né autorizzato né interessato a fare. Se capisco bene, secondo te la distribuzione della qualità dei prodotti osservati dovrebbe invece, almeno idealmente, riprodurre quella dei criteri di qualità delle riviste. Perché mai? Riconosco in questo modo di ragionare qualcosa di simile a quello di G. De Nicolao quando si aspetta (anzi esige) una distribuzione gaussiana nei voti standardizzati dei dipartimenti, aspettativa che io continuo a ritenere una pura petizione di principio.
    Queste discussioni assumono troppo spesso un tono un po’ paradossale: alcuni di voi hanno alcune aspettative o convincimenti personali ben radicati circa le proprietà che i VOTI GIUSTI di una valutazione della ricerca dovrebbero avere e pretendono che quelle proprietà abbiano un carattere di universalità tale che ogni indicatore debba soddisfarle (tu che i percentili della distribuzione del VS “copino” quelli della qualità delle riviste, Giuseppe la gaussianità della distribuzione dei VS dei dipartimenti nazionali). Rispondo solo perché mi pare doveroso chiarire quello che è matematica, logica e deduzione conseguente, da quelle che sono le premesse o le aspettative più o meno personali; possibilmente senza attribuire la non soddisfazione di queste aspettative ai difetti di un approccio fatto con altri fini, entro altri limiti e magari solo con molta meno ambizione. Gli equivoci, secondo me, andrebbero risolti presto, prima che la discussione diverga su aspetti secondari, confonda il lettore e magari faccia degenerare la qualità di un vero confronto di idee.

    Ora mi scuso e mi congedo, anticipandovi che con tutto quello che ho da fare in questa fine di settimana, difficilmente mi rivedrete sul blog (certo anche di non gettarvi con questo nella disperazione)
    Un caro saluto
    Giacomo

    • Ringraziando Poggi per la disponibilità a intervenire e confrontarsi (virtù non frequente), prima di rispondere alle singole obiezioni, mi permetto di fare una dovuta precisazione sull’impostazione generale del problema.
      .
      Non ho nessuna ambizione di contestare la validità matematica/teorica del voto standardizzato, cosa per la quale non sono assolutamente qualificata.
      Per abitudine scientifica sono portata a verificare l’effetto delle policy sulla realtà: quello che mi premeva evidenziare sono i possibili effetti dello strumento (anche teoricamente ben congegnato), prima che essi si realizzino, creando impatti difficilmente reversibili.
      Poiché nel documento di accompagnamento si dice esplicitamente che “gli indicatori proposti consentono un utilizzo completo dell’informazione raccolta nell’esercizio VQR” (pag.1), mi preme sottolineare che è assolutamente meritorio lo sforzo di Poggi di migliorare l’affidabilità degli indicatori VQR, ma che è altrettanto azzardato attestarne l’applicabilità pratica senza ulteriori verifiche sugli effetti che possono indurre, per il semplice fatto che una volta applicati, gli indicatori producono effetti (distorti oppure no) che sarà difficile modificare in futuro.
      .
      Prima di rispondere sui singoli punti, pertanto, mi permetto di invitare Poggi a riflettere – non sulla correttezza teorica del suo ragionamento – ma sull’opportunità di invitare tutti alla sua applicazione pratica.
      Non sarebbe meglio sviluppare un dibattito (come normalmente si fa nella ricerca scientifica) prima di proporre strumenti precisi di intervento?
      E’ sicuro che uno strumento – per quanto migliore del precedente – sia solido a tal punto da consentirne l’utilizzo pratico senza ulteriori verifiche?
      Ha valutato le implicazioni dell’utilizzo di tale strumento?

      Con queste domande, le auguro un ottimo weekend.

    • Ora provo a rispondere a quelle che mi sembrano le due questioni principali poste da Poggi:
      1) cosa mi aspetto dal voto standardizzato?
      2) perchè i percentili della distribuzione dei prodotti dovrebbero corrispondere ai percentili delle distribuzioni di riviste?
      .
      1) Cosa mi aspetto dal voto standardizzato?
      Dal VS io mi aspetto semplicemente quello che viene dichiarato nel documento di accompagnamento relativo alla collaborazione CRUI/ANVUR, ovvero che il “voto standardizzato medio di un membro rappresenta la valutazione … depurata dalle differenze introdotte dalle diverse metodologie di valutazione introdotte dai vari GEV” (pag.6) e che (pag.12) “il voto standardizzato del singolo membro è un indicatore che rimuove molte delle criticità associate alla variabilità del modus operandi dei GEV”, e che “la rimozione della variabilità delle votazioni dei GEV interviene ab initio e prosegue automaticamente ad ogni passo aggregativo di membri” (pag.13) e che conseguentemente “si suggerisce agli Atenei di utilizzare il VS per operare un confronto della qualità della ricerca dei dipartimenti” (pag. 1).
      .
      Leggendo questo documento ufficiale, dove non sono espressi ulteriori limiti della metodologia, io (che potrei essere anche uno storico, o un glottologo o chiunque non sia tenuto a conoscere la statistica) mi aspetto che il voto standardizzato elimini le differenze di giudizio tra i GEV e assicuri una sostanziale uniformità (per media, variabilità e distribuzione) delle valutazioni.
      Le “aspettative” non sono “convincimenti personali”, ma l’effetto delle dichiarazioni che accompagnano il VS.
      Non trovo scritto che il voto standardizzato non ha altre ambizioni che quella di correggere l’effetto imbuto. Non trovo esplicitati i limiti non superati dal voto standardizzato.
      .
      Per questo, trovo abbastanza azzardato il suggerimento di utilizzare il voto standardizzato per distribuire le risorse come se il VS eliminasse “tutte” le differenze nelle valutazioni dei GEV. E per questo ho cercato di evidenziare gli effetti dell’utilizzo del VS.
      L’approccio – e mi scuso se mi ripeto – è quello di valutare l’impatto dell’applicazione di questa misura – date le premesse e promesse del documento – e non di contestarne il rigore metodologico.
      .
      2) Perché i percentili della distribuzione dei prodotti dovrebbero corrispondere ai percentili delle distribuzioni di riviste?
      Se vado a sbirciare nel bando VQR, al paragrafo 2.4 intitolato “Valutazione dei prodotti” (e non delle riviste che contengono i prodotti), leggo che “i giudizi descrittivi devono essere alla fine compendiati in un giudizio sintetico, con attribuzione della pubblicazione a uno dei seguenti livelli di merito: A. Eccellente: la pubblicazione si colloca nel 20% superiore della scala di valore condivisa dalla comunità scientifica (peso 1). B. Buono: la pubblicazione si colloca nel segmento 60%-80% (peso 0.8) ….”. Potete immaginare il resto.
      .
      Dunque i percentili erano proprio l’indicazione di metodo per la classificazione dei prodotti (non per le riviste). Non mi sembra, pertanto, di aver operato una scandalosa forzatura nell’applicare i famosi percentili al VS.
      .
      Piuttosto c’è da interrogarsi sul significato di questi percentili. Se i GEV avessero operato in coerenza con questa indicazione dovremmo aspettarci delle distribuzioni in cui si rappresenta la collocazione dell’area rispetto al panorama internazionale: se i voti pari a 1 sono meno del 20%, ci aspettiamo un’area o SSD che si considera un po’ al di sotto del panorama internazionale, più sbilanciata su prodotti di qualità media o medio bassa.
      Forse, prima di standardizzare e stravolgere il significato del voto attribuito, si dovrebbe riflettere e analizzare i giudizi così come sono stati espressi.
      .
      Infine, mi consento una nota – lo confesso – un po’ polemica. Sempre nel documento di accompagnamento leggo che per superare il problema della non confrontabilità tra valutazioni assegnate a membri di SSD molto diversi, “sia identificabile una soluzione sufficientemente generale ….che si ispira a quello cui fanno ricorso le Università più prestigiose… che non ci chiedono il voto che gli abbiamo assegnato, ma piuttosto in quale percentile della distribuzione … esso si colloca”. “A seconda del percentile della distribuzione delle votazioni dei propri rispettivi SSD nel quale esse si collocano possiamo decidere quale delle due valutazioni è migliore o peggiore: la valutazione migliore è quella per la quale è minore il numero di votazioni più alte assegnate nello stesso SSD” (pag.2).
      .
      Ne deduco che il metodo dei percentili è considerato metodo sufficientemente generale nella valutazione “relativa” di una votazione espressa con differenti parametri di giudizio. Possiamo discutere su quale “nome” attribuire a ciascun percentile e quale percentile considerare, ma non contestare a priori l’utilizzo di percentili per confrontare gli effetti dell’utilizzo del VS.
      .
      In conclusione, mi permetto una considerazione di carattere più generale. L’utilizzo dei voti VQR per la distribuzione delle risorse o per qualsiasi altro uso si abbia in mente non è solo una questione matematico/statistica, perché implica comunque una scelta di politica accademica in un senso o nell’altro. Usarli o non usarli, per un fine o per l’altro, non è una scelta “neutra” perché implica l’utilizzo di uno strumento per un fine per il quale tale strumento non è stato espressamente costruito. A mio modesto parere, c’è bisogno di una visione ampia e cauta degli effetti e dei significati dell’impiego di uno strumento.
      Ad esempio, non penso che Poggi suggerirebbe al direttore di dipartimento di promuovere il docente che ha dato più 30 e lode, perché sa che quella misura è adatta ad attribuire il valore allo studente e non al docente che gli dà il voto. E questa non è una questione matematica, ma una questione di buon senso. È facile trasporre l’esempio all’area/SSD che giudica i prodotti/soggetti ad essa pertinenti.
      Il mio suggerimento è quello di essere cauti nell’indicare soluzioni, perché una volta applicate tali “soluzioni” hanno degli effetti che potrebbero essere irreversibili, anche se perversi.

  6. Grazie mille per i chiarimenti. Leggo con grande interesse i commenti di Poggi e quelli sul documento di Poggi.
    Chiarimento statistico: io ho elaborato un terzo foglio excel, per fare graduatoria dei SSD in base al voto std (e valutare se cambiano le graduatori rispetto alle tabelle precedenti); è corretto sotto il profilo statistico o non si piò fare? il voto standardizzato del Dipartimento è dato dalla somma dei voti dei singoli SSD (per cui se non torna è perché mancano i voti dei SSD con meno di 5 persone?)
    grazie

    • Caro Corrado,
      sul sito ANVUR, nel secondo foglio del file excel (quello suggerito per ssd) trovi il voto stdzzt dei vari ssd all’interno dei dipartimenti; ci sono solo quei SSD con numerosità di prodotti non inferiore a 10 (quindi tipicamente 3 membri). Gli altri sono coperti dalla riservatezza e l’ANVUR non li pubblica. Come combinare i voti stdzzt dei SSD nel dipartimento al fine di ottenere il voto sdtzzt del dipartimento, è scritto nel documento, sempre sul medesimo sito. E’ la procedura che ho seguito per farti l’esempio nell’ultimo post indirizzato a te.
      Buon lavoro
      Giacomo

  7. E invece mi getti proprio nella disperazione caro Gedeone GP, mi ero illuso di poter (finalmente) avere risposta al dubbio che mi attanaglia…ahimè niente da fare…very busy week-end…
    Mah, io riprovo (magari si impietosirà):
    Perchè non usare la I (invece della R) nella formula per costruire il VS?

    Almeno una (buona!) ragione, please…

    P.S. Sarei comunque onorato di poter fare due chiacchiere con te

  8. Caro Marco,
    scusa, ma non sono un esperto visitatore di blog e mi ero perduto la tua richiesta. Non è questione di impietosirsi. Poi, non mi prendere in giro: temo che dopo questa risposta non sarai particolarmente onorato di aver fatto due chiacchiere con me, perché, bene che vada, ti avrò solo detto cose abbastanza ovvie.
    Comunque, nessuna intenzione di snobbare.
    Fornisco la mia risposta, sperando di essere chiaro, senza pretendere di esprimere verità assolute.
    Il voto medio I soffre della debolezza di essere molto differente fra Area e Area e SSD e SSD. Tanto per fare un esempio (puoi controllare nel secondo foglio del file sul voto standardizzato calcolato sui SSD) in M-PSI/02 e FIS/04 ha i voti medi attorno a 0.91-0.92, mentre in SECS-P/07 è circa 0.13. Simili discorsi fra Aree. Quindi tutti (o quasi) gli afferenti ad un certo SSD si piazzerebbero, in ogni struttura (ateneo o dipartimento) meglio di quasi tutti i membri dell’altro SSD. Risentiresti quindi molto pesantemente delle diverse valutazioni dei GEV e metteresti più che altro a diretto confronto categorie di ricercatori (Aree o SSD) con altre categorie, senza aver preventivamente calibrato le risposte dei GEV. Va da sé che se le votazioni dei vari GEV fossero state calibrate fra Aree e SSD, l’indicatore I potrebbe essere tranquillamente adoperato. In assenza di questa calibrazione, che oltretutto il bando stesso non richiedeva, anzi implicitamente ammetteva perché anticipava confronti all’interno delle Aree, l’indicatore I appare adatto esclusivamente a fare appunto confronti all’interno dell’Area o del SSD. In realtà all’interno di un SSD molti sono gli indicatori che funzionano abbastanza bene (quasi qualunque indicatore crescente linearmente con il voto, direi).
    Cercando viceversa di voler identificare i migliori classificati in ogni categoria (Area o SSD) e volendo confrontare Aree e SSD fra loro, il terzo indicatore R appare effettivamente più adatto perché misura proprio, all’interno di ogni SSD (o Area) quali ricercatori sono meglio o peggio confrontandoli con la media corrispondente.
    Anche questo indicatore ha inevitabilmente dei difetti, perché le variazioni dei voti osservati in SSD possono essere molto più ampie che in un altro (e questo è quello che tu noti e su cui insisti). Spesso, ma non sempre purtroppo, a voti medi inferiori corrispondono larghezze (deviazioni standard) delle distribuzioni maggiori (escursioni verso l’alto e verso il basso); a voto medi molto alti corrispondono in genere larghezze minori con ovvia preferenza verso le votazioni inferiori (quella superiore permessa è una sola, ovvero Eccellente). Per questo suggerisco il voto stdrdzzt, nel quale la differenza fra il voto ottenuto e il voto medio del SSD è diviso per la deviazione standard, in quanto tale divisione tende a compensare per l’effetto appena detto. La compensazione in alcuni casi funziona, pur non essendo mai perfetta. In particolare la presenza, nei casi di votazione media di SSD alta, di pochi inattivi introduce asimmetrie nelle distribuzioni, che, influenzando più la deviazione standard e meno il valor medio (la prima dipende dal quadrato delle differenze fra voti e voto medio), rende meno efficace la correzione associata alla divisione per la deviazione standard. Da questo punto di vista sarà molto importante vedere come cambia il voto stdzzt nei dipartimenti quando si eliminino gli inattivi e i parzialmente inattivi; l’ANVUR dovrebbe in un prossimo futuro fornire anche questa informazione. Comunque tieni presente, come ho detto anche in altri interventi, che l’indicatore da me prediletto e suggerito, ovvero la probabilità di avere per un certo dipartimento reale DR un voto stdzzt inferiore nel DVA, è molto più robusta del valore del voto stdzzt stesso rispetto alle variazioni possibili di R nei vari SSD del dipartimento (come illustra il conto presentato a metà della pag 9 del documento presente nel sito ANVUR).
    Spero di aver chiarito il mio pensiero, per altro non profondissimo….
    Scusa ancora per il ritardo nella risposta.
    Giacomo

  9. Cara Bruna,
    ti ringrazio per la cortese risposta, utile anche a me per chiarire alcuni aspetti.
    Inserisco le mie deduzioni a ruota delle tue, riprendendo, dove occorre, il tuo testo:
    Bruna”Cosa mi aspetto dal voto standardizzato?
    Dal VS io mi aspetto semplicemente quello che viene dichiarato nel documento di accompagnamento …..omissis….“il voto standardizzato del singolo membro è un indicatore che rimuove molte delle criticità associate alla variabilità del modus operandi dei GE ”

    Giacomo – GedeoneGP: Spero che si sia notato “molte”; non ho scritto “tutte”.

    Bruna “…. omissis…. “si suggerisce agli Atenei di utilizzare il VS per operare un confronto della qualità della ricerca dei dipartimenti” (pag. 1).”

    Giacomo – GedeoneGP: Come ben sai, perché evidentemente hai avuto la pazienza di leggerlo, nel documento si spiega la efficacia del voto stdzzt per calcolare la ormai ben nota P_inf, ovvero la probabilità di avere voti sdtzzt inferiori nel DVA. Dico questo perché più avnati nella tua replica, sembra il voto stdzzt serva solo a rimuovere l’effetto dimensione (imbuto).

    Bruna. “Leggendo questo documento ufficiale, dove non sono espressi ulteriori limiti della metodologia, io ….omissis….mi aspetto che il voto standardizzato elimini le differenze di giudizio tra i GEV e assicuri una sostanziale uniformità (per media, variabilità e distribuzione) delle valutazioni.”

    Giacomo – GedeoneGP: In effetti il voto sdtzzt assicura “uniformità”, come dici tu, per il valori medi (che diventano tutti uguali a 0) e per le varianze (che diventano tutte uguali a 1). Per le distribuzioni, come ho detto ieri, non potremo mai assistere a travasi fra percentili, per via del tipo di operazione condotta per passare dai voti GEV ai voti stdzzt. In termini forse più chiari: se un GEV ha considerato il 50% dei prodotti al “top”, non c’è trasformazione, consistente (come quella che standardizza) in una traslazione e in un fattore di scala, che rimuova questo 50% dal “top”. Tu mi dici che un lettore potrebbe aver pensato che fra le tante caratteristiche del voto stadzzt ci potesse essere anche questa. Evidentemente, se è successo a te, è così. Io, francamente, non l’avevo neppure messo in conto. E tu sai (immagino che siamo colleghi ed entrambi insegniamo – per inciso per questo mi permetto un disinvolto “tu”) che cercare le obiezioni possibili a un ragionamento è impresa difficile e rischia di ingenerare confusione ulteriore in chi legge. Meglio, molto meglio, è esporsi alle obiezioni che sorgono dagli ascoltatori. Quelle e solo quelle saranno obiezioni alle quali rispondere. Per questo rispondo a voi che me le fate. Sempre per questo motivo, ovvero in ossequio alla necessità, che condivido, di sottoporsi alla discussione, da quando mi è venuta in mente questa idea del DVA e del DR, ho organizzato alcune riunioni in Ateneo (in particolare con la Commissione Ricerca di UniFi) per illustrare i concetti e un poco anche le tecniche. Se hai amici a UniFi, puoi chiedere. Devo dire che questi incontri sono stati di appoggio incondizionato alla idea e al metodo (tu potrai anche sorridere, ma è stato così); tutto ciò mi ha incoraggiato a continuare a parlarne nel Gruppo CRUI, dove pure ho avuto riscontri positivi. Nota, per altro, che in questa fase, essendo molti i SSD coperti da riservatezza, era possibile solo stimare per pochi casi gli effetti che sarebbero emersi dall’applicazione dell’indicatore e quindi abbiamo ragionato sempre sui principi alla base del metodo, senza condizionamenti da parte degli esiti. Le obiezioni che tu formuli, onestamente, non mi sono mai pervenute (altre sì, per carità). Qui si paga (pago?) forse anche il fatto che nel documento, comunque già pesantuccio, ho evitato di entrare troppo nel tecnico, cercando di insistere, almeno nella prima parte, sugli aspetti concettuali e le premesse (identificazione di un DVA per ogni dipartimento reale DR, in modo da assegnare ad ogni dipartimento un proprio termine di confronto che tuttora mi pare equo e naturale).

    Bruna: “Le “aspettative” non sono “convincimenti personali”, ma l’effetto delle dichiarazioni che accompagnano il VS.
    Non trovo scritto che il voto standardizzato non ha altre ambizioni che quella di correggere l’effetto imbuto. Non trovo esplicitati i limiti non superati dal voto standardizzato.”
    Giacomo – Gedeone Gp; Evidentemente ho trasmesso un messaggio, almeno parzialmente, fuorviante: speravo che si capisse che l’idea “non male” (a questo punto opto sistematicamente per l’understatement) fosse quella del DVA e che il voto stdzzt avesse il grande vantaggio di metterla in pratica in maniera matematicamente semplice (e quindi trasparente). La correzione dell’effetto dimensione (aka imbuto) è uno dei vantaggi del metodo del voto stdzzt; ci ho insistito e ci continuerò a insistere perché dopo momenti di gloria (secondo me giustificati) sul vostro sito (per altro uno dei commenti più divertenti del sempre arguto De Nicolao) l’effetto imbuto sembra ora essere stato rimosso dal novero dei problemi e addirittura pare quasi che se ne provi una certa nostalgia, massime quando ci si accorge che il voto stdzzt lo cura (vedi fisici e medici bresciani).

    Bruna: “Per questo, trovo abbastanza azzardato il suggerimento di utilizzare il voto standardizzato per distribuire le risorse come se il VS eliminasse “tutte” le differenze nelle valutazioni dei GEV. E per questo ho cercato di evidenziare gli effetti dell’utilizzo del VS.”

    Giacomo – Gedeone GP: Già ti ho fatto notare che non ho mai scritto “tutte”; ho scritto “molte”. Trovo assolutamente proprio e corretto cercare se esistono possibili effetti distorsivi associati ad una applicazione del voto stdzzt; è quello che occorrerebbe fare con qualunque indicatore. Però più importante ancora sarebbe comprendere il metodo e la sua ratio, prima dei risultati; anzi prima di vedere i risultati. E questo è quello, come ho detto, che ho fatto quando, a UniFi, abbiamo cominciato a ragionare su questo tema. Poi, i risultati daranno quello che daranno. Ad esempio, a Fisica e Astronomia a UniFi è andata maluccio con il voto stdzzt, decisamente peggio di quello che sarebbe accaduto se avessimo adoperato l’indicatore IRFD dell’ANVUR. Ma a me non interessa: una volta che sono convinto della idea e soprattutto dopo essa riceve supporto dagli altri che l’hanno ascoltata in tempi non sospetti (cioè prima della applicazione) e l’hanno approvata. Credo che tu sappia benissimo che sarà sempre possibile trovare situazioni più o meno realistiche in cui anche il migliore degli indicatori fallisce; bisognerebbe in questo casi compiere anche un altro esercizio, ovvero confrontare l’esito dell’indicatore messo sotto attenzione con le alternative e capire qual è più discutibile come risultato e quale meno (sempre che esista un modo evidente per valutare la fondatezza e la ragionevolezza di un risultato).

    Bruna: “L’approccio – e mi scuso se mi ripeto – è quello di valutare l’impatto dell’applicazione di questa misura – date le premesse e promesse del documento – e non di contestarne il rigore metodologico.”

    Giacomo – Gedeone GP: Qui, scusa, tendo proprio a dissociarmi, sempre che abbia compreso il tuo argomento. A livello di risultati entrano troppo in gioco dei meccanismi spuri: coloro che sono avvantaggiati rispetto alla applicazione di un altro metodo stanno zitti se hanno buon gusto e potrebbero sostenere il metodo per tornaconto; gli svantaggiati, è plausibile, esprimono critiche. Per questo, come detto sopra, il consenso va ricercato sui concetti, prima dell’applicazione, sulla base di criteri esterni ai risultati. Questo è il metodo che a UniFi abbiamo adottato per sviluppare e condividere i modelli di distribuzione delle risorse, che abbiamo adottato da anni: prima individuare criteri nei quali la maggior parte degli interessati possono riconoscersi, e solo dopo applicarli. Gli esiti, casomai, serviranno per correggere il tiro nel prossimo modello.

    Bruna: “Perché i percentili della distribuzione dei prodotti dovrebbero corrispondere ai percentili delle distribuzioni di riviste?
    ….omissis….Dunque i percentili erano proprio l’indicazione di metodo per la classificazione dei prodotti (non per le riviste). Non mi sembra, pertanto, di aver operato una scandalosa forzatura nell’applicare i famosi percentili al VS.”
    Giacomo – Gedeone GP: Ovviamente, nessuna scandalosa forzatura. La tua mi pare però una petizione di principio, anci una pia idea espressa dall’ANVUR che nei fatti è smentita quasi sistematicamente dalle votazioni ANVUR (la tabella 6.2 che dicevo). Le distribuzioni delle votazioni non rispettano mai (o quasi mai) le distribuzioni presunte. Questo è il punto. Lo ripeto: il voto stdzzt non ha l’ambizione (anzi direi: la presunzione) di correggere i voti dati dai GEV e i loro percentili di E, B, A, NV…. Quelle sono le valutazioni che sono state definite e non farei mai alcuna correzione (in fase di applicazione) che le distorca, che le corregga, che travasi giudizi. Personalmente ho rispetto totale dell’operato dei GEV, anche se posso pensare che in qualche caso sarebbe stato opportuno agire diversamente. Modificare il percentile all’interno delle valutazioni dei GEV sarebbe operazione secondo me profondamente scorretta. Ora abbiamo quelle valutazioni e quelle dobbiamo adoperare al meglio. Il Voto stdzzt non altera appunto la classificazione fra i prodotti messi al top o al bottom o in mezzo: preserva la scala di valori e aggira il problema associato alla loro variabilità GEV per GEV spostando l’attenzione e la valutazione dal voto così come espresso dai GEV, proprio all’ordinamento implicitamente effettuato dagli stessi GEV in termini di percentili.

    Bruna: “Piuttosto c’è da interrogarsi sul significato di questi percentili. Se i GEV avessero operato in coerenza con questa indicazione dovremmo aspettarci delle distribuzioni in cui si rappresenta la collocazione dell’area rispetto al panorama internazionale: se i voti pari a 1 sono meno del 20%, ci aspettiamo un’area o SSD che si considera un po’ al di sotto del panorama internazionale, più sbilanciata su prodotti di qualità media o medio bassa.
    Forse, prima di standardizzare e stravolgere il significato del voto attribuito, si dovrebbe riflettere e analizzare i giudizi così come sono stati espressi.”

    Giacomo – Gedeone GP: Spero, arrivato a questo punto, di averti convinto che il voto stdzzt non stravolge affatto i giudizi che sono stati espressi. Al contrario rispetta totalmente le scale (in termini di percentili all’interno dei SSD) alle quali i GEV sono approdati. Diverso e opportuno — e allora sono totalmente d’accordo con te– sarebbe cercare di capire perché è successo quello che è successo, cioè perché le frazioni di voto E (e degli altri voti) siano talvolta molto superiori al 20% (o a quanto previsto per gli altri voti) e talvolta inferiori. Questo diventa però un problema pro-futuro, per preparare il prossimo eventuale esercizio. Di questo dovremo chiedere all’ANVUR di farsi carico. Si tratta però di qualcosa di molto diverso da quello che stiamo ora dibattendo. E’ oltretutto qualcosa di ancor più complicato, perché francamente non vedo una sola ragione che mi faccia escludere a priori che in un SSD o in una Area si possano davvero concentrare membri con capacità di ricerca superiori a quelli di altre (se confrontati come si dovrebbe con una platea internazionale).

    Bruna: “Infine, mi consento …..omissis….una nota un po’ polemica…omissis… il metodo dei percentili è considerato metodo sufficientemente generale nella valutazione “relativa” di una votazione espressa con differenti parametri di giudizio. Possiamo discutere su quale “nome” attribuire a ciascun percentile e quale percentile considerare, ma non contestare a priori l’utilizzo di percentili per confrontare gli effetti dell’utilizzo del VS”
    Giacomo – Gedeone GP: Non colgo la polemica. O meglio ne capisco il senso, ma non mi sento di raccogliere la provocazione (per altro piccola e garbata). Personalmente continuo a ritenere il criterio dei percentili assolutamente ragionevole, al punto che avevo sperato che si fosse capito quanto mi sono sbattezzato per riuscire ad applicarlo ai Dipartimenti mediante il confronto fra DR e DVA (che da queste discussioni emerge non essere proprio banale). Nel mio intervento precedente contestavo (e spero di averlo chiarito ulteriormente con questo intervento) la presunta volontà di cambiare le classificazioni di percentili delle valutazioni dei GEV. Ricordavo e lo ricordo ancora, che il voto stdzzt non altera queste distribuzioni che sono solo responsabilità unica dei GEV. Il confronto fra DR e DVA le recepisce, senza bisogno di forzarne alcuna variazione.

    Bruna: “….omissis….Il mio suggerimento è quello di essere cauti nell’indicare soluzioni, perché una volta applicate tali “soluzioni” hanno degli effetti che potrebbero essere irreversibili, anche se perversi.”
    Giacomo – Gedeone GP: Nell’ultima frase forse volevi dire “se non perversi”? Per il resto, penso di averti già risposto, ma nel dubbio, ripeto brevemente. Tutte le volte che si vogliono adottare criteri per erogare risorse in modo trasparente e idealmente razionale, occorre assolutamente, prima di applicare il modello e poi tirare come un elastico pesi e argomenti, identificare indicatori e pesi, magari chiedendo il contributo di tutti, in modo che tutti si riconoscano almeno nei criteri – meglio se anche nei pesi. Solo a quel punto si può procedere applicando il modello o l’indicatore. Operare a posteriori non funziona mai. Spero che su questo punto non si possa non essere d’accordo. Se poi il risultato non funziona, trarremo importanti considerazioni per suggerire aggiustamenti nel prossimo intervento. Esattamente con questo spirito ci siamo mossi a UniFi quando mi è venuta in mente l’idea del DVA e degli algoritmi connessi. Con lo stesso spirito ne abbiamo parlato nell’ambito del Gruppo di Ricerca CRUI; con lo stesso spirito, avevo capito, i vari membri del gruppo CRUI ne avrebbero parlato presso i loro Atenei. A conferma che questo accadesse, sono stato peraltro confortato da richieste di informazioni sul DVA che mi sono pervenute, questo autunno, da colleghi, a me fino ad allora ignoti, di atenei neppure rappresentati nel gruppo CRUI, ma nei quali già si discuteva del metodo. Infine ricordo che comunque ogni Ateneo è libero (come lo era prima, perché l’ANVUR non dava certo prescrizioni a riguardo) di adottare i metodi che ritiene più adatti per erogare risorse seguendo, se vuole, i risultati dell’esercizio VQR.
    Ultimissima nota, con la quale, forse ingenuamente, ho cercato di concludere queste mie incursioni sul vostro sito: perché non decidiamo di parlarne a n-occhi, con calma? Sono sempre più convinto che, pur non condividendo tutti tutto, molti sarebbero i punti che ci vedrebbero d’accordo. Se poi non lo fossero, ne prenderemmo atto e sicuramente non sarebbe una tragedia, penso per nessuno. Però questa discussione con ritardi non indifferenti fra stimolo e replica, condotta con metodi ai quali non sono aduso, con sempre in agguato il rischio di una frase infelice che diventa luogo di contendere e divisione, mi mette a disagio e complica l’interlocuzione, in modo per me difficilmente gestibile.
    E così mi sono fatto fuori un altro paio di ore abbondanti! Ma se fossero servite a capirci meglio, sarebbero state spese bene.
    Tuo
    Giacomo

  10. Caro Giacomo,
    nel ringraziarti per aver trovato il tempo per una risposta al mio quesito, replico quanto segue: In qualche modo ‘temevo’ di sentirmi dire: ‘Il voto medio I soffre della debolezza di essere molto differente fra Area e Area e SSD e SSD’.
    A mio avviso questo è un NON-problema.
    Il voto I è l’unica(!) osservazione sperimentale dell’esercizio ANVUR e pertanto va preso come assunto. Non possiamo discuterlo. Se Chimica ottiene 0.79 ed Economia 0.32, significa semplicemente che la Chimica Italiana è migliore delle scienze Economiche Italiane. Non possiamo entrare nel merito della maggiore o minore severità dei GEV a meno di non volerne discutere la buona fede. Sarebbe come dire che non crediamo al risultato dell’esperimento. Se questo è stato fatto bene CI SI DEVE credere. D’altra parte, (molto)diverse performances delle varie Aree sono indicate dal grafico postato più sopra.
    Se è, come è, molto differente fra area ed area ed anche fra SSD e SSD è semplicemente perchè le suddette Aree e SSD performano in modo molto differente.
    Ricordo, per la cronaca, che le ‘mediane’ che hanno poi determinato il fattore I, sono state costruite sulla base di dati ‘mondiali’ e pertanto contenenti, a priori, i dati italiani. In pratica, utilizzando R nella formula per costruire il VS, si inserisce DUE volte la stessa variabile nel medesimo calcolo. E si distorcono i dati…
    In ultimo: trovo più che legittimo utilizzare la R da parte di ANVUR che vuole sapere se la Chimica di Roma performa meglio o peggio della media nazionale. Non lo trovo tanto legittimo a livello di Ateneo dove questo deve distribuire risorse fra Dipartimenti vari che performano variamente e vorremmo sapere chi contribuisce di più e la media nazionale non ha rilevanza. Tutt’al più la media (di I) di Ateneo…
    Anzi, forse ciò che dovremmo normalizzare sono le medie di Area (farne una media) e rapportare le I medie del Dipartimento alla media delle Aree Nazionali (tutte e 14).
    Che ne pensi?

  11. Caro Marco,
    penso solo che quanto dichiarato dall’ANVUR stessa nella premessa del suo Rapporto finale Parte prima, impedisca di procedere come tu suggerisici.
    Cito letteralmente:
    “Tra le finalità della VQR non compare il confronto della qualità della ricerca tra aree scientifiche diverse. Lo sconsigliano i parametri di giudizio e le metodologie diverse di valutazione delle comunità scientifiche all’interno di ciascuna area (ad esempio l’uso prevalente della bibliometria in alcune Aree e della peer review in altre), che dipendono da fattori quali la diffusione e i riferimenti prevalentemente nazionali o internazionali delle discipline, le diverse culture della valutazione, in particolare la diversa percezione delle caratteristiche che rendono “eccellente” o “limitato” un lavoro scientifico nelle varie aree del sapere e, infine, la variabilità tra le Aree della tendenza, anche involontaria, a indulgere a valutazioni più elevate per migliorare la posizione della propria disciplina.

    Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.

    Questo stesso caveat riguarda in qualche caso il confronto tra settori scientifico-disciplinari (SSD) interni a un’Area. Mentre in alcuni casi è possibile confrontare la qualità della ricerca tra SSD della stessa Area, in altri casi (evidenziati nei singoli rapporti di Area) tale confronto non è possibile né opportuno. Le graduatorie di Area e di sottoinsiemi più omogenei all’interno di un’Area, quali sub-GEV o SSD, sono finalizzate al confronto nazionale di natura verticale al loro interno.”

    Sinceramente anche il tuo ultimo suggerimento mi trova perplesso, per gli stessi motivi detti sopra.
    Ovviamente un Ateneo sarà libero di tenere conto di I come meglio crede, per esempio riservando a questa valutazione un certo peso. Ma un applicazione esclusiva del criterio, secondo me non è proprio utilizzabile.
    Tuo
    Giacomo

  12. Caro Giacomo,
    sono quasi giunta alla conclusione che il problema principale di questo interessante dibattito è nei presupposti “ideologici” ai quali rispettivamente facciamo riferimento.
    .
    Lo capisco dalla tua risposta (mi consento anche io un disinvolto “tu), in cui sottolinei che “il voto stdzzt non stravolge affatto i giudizi che sono stati espressi. Al contrario rispetta totalmente le scale (in termini di percentili all’interno dei SSD) alle quali i GEV sono approdati”, ma che “ora abbiamo quelle valutazioni e quelle dobbiamo adoperare al meglio”, “se poi il risultato non funziona, trarremo importanti considerazioni per suggerire aggiustamenti nel prossimo intervento”.
    .
    Sintetizzerei (correggimi se sbaglio) dicendo che dobbiamo per forza utilizzare i dati VQR per distribuire le risorse, quindi il meglio che possiamo fare è cercare di migliorarne “alcuni” difetti, applicare le valutazioni parzialmente corrette e poi vedere l’effetto che fa.
    .
    Ecco, io non sono per niente d’accordo.
    Se abbiamo una misura che ha degli evidenti limiti, possiamo cercare di migliorarla, ma se otteniamo una misura che conserva ancora molti dei limiti originari NON dobbiamo applicarla, se il beneficio derivante dalla distribuzione premiale delle risorse (posto che esista) è inferiore ai costi in termini di errata distribuzione.
    In questo mi aiuta anche la tua risposta a Marco Diana che riporta la premessa del rapporto ANVUR:
    .
    “Tra le finalità della VQR non compare il confronto della qualità della ricerca tra aree scientifiche diverse (ndr ovvero la distribuzione di risorse tra aree). Lo sconsigliano i parametri di giudizio e le metodologie diverse di valutazione delle comunità scientifiche all’interno di ciascuna area …. Pertanto, le tabelle … non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.
    Questo stesso caveat riguarda in qualche caso il confronto tra settori scientifico-disciplinari (SSD) interni a un’Area. … Le graduatorie di Area e di sottoinsiemi più omogenei all’interno di un’Area, quali sub-GEV o SSD, sono finalizzate al confronto nazionale di natura verticale al loro interno.”
    .
    Dunque, delle due l’una:
    – o il VS elimina tutte le differenze valutative tra GEV e può essere utilizzato per la distribuzione delle risorse
    – o ne elimina solo qualcuna (la più importante, la meno importante?) e in tal caso le premesse dell’ANVUR restano valide e non può (in questo stadio) essere utilizzato per la distribuzione delle risorse.

    Questo, a mio modesto avviso, dovrebbe essere espresso chiaramente nel documento, riportando casomai le premesse dell’ANVUR e eliminando ogni riferimento alla possibile distribuzione di risorse, ma proponendosi semplicemente come un documento di studio e di approfondimento, utile per ottenere indicazioni per i prossimi esercizi VQR.

  13. Caro Giacomo,
    nel ringraziarti per i chiarimenti mi permetto di dissentire: ciò che io contesto nel tuo metodo è l’utilizzo di R in quanto rapporto fra I/medie di area (che sono tutte enormemente diverse fra di loro). Se si insiste ad utilizzare la R, perchè non la otteniamo da una media di tutte le aree? (facciamo una media delle medie/Area e dividiamo I per questo valore)
    Personalmente mi rifiuto di credere che un lavoro ‘eccellente’ di Area Fisica sia ‘peggiore’ di un lavoro accettabile di Area Medica. Se così fosse l’esercizio ANVUR sarebbe stato un utile approfondimento (come dice Bruna Bruno) ma niente di più e sicuramente non si può utilizzare per distribuire risorse, almeno per ora…
    Ma se il nostro obiettivo è distribuire risorse in modo meritocratico è evidente che dobbiamo ‘inventarci’ un qualcosa che vada bene per tutti.
    Sarei proprio curioso di vedere il risultato della tua filosofia sostituendo la R con I/media delle medie di area.
    Grazie ancora del tuo tempo

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.