VQR

L’audace standardizzazione CRUI dei voti VQR: se la conosci, la eviti

 «CRUI, we have a problem»: è stata l’ANVUR a lanciare una richiesta di soccorso alla CRUI  per salvare la missione VQR o l’offerta di aiuto è stata spontanea? Comunque sia andata, se gli astronauti dell’Apollo 13 si erano salvati rifugiandosi nel modulo lunare, la ricetta per salvare la VQR è abbandonare le standardizzazioni per area e rifugiarsi in quelle per settore scientifico. Ma dopo appena una settimana, le riparazioni traballano e compare una nuova standardizzazione, sotto il nome di “indice IPR”. Ma che film sta andando in onda? “Salvate il soldato ANVUR” o “l’audace standardizzazione dei soliti noti”? Lasciamo la parola ai nostri colleghi Peppe & Gedeone che ne discutono animatamente.

1. Fuori orario: cose (mai) viste

– Buon compleanno, Gedeone!

La voce squillante di Peppe colse di sorpresa Gedeone che stava scorrendo sul monitor la lista dei messaggi in entrata. Era sua abitudine lasciare aperta la porta dello studio e Peppe era già il terzo collega che passava a fargli gli auguri.

– Ah, grazie! Non che ci sia molto da festeggiare alla mia età … ma, aspetta, cosa tieni dietro la schiena?

– Solo un piccolo presente. Ecco, tieni – disse, allungandogli un pacchettino confezionato con la carta da regalo di una nota catena di librerie.

Gedeone aveva pensato fosse un libro, ma non appena l’ebbe in mano si rese conto che era troppo leggero:

– Scommetto che sono dei DVD. Non dirmi che mi hai regalato la collezione dei film sperimentali di Werner Herzog? – e intanto faceva il gesto scherzoso di buttare il pacchetto nel cestino della carta straccia – ti ricordi di quella volta che mi hai portato a vedere “Cuore di vetro” in quel Cineforum scalcinato …

I due erano stati compagni di studi e già all’epoca Peppe era un cinefilo che faceva le ore piccole per vedere “Fuori Orario” su Rai 3 e trascinava gli amici a vedere improbabili rassegne di film d’essai. A mo’ di ritorsione, gli amici gli avevano affibbiato il nomignolo di “Potëmkin”, in ricordo del film muto di Ėjzenštejn che Ugo Fantozzi aveva memorabilmente definito “una ca..ta pazzesca“. Gedeone proseguì implacabile:

– … mi ricordo come fosse oggi che, dopo “Cuore di vetro”, il nostro amico Tazio ti ha preso in giro per mesi con battute irripetibili.

Peppe avrebbe voluto stare al gioco, ma non riuscì a fare a meno di difendere l’amato Herzog:

– Puoi pensare quello che vuoi e lo so che può sembrare assurdo un film girato con gli attori in stato di ipnosi, ma io ritengo ancor oggi che “Cuore di vetro” sia un capolavoro. Se solo ripenso alla grandiosità della scena finale sulle scogliere delle isole Skellig, mi viene la pelle d’oca. E anche “Dove sognano le formiche verdi” è un gran bel film. Ma stai tranquillo, ho rinunciato da tempo a distribuire le perle ai porci …

Mentre spacchettava, Gedeone se la rideva sotto i baffi. Gli piaceva stuzzicare il lato ombroso dell’amico.

2. Tazio, il “mantovano volante”

Dalla carta strappata, si vedeva ora che il regalo era un box con i DVD di alcuni dei più famosi film di Monicelli: l’Armata Brancaleone, Brancaleone alle crociate, la Grande Guerra, I soliti ignoti, Amici miei…

– Ma grazie! Che bel pensiero! Questi me li rivedo sempre volentieri.

– Beh, sapevo che stavo andando sul sicuro. Ma, a proposito di Tazio, è un sacco di anni che non lo sento. E pensare che eravamo un trio veramente inseparabile. Portava quel nome strano perché suo padre, originario di Mantova, era un grande ammiratore di Tazio Nuvolari, l’asso del volante. Dal pilota aveva anche ereditato il nomignolo di “mantovano volante”, riferito però alla velocità nel superare tutti gli esami nella sessione canonica, senza lasciarne uno indietro.

– Ti farà piacere sapere che Tazio mi è venuto in mente perché mi ha telefonato l’altro ieri. Ci siamo divertiti a prendere in giro tutte le tue manie, proprio come ai vecchi tempi.

– E adesso cosa fa il nostro Tazio? – interruppe Peppe, mascherando un filo di disappunto.

– È professore ordinario di Fisica a Brescia. Hanno messo insieme un gruppo di ricerca veramente valido, sai? Nella classifica VQR dell’area di Fisica, Brescia è addirittura al terzo posto nazionale.

Non c’era niente da fare. Nonostante tutti gli sforzi profusi da Peppe per dimostrare che le valutazioni VQR soffrivano di ogni possibile distorsione, Gedeone continuava a trattarle come fossero un oracolo. “Con tutti gli errori e le imperfezioni, che nessuno nega, un fondo di verità ci deve pur essere” era il suo refrain.

– Gli ho anche promesso che ti avrei parlato – proseguì Gedeone – perché mi ha posto una questione sulla valutazione a cui non ho saputo rispondere.

– Ancora VQR? Non se ne può più … – commentò Peppe in tono nauseato.

– Tazio ha avuto delle discussioni con i suoi colleghi di Medicina i quali, in sede di distribuzione delle risorse, non volevano ammettere la maggiore eccellenza dei fisici. Guarda un po’ questa tabella, che Tazio ha costruito con i dati del Rapporto finale VQR.

– Sai cosa hanno tirato fuori i medici? – proseguì Gedeone – Hanno detto che, pur avendo un voto medio inferiore – solo 0,64 contro 0,93 dei fisici – il loro indice R era migliore di quello dei fisici: 1,37 contro 1,20. Tazio, che non è fesso, ha subito replicato che, se si usa l’indice R, risultano penalizzate quelle aree i cui voti sono mediamente alti e poco variabili, come quelle dei fisici e dei chimici.

I fisici, per fare un esempio, hanno un voto medio nazionale intorno a 0,8. Immaginiamo un ateneo che metta in campo un “dream team” di premi Nobel per la Fisica: al massimo potrebbero fare l’en plein, ovvero ottenere un voto medio pari a 1, vale a dire un indice R = 1/0,8=1,25. Con tutta la stima che posso avere per i colleghi medici di Brescia ed il loro indice R = 1,37, è giusto ritenerli più eccellenti di un dream-team di premi Nobel in Fisica? Tanto più che i colleghi bresciani di medicina, secondo la VQR, sono solo tredicesimi in Italia su 49 sedi, mentre i fisici di Brescia sono terzi in Italia su 50 sedi.

Tazio non ha torto a protestare. Che le comparazioni tra aree e persino tra SSD basate sull’indice R siano sballate l’hanno capito tutti …

– … beh, non proprio tutti – lo interruppe Peppe – Non hai visto che l’ANVUR vuole usare l’indice R normalizzato per SSD nelle valutazioni bibliometriche per l’accreditamento dei dottorati?

– Sì, è vero, ma sono proprio gli unici a non esserci ancora arrivati. Se leggi il documento sul “Voto standardizzato”, quello messo a punto dalla Commissione ricerca della CRUI, è spiegato molto chiaramente che ci vuole una normalizzazione che tenga conto anche della varianza dei voti. Per confrontare gli SSD ed anche le aree, la soluzione c’è. È quella della CRUI!

3. «CRUI, we have a problem …»

Gedeone proseguì, quasi infervorato:

– L’altro giorno hanno ritrasmesso “Apollo 13” di Ron Howard. Ti ricordi il momento clou del film? «Huston, we have a problem!» dice Tom Hanks al centro di controllo. Ecco, mi è venuta in mente l’ANVUR con la missione VQR, data ormai per spacciata, alla deriva nello spazio. È un po’ come se Sergio  Benedetto avesse lanciato un SOS: “CRUI, we have a problem!“. Ed ecco che la Commissione ricerca della CRUI si è mobilitata ed ha riportato a terra la navicella VQR!

– Ma scusami, Gedeone, non ti ricordi che una decina di giorni fa ti avevo mostrato che il “voto normalizzato” CRUI si basava su ipotesi statistiche smentite dai dati?

– Sarà pura coincidenza, Peppe, ma su Roars, De Nicolao ha riportato i tuoi stessi argomenti e Giacomo Poggi, della Commissione ricerca della CRUI, gli ha risposto per le rime. Sai cosa gli ha scritto? Aspetta un attimo che cerco il commento, … eccolo!

Non c’è nessun modello probabilistico sotto. C’è solo la scelta di un indicatore ragionevole, crescente con i voti e standardizzato all’interno del SSD

Peppe non potè fare a meno di interrompere:

– Scusami ancora, Gedeone, non puoi calcolare delle probabilità e allo stesso tempo negare di aver formulato un modello probabilistico. Quello della CRUI è un modello probabilistico e neppure dei migliori. De Nicolao ha persino mostrato che è facile proporre un modello probabilistico che spieghi un po’ più decentemente la variabilità dei voti VQR. C’è una figura nelle risposte di De Nicolao. Cercala, per favore … eccola! Non vedi che il modello “Pozza di Fassa 2013” è decisamente più accurato modello CRUI?

E chissenefrega! – esclamò Gedeone.

– E io, invece, me ne frego! – urlò Peppe. Se il tuo modello non si adatta alla distribuzione dei voti VQR, finirai per distorcere ulteriormente i dati. Non c’è nulla di oggettivo in un voto standardizzato basato su un modello probabilistico smentito dai dati!

– È inutile che urli. Non mi convinci. Devi rassegnarti: per me quella della CRUI è una standardizzazione

SCIEN – T I – FI – CA!

Lo disse proprio così, scandendo le sillabe ad una ad una, mentre Peppe sbuffava, visibilmente irritato.

4. «Impossibile, ci deve essere un errore!»

Gedeone, non contento della provocazione, rilanciò:

– Adesso, datti una calmata e aiutami a fare un conto. Tazio vorrebbe usare la normalizzazione CRUI per risolvere la disputa con i suoi colleghi di medicina. Però, non si orienta in mezzo a questa Babele di numeri e numerini e mi ha telefonato per chiedermi aiuto. Io ho capito che la normalizzazione CRUI, così come viene usata per confrontare diversi SSD, deve poter essere usata anche nel confronto tra le aree, ma mi sono perso nei fogli Excel …

– … ma se era così SCIEN – T I – FI – CA, come mai non l’hai capita? – Gli fece il verso Peppe, che intanto aveva incrociato le braccia.

– Non fare battute stupide e dammi una mano … dai … dopo tutto è il mio compleanno – sorrise Gedeone assumendo un’espressione quasi supplichevole per lanciare poi all’improvviso la stoccata finale – per me non lo vuoi fare perché hai paura di verificare con mano che la normalizzazione CRUI dà risultati del tutto sensati, checché ne dica De Nicolao ….

– Tu vuoi approfittare della mia consulenza, per fare bella figura con Tazio, proprio come quando eravamo studenti. Io ti spiegavo come risolvere i problemi più difficili di statistica e poi tu fingevi di saperla lunga con Tazio e anche con quella biondina di ingegneria gestionale a cui facevi il filo. Non cambierai mai … vabbè sono sempre stato troppo buono, se proprio vuoi la soluzione, eccotela qui.

Peppe prese un foglio dalla stampante e di getto scrisse la seguente formula.

– Ora, dobbiamo procurarci i dati. Vai sul sito dell’ANVUR ed apri il link della collaborazione CRUI-ANVUR. Ecco, scarica questo file Excel e qui dentro trovi quasi tutto quello che serve. Puoi aggiungere i dati alla tabellina Excel che ti aveva mandato Tazio. Il numero di soggetti valutati lo recuperiamo nei rapporti finali del GEV 2 e del GEV 6.  Un ultimo sforzo: ricopia in Excel la formula che ho scritto ed ecco il risultato

– Ma ci deve essere un errore! – Esclamò subito Gedeone – Non è possibile che i medici di Brescia ottengano un voto standardizzato pari a 4,48, ben più di tre volte maggiore del voto standardizzato dei fisici che è 1,29. Sei sicuro che non abbiamo sbagliato qualcosa?

Peppe, che fino ad un secondo prima dava istruzioni con fare annoiato mentre scorreva i post di facebook sul suo smartphone, era diventato improvvisamente attento. Con la massima concentrazione ricontrollò la formula ed ogni singola cifra nel foglio Excel. Col trascorrere dei minuti, il suo umore sembrava migliorare a vista d’occhio. Ad un certo punto, intimò a Gedeone di cedergli la sedia e la tastiera e continuò ad armeggiare da solo con numeri, tabelle e grafici. Gedeone, in piedi dietro di lui, faticava a capire dove volesse andare a parare.

– Ecco qui la spiegazione! – esclamò soddisfatto Peppe.

5. L’audace standardizzazione dei soliti noti

– Scusami, Peppe, ma io ci capisco poco o niente.

– Beh, non sei il solo in Italia – commentò sarcastico Peppe

Gedeone incassò in silenzio.

– Con questa figura dovrei riuscire a spiegarti il succo del problema – riprese Peppe – A sinistra, nel cartiglio verde, è disegnata la distribuzione dei voti VQR nell’area 2, in alto, e nell’area 6, in basso. Si vede bene che i fisici di Brescia, oltre ad essere terzi in Italia, ottengono un punteggio molto vicino al quello massimo. I medici di Brescia, pur cavandosela bene, sono preceduti da diverse sedi ed hanno un voto sensibilmente minore del voto massimo italiano. Pur essendo vero che i voti di fisica tendono ad essere più alti di quelli di medicina, è difficile immaginare una ragione sensata perché i  fisici bresciani debbano essere valutati peggiori dei loro colleghi medici.

Eppure, la standardizzazione CRUI riesce a sancire proprio questa retrocessione impossibile, come puoi vedere nel cartiglio rosso a destra. Non solo, i fisici bresciani vengono retrocessi dietro i medici, ma i medici ottengono un punteggio pari a 4,48, più di tre volte maggiore di quello dei fisici che è 1,29. Una vera enormità!

Ma come è possibile? È inaccettabile! – esclamò Gedeone, che fino a quel giorno era sempre stato tollerante nei confronti delle imprecisioni ed anche dei “piccoli paradossi” che costellavano la “valutazione all’italiana”. Adesso, però, sembrava veramente sull’orlo di una crisi di nervi, un po’ come se avesse scoperto che l’uomo non era mai sbarcato sulla luna e che il “piccolo passo” di Amstrong era una messinscena girata in uno studio televisivo.

– È possibile perché il modello probabilistico della CRUI, oltre a non adattarsi ai voti VQR, li distorce in modo diverso a seconda dell’area considerata. La distribuzione gaussiana, quella curva a campana che vedi disegnata in rosso, è decisiva nell’attribuzione del voto normalizzato. Ma mentre ha una qualche vaga rassomiglianza con la distribuzione dei voti degli atenei nell’area fisica, la curva gaussiana è molto più stretta della distribuzione dei voti nell’area medica. Adesso, ti saranno forse più chiare le conseguenze perverse dell’adozione di un modello probabilistico smentito dai dati, come quello del Dipartimento Virtuale Associato proposto dalla CRUI.

Adesso riesco anche a capire perché il documento CRUI originale è stato precipitosamente modificato, introducendo il nuovo indicatore IPR che impedisce i voti troppo bassi e troppo alti. Qualcuno deve aver segnalato le conseguenze paradossali del voto standardizzato CRUI e, per non perdere completamente la faccia, è stata messa una pezza, appiattendo i voti estremi. Nel caso di Brescia, se si usa l’indicatore IPR – e intanto lo calcolò al volo consultando su internet la tabella della gaussiana – permane la paradossale retrocessione dei fisici ma la differenza nei voti risulta meno clamorosa:

  • Fisici: IPR = 0,901
  • Medici: IPR = 0,999

Gedeone non sapeva se essere più avvilito o più inviperito con i valutatori fai-da-te che gli avevano fatto rimediare un’altra figuraccia. Sconsolato, sbottò

– E adesso che dico a Tazio? Gli avevo assicurato che con la standardizzazione CRUI avrebbe messo in riga i medici …

– E che vuoi dirgli? Di emigrare in un paese dove la valutazione della ricerca non è una branca dell’illusionismo. Mio caro Gedeone, credo che il film giusto per questa vicenda non sia Apollo 13, ma uno di quelli che ti ho appena regalato …

– … l’armata Brancaleone?

– No, sto pensando alla simpatica e sgangherata “banda del buco” dei “Soliti ignoti“.  Ti ricordi com’è che diceva “Er Pantera”?

… tutto sc-sc-sc-scientifico!

Send to Kindle
Tag: , , , , , , , , , ,

24 Comments

  1. Pingback: L’audace standardizzazione CRUI dei voti VQR: se la conosci, la eviti | News Novità Notizie Trita Web

  2. Antonio Occhiuzzi says:

    Questa faccenda dei “voti” per i dipartimenti sta diventando grottesca. Forse occorrerebbe ricordare che la VQR 2004-2010 prevedeva espressamente un indicatore “globale” per i dipartimenti, chiamato IRFD, strutturato in modo da poter essere calcolato anche per dipartimenti popolati da personale di SSD e di aree differenti. Che l’indicatore IRFD fosse strutturato bene o male è un altro paio di maniche, ma per esistere, esisteva, sin dalla prima versione in bozza del bando VQR.

    I valori di tale indicatore sono contenuti nei rapporti dedicati dalla VQR a ciascun ateneo. Non sono piaciuti (a chi?). Non sono applicabili. “Fanno strame” delle aree umanistiche, sostiene Giacomo Poggi, team leader del gruppo CRUI che aiuta l’ANVUR a correre ai ripari.

    Ma questo indicatore era stato definito nella VQR frettolosamente? In modo superficiale? Non si sa. Certo è che si basava su di un ampio insieme di parametri, per la cui misura l’ANVUR ha chiesto agli atenei una lunga, spesso lunghissima, serie di dati.

    Adesso, però, che i valori assunti da questo indicatore sono noti, l’indicatore non piace più: abbiamo scherzato, ci dicono. Ora definiamo un nuovo “voto”, ossia la probabilità che un dipartimento abbia fatto meglio di un dipartimento virtuale associato. Anzi no, neanche questo voto va bene, adesso definiamo un nuovo indicatore IPR basato sul nuovo voto. Ma domani, a mente fresca, vi daremo come indicatore la quarta potenza del logaritmo di IPR. E dopodomani …

    Non so a voi, ma a me sembra una pagliacciata. Facciamo così: facciamo decidere a chi può quali devono essere i voti degli atenei e dei dipartimenti, ad arbitrio, senza perdere tempo a trovare una giustificazione analitica ad un risultato precostituito. Mi sembra più serio, si perde meno tempo, lo Stato ci perde meno soldi.

  3. Mah…la cosa che non mi torna è che io leggo ‘Voto standardizzato di Dipartimento’ (U_d) da cui IPR_d da cui come calcolato a livello di ‘voto medio del soggetto’ (indicato come: v_l,s,d; per soggetto l, dipartimento d e SSD s) standardizzato rispetto al voto medio nazionale (e ds nazionale) di SSD e non di Area…(ultima formula pag 6, http://www.anvur.org/attachments/article/609/Dipartimento%20virtuale%20associato%20e%20voto%20standardizzato%20finale%20-%20bis.pdf)

    L’approssimazione gaussiana (da cui P_inf, da cui IPR, da cui RIS) è applicata all’indicatore U_d ovvero a livello di dipartimento, non di Area, quindi un indicatore di Area globale (nei files di XLS…non so se in qualche ‘classifica’ ANVUR’) io non l’ho visto. Me lo sarò perso.

    Esiste un altro indicatore IDVA…che però mi è parso di capire NON è consigliato, a vantaggio appunto di U_d

    E’ pur vero che il testo cita:
    “Questo documento illustra un metodo di valutazione dei Dipartimenti universitari basato
    sulla qualità dei prodotti di ricerca presentati nell’esercizio VQR…[snip]…Procedure analoghe
    possono essere applicate anche aggregando i prodotti per Area CUN”

    Ma non è possibile effettuare il calcolo dato che v_l,s,d non è disponibile. Forse si potrebbe provare a vedere in termini di Voto Standardizzato per Area per Dipartimento (escludendo i dipartimenti -999), dal foglio “voto_standardizzato_Area” del file XLS.

    Fatta così a me personalmente NON sembra ciò che ha fatto l’ANVUR…ma come sempre potrei aver capito male io

  4. Gedeone GP says:

    Caro Giuseppe,
    ho avuto modo di scorrere il nuovo prodotto della tua goliardia professorale. Non casco questa volta nella trappola di perder tempo a cercare di condire con scherzose parabole e gustose metafore, come hai tempo di fare tu, le mie contro-deduzioni. Mi gioco un paio di ore di sabato mattina e quindi cercherò di andare al sodo, anche se non riuscirò a essere breve e in qualche caso finirò con l’essere pure brutale, giocandomi così quella medaglia di signorilità dialettica ricevuta sul campo pochi giorni fa.
    1. Ricordo innanzitutto a Occhiuzzi, che pervicacemente insiste su questo punto, che l’indicatore IRFD è stato introdotto dall’ANVUR nel suo documento finale senza alcuna copertura da parte del Bando, e che esso costituisce esclusivamente un possibile suggerimento per la ripartizione delle risorse (pag 45 del Rapporto Finale ANVUR parte prima). “Risorse”, non “risorse non dipendenti dal costo della ricerca”. Infatti una caratteristica di questo indicatore è proprio quella di considerare alcuni parametri che non si possono applicare a tutte le Aree; sono presenti, ad esempio, i costi della ricerca e la capacità di attrarre risorse. E’ vero che qualcosa di simile (applicato agli Atenei) è stato adottato dal MIUR per far finta (tutti gli Atenei praticamente a -5% rispetto all’anno scorso) di distribuire la parte premiale del FFO. Effettivamente, ha ragione Occhiuzzi, ogni Ateneo potrebbe adottare la stessa farsa. Il Voto Standardizzato (VS nel seguito) è pensato invece proprio per distribuire risorse non dipendenti dal costo della ricerca, quali quelle del personale docente, ad esempio nell’ambito del piano straordinario associati (queste sono vere risorse, disponibili). A tal fine è parso corretto, a chi ha responsabilità di governo negli atenei, utilizzare per la valutazione della qualità della ricerca dei dipartimenti esclusivamente una informazione comune a tutte le Aree e a tutti i SSD, al fine di non favorirne strutturalmente solo alcuni. E’ comunque, anche questo, solo un suggerimento. Ogni Ateneo, mi pare ovvio, farà come crede, in totale autonomia. Personalmente mi piace ricordare che questo metodo non favorisce affatto i fisici fiorentini, categoria alla quale appartengo, tanto per sgombrare qualche sgradevole sospetto.
    2. Vengo ai 15 bravissimi singoli fisici e ai 163 bravi singoli medici bresciani: non a caso riporto numeri e aggettivi. Ti ricordi, Giuseppe, quando addì 16 Luglio 2013 uscisti con la corretta osservazione sull’effetto “imbuto” (https://www.roars.it/online/lanvur-la-classifica-degli-atenei-della-vqr-e-la-legge-dellimbuto/)? Nonostante la scarsa considerazione che tu dimostri delle mie capacità intellettuali, ahimé tipiche di un fisico dilettante e non di un ingegnere professionista dei test probabilistici quale tu sei, non ho avuto alcuna difficoltà a capirla e ad apprezzarla. Dico di più: il VS, che nasceva nella mia piccola testolina proprio in quei giorni, ebbe incoraggiamento da quella tua osservazione in quanto la simpatica radice quadrata che oggi tu stesso inserisci nella formula del VS manifestamente andava a curare il difetto. Non capisco quindi perché oggi ti sfugga che il VS applicato ai fisici e ai medici della Leonessa d’Italia potrebbe esser lì solo a depurare l’analisi ANVUR dall’effetto di cui sopra. Ma ti sfugge davvero o hai un calo momentaneo di onestà intellettuale? Prenditi una zolletta di autocritica, fa bene. Sì, caro Giuseppe, il VS depura l’effetto, come puoi vedere mettendo in correlazione il VS dei dipartimenti nazionali con il numero dei loro membri: puoi verificare che non esiste più correlazione “imbutiforme”, come quelle che allora hai correttamente pubblicato. Il VS, o meglio IPR che è la grandezza suggerita per erogare risorse, dice solo che è più meritevole (cioè meno probabile a realizzarsi) un gruppo di 163 medici con un voto medio 1.37 volte maggiore di quello medio dell’area 06 rispetto a un gruppo di 15 fisici con un voto medio 1.2 volte quello medio di area 02. Pur singolarmente bravi gli uni e bravissimi gli altri. Oltretutto secondo la vituperata procedura “CRUI” entrambi sono nel loro “top 10%”, come tu stesso hai calcolato, al di là del valore del VS ben quattro volte superiore (vedi la parte finale di questo intervento). Quindi entrambi i gruppi sono decisamente meritevoli di considerazione (e quindi di risorse non dipendenti dal costo della ricerca). Solo la malevola solleticazione del perverso malanno della classifichite acuta (4.48 contro 1.29!) può portare a nascondere questa semplice evidenza.
    3. Non è che, ancora una volta, tu hai in testa una scala di valori e conseguentemente qualunque altra conclusione che da essa diverga è da te considerata sbagliata? Perdona la brutalità, ma non posso non notare che in questa discussione sul VS (e non solo) ricorri o al principio di (auto-)autorità (“queste cose, io, le faccio di mestiere, come dimostra il Modello Pozza di Fassa”) o a criteri intrisi di quello che chiamerei “razzismo accademico” o “supremazia culturale”: quando ad esempio dici che è impossibile che docenti di Messina siano meglio di quelli del Politecnico di Milano (anche qui si tratta, come sai, di colleghi indubbiamente bravi che oltre a risiedere in amene località in vicinanza dello Stretto, hanno avuto anche la fortuna di beneficiare dell’effetto imbuto), oppure quando affermi, fra gli sghignazzi di un pubblico affetto dalla tua stessa patologia di supremazia culturale, che una certa rivista, per il solo fatto di intitolarsi “Suinicoltura”, non è degna di essere considerata come sede di pubblicazioni scientifiche (il che mi ricorda una delle infelici uscite della Gelmini che sdottorava sulla non scientificità delle ricerche PRIN sull’asino dell’Amiata), oppure quando sostieni che è impossibile, o quanto meno stravagante, che i fisici bresciani siano sopravanzati dai colleghi medici (anche se la mia appartenenza alla “etnia” dei fisici ha già cominciato a far vacillare la tua considerazione degli stessi; ma non ti preoccupare, io sono un fisico un po’ particolare, un fisico nucleare da bonificare, da rottamare. Essendo poi di Firenze, con i premier che corrono, mi succederà qualcosa di brutto certamente).
    4. Fuori dallo scherzo, confesso, con un briciolo di orgoglio, di avere sempre cercato di mantenere rispetto e considerazione per tutti i colleghi di ateneo e di aborrire qualunque prevenzione accademica (di qualunque segno) nei confronti di coloro che fanno ricerche e didattica in campi diversi dal mio. Ho quindi sempre rifiutato il concetto che i fisici siano meglio degli ingegneri o dei medici, che i filosofi siano meglio dei pedagoghi e via discorrendo. Sono infatti profondamente convinto che non è l’appartenenza ad una categoria che garantisce automaticamente la qualità né delle persone, né delle ricerche compiono. So viceversa che all’interno di ogni categoria o disciplina, una volta che si facciano confronti fra pari, sarà sempre possibile trovare i più capaci e i meno capaci. Questo, a mio modesto parere, è quello che ogni Ateneo, ogni rettore e ogni prorettore vicario, ma che dico? tutti, dovrebbero voler sapere. Ovvero quanti in un dipartimento sono migliori dei loro pari e quanto. Evitando ovviamente di commettere errori del tipo “effetto imbuto”. Questi sono esattamente gli ingredienti alla base dell’approccio del VS e del dipartimento specchio o dipartimento virtuale associato. Sono peraltro d’accordo che nella prossima VQR (se ci sarà) occorrerà approfondire la collocazione internazionale delle varie discipline, per avere un tassello importante di informazione, che ora manca (la parte terza del rapporto ANVUR non approfondisce ancora a sufficienza il tema, al punto di poter trarre indicazioni quantitative). Ma la mancanza di questa informazione non può in alcun modo essere sostituita, in maniera autoreferenziale, da presunte conoscenze a priori di valori assoluti delle varie discipline.
    5. Infine, perché continui a ripetere la storia della gaussiana e del test? Lo fai per esercitare la mia pazienza? Fai conto che sia Giobbe e vai tranquillo. Pero, però… non posso non ammettere di detestare la tecnica, tutta berlusconiana, di dire settanta volte una cosa qualunque, o giustificandola in maniera o esclusivamente apodittica o affidandosi al principio di autorità, con la serena fiducia che se l’operazione si compie davanti ad un gioioso pubblico adorante si può contare sul fatto che verso la cinquantesima iterazione del processo, l’affermazione diventa una verità. Se poi l’affermazione è pure astrusa e tecnicamente complicata, meglio. Questa è la tecnica che fin dal primo giorno hai adottato riguardo alla distribuzione, che io chiamo “sperimentale”, del VS dei dipartimenti nazionali e tu “risultato di un modello probabilistico”. Il tuo Modello Pozza di Fassa (con tanto di stella alpina) ti ha deluso perché non è riuscito, nonostante i tuoi encomiabili e generosi sforzi di aggiustare i parametri, a riprodurre una gaussiana. Peccato per te; io infatti non ne avrei neppure parlato o al più, al posto della stella alpina, per rimanere in ambito alpestre, ci avrei messo un fungo coprino (meglio il niveus).
    6. Poiché non credo affatto che i visitatori di questo sito siano equiparabili al popolo azzurro che canta “meno male che Silvio c’è” (mi sto facendo dei nemici?) e quindi conto sul loro spirito critico, trovo il tuo recente atteggiamento rischioso per te e per la credibilità del sito stesso. E quindi, a proposito della contraddizione del “modello probabilistico” che citi ad infinitum, a breve ti invio un intervento nel quale mi limito a riportare parti di un messaggio inviato da un matematico a colleghi matematici che si chiedevano se questa volta il buon De Nicolao la dicesse giusta o no. Spero così di riuscire nell’intento di instillare il benefico seme del dubbio in qualche attento e curioso lettore, visto che questa volta la difesa, articolata e argomentata, del VS viene dall’esterno.
    7. Siccome trovo goffo e penoso sostenere l’insostenibile, ammetto (già fatto personalmente con te al telefono) che sia stato un errore, nel primo documento vergato di mio pugno e pubblicato dall’ANVUR, omettere l’indicatore IPR derivato direttamente da VS, ovvero quello basato sulla probabilità del dipartimento di registrare una votazione inferiore nel proprio Dipartimento virtuale associato. E’ stato un errore perché, nonostante tutta la prima parte del documento insista sul fatto che la scala di valori è misurata proprio da questa probabilità, nelle prime tabelle e nella parte finale del primo testo pubblicato proprio questo messaggio è saltato e può avere confuso il lettore. Tu ovviamente no, immagino che la confusione non ti appartenga; ma un po’ malignamente insisti e punzecchi.
    8. L’omissione di cui sopra mi è stata fatta notare da colleghi e immediatamente (dove “immediatamente” significa il tempo materiale per riscrivere una mezza paginetta, per aggiungere le colonne omesse e per chiedere all’ANVUR la sostituzione) ho provveduto a chiarire. Si trattava oltretutto di colleghi fisici, con i quali, devo dire, la discussione, oltre che civilissima, è stata anche estremamente costruttiva. Qui, pubblicamente, qualora visitino questo sito, li voglio ringraziare. Anche loro attendono, sia chiaro, quello studio sulla collocazione internazionale della nostra disciplina, che oggi manca e che dovrebbe aumentare la affidabilità delle valutazioni.
    9. Concedimi un’ultima, reiterata, provocazione: visto che Peppe fa le viste di capire tutto, perché ancora non ha risposto alla domanda che ho formulato qualche giorno fa e che ora ripeto: come mai la distribuzione del VS dei dipartimenti nazionali ex lege 240, non ha valore medio centrato attorno a zero? Peppe è stato turbato da una deviazione standard maggiore di uno e da una gaussianità non rispettata che viceversa il quasi-geniale Modello Pozza di Fassa mancava per un pelo; la “trave” del VS medio diverso da zero non lo turba? I tuoi lettori e Gedeone meritano che il loro guru Peppe non li deluda, che non dia l’impressione di non capire qualcosa. Guarda, che non è difficile. Digli di battere un colpo. Nella peggiore delle ipotesi, potrà sempre mettere un altro KO grosso come una casa sul grafico e sostenere che ci troviamo di fronte ad un altro manifesto fallimento “dell’approccio probabilistico-dilettantesco made in CRUI”. Non c’è bisogno che Peppe lo spieghi. Basta che lo ripeta almeno qualche decina di volte e troverà sempre qualcuno che gli crederà. Spero solo non tutti.

    Avevo già fatto e proclamato il proposito di non cadere più nella trappola delle tue provocazioni; non ci sono riuscito e non so se mai ci riuscirò. Questa volta ci sono cascato come un pollo, anche perché sei stato così carino da avvisarmi personalmente del tuo nuovo parto. Ignorarti sarebbe stato sgarbato, e forse avrebbe potuto dare l’impressione che non avessi argomenti. Invece li avevo, anzi li ho ripresi da te, vista la centralità, in questa discussione, dell’effetto imbuto.
    Per fortuna mia e tua il molto daffare mi aiuterà forse a star lontano da questi pericoli, da ricadere in tentazione. Ma tu, a proposito, sei in sabbatico?

    Buona fine settimana
    Giacomo

    • Giuseppe De Nicolao says:

      Giacomo Poggi: “Ricordo innanzitutto a Occhiuzzi, che pervicacemente insiste su questo punto, che l’indicatore IRFD è stato introdotto dall’ANVUR nel suo documento finale senza alcuna copertura da parte del Bando”
      ========================
      Questa è una denuncia grave nei confronti dell’ANVUR che nel documento finale avrebbe introdotto indicatori “senza alcuna copertura da parte del Bando” (una scorrettezza che, tra l’altro, sarebbe sfuggita persino a Roars). Per evitare di lanciare accuse infondate, procediamo ad una verifica. Ecco cosa c’è scritto nel bando (http://www.anvur.org/attachments/article/122/bando_vqr_def_07_11.pdf).
      ___________________________



      ___________________________



      ___________________________

      Ed ecco cosa c’è scritto nel rapporto finale (http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteprima.pdf):
      ___________________________


      ___________________________
      Forse che l’ANVUR ha proditoriamente modificato i pesi che erano stati indicati nel bando? A pagina 41 del Rapporto Finale VQR sono riportati i valori che sono stati utilizzati. Eccoli
      ___________________________


      ___________________________
      Come si può vedere sono esattamente gli stessi valori indicati nel bando. Gli unici pesi che sono stati definiti dopo l’uscita degli esiti VQR sono stati i pesi wj che determinano l’importanza relativa delle aree CUN, ma non li ha decisi l’ANVUR, bensì il ministro in sede di assegnazione della quota premiale. In effetti, nel rapporto finale, a p. 39, l’ANVUR osserva correttamente che
      ___________________________
      “La definizione dei pesi , la scelta di quale indicatore finale utilizzare e dei valori dei pesi α e β non è compito dell’ANVUR, ma è una scelta di natura “politica” di competenza del MIUR”.
      ___________________________
      Non si può attribuire all’ANVUR la colpa di aver introdotto un indicatore IRFD “senza alcuna copertura da parte del Bando”. Il calcolo dell’indicatore IRFD era a tutti gli effetti un atto dovuto. Come ogni cosa, l’indicatore può essere messo in discussione, ma lo si poteva fare già nel novembre 2011, sulla base della lettura del bando. Forse Occhiuzzi è così pervicace semplicemente perché ha letto il bando e lo ha confrontato con il Rapporto Finale VQR.

    • Giuseppe De Nicolao says:

      G. Poggi: “non posso non notare che in questa discussione sul VS (e non solo) ricorri o al principio di (auto-)autorità (“queste cose, io, le faccio di mestiere, come dimostra il Modello Pozza di Fassa”)”
      ===================
      Non credo di ricorrere al principio di autorità. Di sicuro, evito di attribuire a qualcuno frasi tra virgolette che non ha mai scritto o detto. In particolare, io non ho mai scritto:
      ___________________
      “queste cose, io, le faccio di mestiere, come dimostra il Modello Pozza di Fassa”
      ===================
      ==================
      G. Poggi: “quando ad esempio dici che è impossibile che docenti di Messina siano meglio di quelli del Politecnico di Milano”
      ===================
      Di nuovo, non ho mai detto o scritto che i docenti di Messina siano meglio o peggio di quelli del Politecnico di Milano (dove mi sono laureato). Ho solo osservato che se diamo per vere le seguenti affermazioni, i giovani lombardi farebbero bene a trasferirsi sullo Stretto.
      ___________________

      “La portata della valutazione ANVUR va ben oltre il ruolo che molti le riconoscono, quello di essere uno strumento utile alla ripartizione delle risorse […] La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle Strutture, per i giovani che vogliono intraprendere gli studi universitari …”
      (S. Fantoni, “Una radiografia del sistema universitario”, in: I voti all’università, supplemento del Corriere della Sera, Luglio 2013, pag. 12)
      ___________________
      “Il Paese possiede una fotografia dettagliatissima e, soprattutto, certificata della qualità della ricerca italiana”
      (S. Fantoni, http://www.ansa.it/web/notizie/specializzati/scienza/2013/07/16/radiografia-piu-completa-ricerca-italiana_9032744.html)
      ___________________
      “Il caso non ha dunque nulla a che fare con i risultati della Vqr”
      (S. Benedetto e R. Torrini, http://www.lavoce.info/una-valutazione-molto-chiara/)
      ___________________
      Io sono ovviamente consapevole della variabilità dovuta all’errore statistico, ma l’ANVUR nega decisamente (“Il caso non ha dunque nulla a che fare”). Per rendere più evidente il paradosso, mi limito a fare quella che si chiama reductio ad absurdum. I colleghi di Messina hanno ovviamente tutta la mia stima e anche la mia solidarietà rispetto agli impeti neroniani di Giavazzi che vorrebbe chiudergli l’ateneo proprio a causa della VQR (https://www.roars.it/online/francesco-giavazzi-e-la-sua-magnifica-ossessione/). Ma se la VQR è veramente l’oracolo della verità, perché non chiudiamo anche il Politecnico di Milano che in Ingegneria Industriale e dell’Informazione fa peggio di un ateneo che Giavazzi (laureato al Politecnico) vorrebbe chiudere? È bene precisare che anche questa ultima affermazione è una “reductio ad absurdum” che spero nessuno prenda sul serio.

    • Giuseppe De Nicolao says:

      G. Poggi: “oppure quando affermi, fra gli sghignazzi di un pubblico affetto dalla tua stessa patologia di supremazia culturale, che una certa rivista, per il solo fatto di intitolarsi “Suinicoltura”, non è degna di essere considerata come sede di pubblicazioni scientifiche”
      ___________________
      Il caso di Suinicoltura è stato ampiamente discusso su Roars. La “patologia di supremazia culturale” nei confronti dei suini non c’entra nulla. Mi limito a citare quanto avevamo scritto:
      ___________________
      “Per questa ragione noi siamo dalla parte degli strutturati che hanno scritto sulla Rivista di Suinicoltura.

      E lo diciamo senza un filo di ironia. Hanno fatto un lavoro meritorio di divulgazione/professionale a favore di una importante parte delle imprese italiane. Siamo dalla parte di coloro che scrivono su Pig International, l’equivalente di Suinicoltura in lingua inglese. Se avessimo scritto su una di quelle riviste saremmo orgogliosi di averlo fatto e lo inseriremmo nel nostro curriculum, in una apposita sezione intitolata più o meno “pubblicazioni non scientifiche“.

      Terremmo a far sapere al nostro Direttore di dipartimento e al nostro Rettore che oltre al lavoro scientifico stiamo svolgendo anche lavoro di divulgazione. E quindi inseriremmo i dati nell’anagrafe della ricerca CINECA.

      Se fossimo in Gran Bretagna, molto probabilmente invieremmo al REF 2014 le pubblicazioni su Pig International per la valutazione di impatto.

      Sempre se fossimo in Gran Bretagna, non ci aspetteremmo che quelle pubblicazioni, come nota Gian Antonio Stella, siano utilizzate per decidere la nostra carriera accademica o quella di altri.

      In Italia invece l’ANVUR ha sancito che un articolo sulla rivista di suinicoltura serve per diventare ordinari di economia. A questo noi siamo fieramente contrari.”
      https://www.roars.it/online/per-giustificare-le-riviste-pazze-lanvur-paragona-suinicoltura-al-caffe-di-pietro-verri/
      _____________________
      Il fatto che Suinicoltura non sia una rivista scientifica non dipende dal suo nome, ma dipende dai suoi scopi che chiunque può leggere sul sito della rivista:
      _____________________
      “Rivista di Suinicoltura è il punto di riferimento imprescindibile per gli allevatori di suini, per i tecnici e per le imprese impegnate nell’indotto della filiera suinicola nazionale. Realizzata con uno stile diretto e immediato, capace di invogliare alla consultazione anche i lettori meno attenti, presenta una visione ampia e “multidisciplinare” delle problematiche del comparto. […] L’nformazione della rivista è arricchita di una rubrica dedicata completamente ai suinicoltori che possono sottoporre ai nostri esperti quesiti, problemi, chiarimenti su come gestire al meglio l’allevamento da ogni punto di vista: tecnico, igienicosanitario, alimentare, economico, normativo.”
      http://www.edagricole.it/r_17_dett.asp
      _______________________
      A molti sfugge che il censimento (incompleto) delle “riviste pazze” fatto da Roars non si basava sulla ricerca di nomi buffi, ma ci è costato ore di lavoro, andando alla ricerca della “declaratoria” di ogni rivista per capire se dietro il nome “Suinicoltura” (scientifica in area 13 – Scienze economiche e statistiche) c’era una pubblicazione che trattava di argomenti scientifici (come per es. “The Pig Journal”, http://www.thepigsite.com/pigjournal/) oppure una rivista divulgativa per allevatori e imprese. Abbiamo fatto esattamente il lavoro che avrebbe dovuto fare l’ANVUR nel momento in cui decideva che un certo titolo doveva contribuire al conteggio dei requisiti per essere sorteggiabile come commissario dell’ASN oppure per abilitarsi. Nessun sghignazzo. Solo lavoro serio, spesso notturno, perché nessuno di noi è in sabbatico.
      _______________________

  5. Gedeone GP says:

    Caro Giuseppe,
    come anticipato, ecco qui il messaggio del matematico che non mi annovera, come fai tu, fra i dilettanti allo sbaraglio. Alcune parti sono sostituite da “omissis” solo perché non necessarie: se vuoi ti giro il documento completo. Comunque lo puoi chiedere ai destinatari, che forseconosci. A titolo di informazione: con questo matematico, di sede diversa da Firenze, (che ovviamente mi sta ora simpaticissimo!) non avevo avuto alcun rapporto fino al giorno in cui mi ha contattato tramite un collega per avere un chiarimento su questo voto standardizzato che non comprendeva a pieno. Molto garbato, ma evidentemente un po’ sospettoso di qualche boiatina. Siccome il mio terrore, fin da bambino, è stato quello di sbagliare (a me è capitato più di una volta — sono sempre stato un dilettante), non mi è parso il vero di inviargli la bozza del testo che poi, dopo qualche aggiustamento, è stato pubblicato sul sito ANVUR; gli ho chiesto io stesso che mi facesse le pulci (e sono stato contento che me le abbia fatte). Direi che ho superato decisamenrte bene l’esame (anche questo mi è successo qualche volta) e quello che il matematico scrive ai loro colleghi mi pare che lo dimostri.
    Noterai che l’estensore non è affatto un tuo sistematico detrattore (come non lo sono io, peraltro), visto che dice, con evidente sorpresa e forse rammarico, che “L’articolo di ROARS, per una volta, è sbagliato”. Segue il messaggio:

    Data: 09 febbraio 2014 14:41:55 CET
    A: Ciro Ciliberto
    Cc: Alessandro Verra , Barbara Lazzari , Carlo Sbordone , Carlo Toffalori , Claudio Bernardi , Claudio Fontanari , Francesco Altomare , Francesco De Giovanni , Franco Brezzi , Gabriele Anzellotti , Gianluca Vinti , Gianni Dal Maso , Giuseppe Anichini , Livia Giacardi , PiermarcoCannarsa , Salvatore Coen , Vittorio Coti Zelati , Gianni Dal Maso , Aljosa Volcic
    Oggetto: Re: Voto standardizzato
    Carissimi,

    vi posso dare un paio di informazioni, e un’opinione.

    Prima di tutto, ho studiato accuratamente …omissis…
    quel documento e quell’indicatore, e vi posso rassicurare: la derivazione dell’indicatore e’ matematicamente
    corretta, nel senso che fa effettivamente quello che promette di fare
    (che poi sia qualcosa che valga la pena di fare e’ un altro discorso,
    su cui commento dopo). L’articolo di ROARS, per una volta, e’ sbagliato:
    non ha capito di cosa stava parlando (e infatti, se seguite i commenti all’articolo,
    vi renderete conto che dopo l’intervento di Poggi de Nicolao inizia ad arrampicarsi
    sugli specchi pur di non ammettere di aver preso una cantonata).

    In breve, ecco cosa fa l’indicatore “voto standardizzato di dipartimento”.
    Il ragionamento non e’ completamente banale (per una volta si tratta di probabilità, e non
    di statistica elementare), per cui non mi stupisce che di primo acchito
    ci si possa confondere.

    Prendiamo un dipartimento reale, con una fissata composizione in numero di membri
    distribuiti nei vari settori. Lo vogliamo confrontare con tutti gli altri dipartimenti
    virtuali che si possono costruire mantenendo la stessa composizione come numero
    di membri nei settori ma pescando a caso i membri a livello nazionale
    (attenzione, qui e’ il primo punto delicato: non lo vogliamo confrontare direttamente
    con gli altri dipartimenti reali, ma con i dipartimenti virtuali con uguale composizione).
    Il modo banale per farlo sarebbe calcolare un valore di R pesato (il cosiddetto IDVA)
    per ciascuno dei dipartimenti virtuali, e vedere in quale percentile della distribuzione
    dei valori di IDVA sui dipartimenti virtuali si situa il dipartimento reale: se e’ nel
    primo 5% e’ molto buono, se nell’ultimo 5% e’ molto debole, e così via. Ma questo
    procedimento ha due problemi: il primo e’ che richiederebbe una marea di conti,
    il secondo (molto più serio) e’ che la distribuzione dei valori di IDVA *non* e’ una gaussiana
    standardizzata, ma dipende dal dipartimento reale da cui siamo partiti; quindi
    il percentile che si ottiene in questo modo non fornisce un valore confrontabile fra
    dipartimenti reali diversi.

    L’idea (furba) consiste nel costruire una distribuzione standardizzata. Il procedimento
    e’ il seguente: sia v_s la variabile aleatoria che a ogni membro del settore s associa il voto medio
    dei suoi prodotti attesi. Indichiamo con u_s la variabile aleatoria
    standardizzata (a media 0 e varianza 1) ottenuta sottraendo da v_s la media nazionale sul settore
    e dividendo per la deviazione standard nazionale sul settore. Notate che la legge di u_s si guarda bene
    dall’essere una gaussiana, in generale, ma non importa: l’unica cosa che conta e’ che e’ standardizzata.
    A questo punto, dato il dipartimento reale, costruiamo la variabile aleatoria U ottenuta sommando
    tante u_s quanti sono i componenti del settore s del dipartimento reale, per tutti i settori,
    e dividendo per la radice del numero di addendi [questo nel caso di un dipartimento in cui tutti i membri
    avevano 3 prodotti attesi; la formula vera e’ un poco più complicata per considerare
    anche membri con meno prodotti, ma l’idea e’ la stessa.] Siccome il numero di addendi e’ almeno 40,
    possiamo ragionevolmente applicare il teorema del limite centrale; per cui la legge di U
    e’ sempre una gaussiana a media 0 e, avendo diviso per la cosa giusta, varianza 1 (qui stiamo
    supponendo che le u_s siano indipendenti; lo sono di sicuro quando riferite a settori diversi, e
    l’eventuale dipendenza fra le u_s sullo stesso settore e’ molto debole; come conferma sperimentale, Poggi ha verificato che
    i valori di U calcolati su tutti i dipartimenti virtuali associati a un dato dipartimento reale
    si distribuiscono bene lungo una gaussiana standardizzata).

    Siccome la legge di U e’ una gaussiana standardizzata, dal valore di U sul dipartimento reale e’
    facile vedere come e’ messo rispetto a tutti gli altri dipartimenti virtuali con la stessa composizione:
    se U(dipartimento reale)>1 allora e’ nel top 16%, se U(dipartimento reale)>2 allora e’ nel top 2%,
    se U(dipartimento reale)>0 allora e’ nel top 50%, e cosi’ via. La cosa cruciale qui e’ che se partiamo da un dipartimento reale diverso, arriviamo
    a una variabile aleatoria diversa *ma con la stessa legge gaussiana standardizzata*: per cui
    il confronto diretto del voto standardizzato dei due dipartimenti ci permette di dire quale dei
    due e’ messo meglio rispetto alla popolazione dei propri dipartimenti virtuali associati.
    …omissis…..
    Attenzione, secondo punto delicato (ed e’ qui che de Nicolao si e’ sbagliato): da nessuna
    parte stiamo dicendo che la distribuzione dei voti standardizzati dei dipartimenti *reali*
    e’ una gaussiana. Non c’e’ nessun motivo che lo sia: ogni dipartimento reale appartiene
    a una popolazione (di dipartimenti virtuali) diversa. Anzi, ci aspettiamo che non lo sia
    affatto, in quanto i voti degli appartenenti a un singolo dipartimento reale (che e’ una
    cosa ben diversa dalle variabili aleatorie viste sull’intera popolazione nazionale)
    non mi aspetto siano indipendenti, in quanto colleghi migliori tendono ad attrarre
    colleghi migliori, la gente tende a collaborare di più se e’ nello stesso dipartimento e così’ via.
    Ma tutto cio’ non ha nulla a che fare con tutto il ragionamento precedente.

    Sperando di essere stato chiaro, riassumendo si può dire che partendo dalle assunzioni
    della VQR (nessun settore e’ a priori migliore di un altro; gli unici dati a nostra disposizione
    sono i voti ricevuti dai prodotti e la composizione dei dipartimenti) il voto standardizzato
    fornisce un modo efficace e matematicamente corretto per dire come e’ messo un
    dipartimento rispetto a tutti i dipartimenti con la stessa composizione che si potrebbero
    costruire pescandone a caso i membri. In particolare, questo indicatore *non* soffre
    dei problemi di tutti gli indicatori precedenti: sterilizza le differenze di media e varianza dei diversi GEV,
    e non soffre neppure dell’effetto imbuto. Ovviamente non e’ l’unico indicatore che si
    puo’ costruire con le stesse proprietà; ma ha il vantaggio di essere calcolabile,
    di avere un significato chiaro (una volta spiegato per bene), e di essere infinitamente
    piu’ sensato degli “indicatori finali di dipartimento” prodotti dall’ANVUR nel rapporto VQR.
    Inoltre, lo stesso approccio potrebbe essere utilizzato anche per calcolare indicatori di ateneo
    sensibilmente più sensati di quelli usati quest’anno per la distribuzione del FFO.
    …omissis…
    questo indicatore (o sue variazioni) fornisce invece uno strumento ragionevole che
    si può usare senza favorire a priori un settore piuttosto di un altro. *Come* usarlo e’
    una decisione politica dei singoli atenei; ma sicuramente e’ uno strumento migliore
    di quelli che avevamo a disposizione finora.
    ….omissis…

    (seguono convenevoli e firma)

    Riprendo a parlare io.
    Le stesse cose, dette da altri, sono più chiare delle proprie. Non ci crederai, ma a me questo Voto Standardizzato spiegato dal matematico, pare proprio una ganzata! Scusami, ma non sono mai stato in grado di fare la persona seria per più di cinque minuti di seguito. Ma su questo, credo che non siamo così dissimili: mi pare che la celia abbai cittadinanza completamemte riconosciuta nel tuo argomentare.
    E siccome non sono serio, ti suggerisco anche una via di uscita dal cul de sac nel quale, secondo me e secondo l’amico matematico, ti sei cacciato (lasciandoti anche una opportunità in più per maltrattarmi): puoi dire che finalmente il matematico ti ha fatto capire il procedimento, spiegato vicersa con i piedi da me. Funziona?
    Ancora una volta buona fine settimana a tutti
    Giacomo

    • Caro Gedeone GP,
      effettivamente l’esposizione da parte del matematico del modello del DVA mi risulta un filino (come dicono dalle mie parti) più chiara della prima pubblicata dal sito dell’ANVUR (non ho avuto la voglia di leggere la successiva).
      Prima di comprarmela avrei però il seguente dubbio da sciolgiere: prendiamo l’affermazione “se U(dipartimento reale)>2 allora e’ nel top 2%”, che mi sembra chiarissima. Altrettanto chiaro mi sembra però che la distribuzione dei voti standardizzati dei Dipartimenti effettivi non è gaussiana.
      Ne segue per caso che è possibile che i Dipartimenti classificati dalla procedura proposta dalla CRUI/ANVUR nel top 2% siano il 5% o magari lo 0,5%?
      Se fosse così un piccolo problemino mi sembrerebbe ancora presente, soprattutto perché resterebbe allora da spiegare, sulla base della distribuzione effettiva dei voti standardizzati nelle varie aree, come sono in effetti strutturati i ranking ottenuti.
      Ma magari mi sbaglio.
      Grazie dell’attenzione,

    • Giuseppe De Nicolao says:

      Paolo Bertoletti: Ne segue per caso che è possibile che i Dipartimenti classificati dalla procedura proposta dalla CRUI/ANVUR nel top 2% siano il 5% o magari lo 0,5%?
      =========================
      È esattamente quello che succede ed è la spiegazione del paradosso bresciano. Infatti, in qualche SSD i dipartimenti classificati nel top 2% sono il 5% (i medici, per es.) e in qualche altro sono lo 0,5% (i fisici, per es. – sto usando i numeri di Bertoletti a titolo di esempio). È questa eterogeneità che rende problematico l’uso della media degli “Z-scores” per ottenere il voto standardizzato dei dipartimenti. L’eterogeneità, pur non scomparendo del tutto, sarebbe molto minore se si usasse il modello “Pozza di Fassa”. Sottoporre a validazione i modelli tramite test di ipotesi serve proprio a respingere i modelli che introducono distorsioni di questo genere. È anche la ragione per cui non basta un test di ipotesi complessivo (rispetto al quale “Pozza di Fassa” non se la caverebbe malissimo) ma bisognerebbe sottoporre a validazione il modello per ogni singolo SSD.
      _________________________
      P.S. Come promesso, Peppe e Gedeone hanno autografato una copia della locandina del Convegno Roars dedicandola a Bertoletti a cui porgono i loro migliori saluti. Sarà mia cura fargliela pervenire.

    • Piccola intromissione notturna, prima che le forze mi abbandonino, da parte di un (non più) silenzioso lettore interessato. Dopo un dovuto ringraziamento a Roars e GDN da un lato e Gedeone GP dall’altro per le interessanti diatribe, da cui scopro continuamente quanto ho da imparare, propongo una segnalazione sul nuovo documento ANVUR/CRUI e una considerazione:
      ______________
      1) Nel documento, alla Sezione 3, i valori di (P_inf(U*d)-0.5) di esempio, al momento di definire l’IPr*d, sono riportati come 4.51, 4.89 e 4.99 invece che (com’è abbastanza ovvio) 0.451, 0.489 e 0.499. Poiché la materia trattata induce facilmente alla distrazione, anche queste banali imprecisioni (ancorché evidenti a chiunque ricordi che la probabilità è sempre <1) rischiano di essere fuorvianti (io stavo per rinunciare con un "non c'ho capito nulla").
      ______________
      2) A proposito del top 2% che può diventare un 5% o uno 0.5% dei Dipartimenti reali vorrei provare a capire se ho capito, chiedendo il vostro aiuto. Come esempio, presumo di appartenere ad un Dipartimento al top 2%. Questa qualità va intesa come il fatto che *nella popolazione dei DVA al mio Dipartimento reale* (i cui voti stanno su una gaussiana) se ne trovano statisticamente solo 2 su cento migliori. Il Dipartimento cui afferisce mio fratello (di diversa composizione) si potrà sempre in ipotesi trovare anch'esso nel top 2% tra i suoi DVA (una gaussiana, ma diversa dalla precedente). Mi viene da concludere: poichè diversi dipartimenti si confrontano con diverse distribuzioni, la percentuale di dipartimenti con tali qualità non sembra necessariamente correlata al 2% del "top" da cui sono partito, per cui sarebbe giustificato pensare che possono essere un 5% o uno 0.5% dei Dipartimenti reali. Chiedo a GP se ho capito bene.
      Se è così che vanno esaminati i fatti, allora non mi sembra importante che la distribuzione dei VS non si adagi sulla campana gaussiana. Di conseguenza, il confronto tra VS e +3 o -3, in assoluto, non avrebbe senso.
      La sensazione che rimane è che, comunque, si siano fatti passi avanti significativi nella misura della "qualità" rispetto ai precedenti indicatori.
      Un saluto e un ringrazimento speciale per quanto avete voglia di condividere.

    • Francesco Lovecchio says:

      Il matematico di Gedeone GP dice: “Siccome il numero di addendi e’ almeno 40, possiamo ragionevolmente applicare il teorema del limite centrale; per cui la legge di U e’ sempre una gaussiana a media 0 e, avendo diviso per la cosa giusta, varianza 1”
      =====

      40 o 30 è la soglia minima campionaria che viene suggerita nei testi introduttivi di statistica affinché da una distribuzione non normale se ne abbia una normale via il TLC. Tuttavia, quando la distribuzione è molto diversa dalla gaussiana e presenta code molto alte, quel 30 o 40 non è sufficiente. La dimensione campionaria deve essere quindi molto più alta. E questa è l’osservazione fatta “a occhio” da De Nicolao quando confronta medicina e fisica di Brescia e vede che le distribuzioni non “sembrano” normali. Infatti, è noto che se la distribuzione è molto diversa dalla normale, la legge di U non è normale a partire da 40, ma richiede dimensioni maggiori. Per verificare ciò è sufficiente testare la normalità di U, possibilmente con qualcosa di più sofisticato del colpo d’occhio. Fortunatamente ci sono test appositi. Se la distribuzione di U fosse normale (ok, andrebbe messa al negativo), allora Gedeone avrebbe ragione.

  6. Gedeone GP says:

    Caro Giuseppe,
    e allora continuiamo a svicolare, aprendo nuovi fronti e tentando di rivoltare la frittata, stavolta insinuando una mia denuncia grave nei confronti dell’ANVUR.

    Nel merito, tu dici:
    “Questa è una denuncia grave nei confronti dell’ANVUR che nel documento finale avrebbe introdotto indicatori “senza alcuna copertura da parte del Bando” (una scorrettezza che, tra l’altro, sarebbe sfuggita persino a Roars). Per evitare di lanciare accuse infondate, procediamo ad una verifica. Ecco cosa c’è scritto nel bando (http://www.anvur.org/attachments/article/122/bando_vqr_def_07_11.pdf).
    ……..omissis…
    _______________________
    Giacomo:
    Lo so bene che niente sfugge a ROARS. Però stiamo parlando delle valutazioni dei Dipartimenti e del peso della ricerca e quindi dei pesi w (quelli del costo della ricerca) messi dall’ANVUR (vedi Appendice D), senza copertura, né del bando né di nessun ministro. E l’ANVUR correttamene lo dice. Quelli del Ministro, come per altro dici tu, sono quelli del FFO2013 e sono diversi da quelli dell’appendice D.
    Per i Dipartimenti, di cui Occhiuzzi sta parlando, non mi risulta che sia alcun indicatore aggiornato con i pesi w del Ministro. O mi sbaglio? A me non risulta e gli unici indicatori ANVUR sui dipartimenti che potremmo utilizzare, sono quelli, pubblicati in fondo ai vari rapporti di struttura, che contengono i pesi w dell’ANVUR per i costi della ricerca. Immagino che usciranno, ma ancora non li ho visti pubblicati. Li potremmo calcolare, importando i criteri FFO. Andremmo un po’ in crisi perché nel FFO c’è quell’altro indicatore sulle politiche di reclutamento, che io personalmente non saprei bene come riverberare sui Dipartimenti.
    La non copertura del bando (sui pesi w, quelli sul costo della ricerca di cui si discettava) era quindi solo una una constatazione.
    _________________________________________
    Giacomo: è vero non hai mai scritto
    “queste cose, io, le faccio di mestiere, come dimostra il Modello Pozza di Fassa”
    Ma non mi dire che non l’hai fatto capire e -se mi consenti- mai detto.
    __________________________________________
    Giacomo: a parte elencare colpe dell’ANVUR, che francamente non sento mie, non vedo ancora alcun tentativo di rispondere al fatto centrale su cui hai impostato tutto l’intervento (insisto: tu) sui 15 fisici e i 163 medici bresciani. Assistiamo o no alla correzione dell’effetto imbuto mediante l’applicazione del VS? Un sì o un no, per favore.
    Lo so che se anche fosse vero, sarebbe un nulla rispetto alle infinite nefandezze del VS; ma aiuterebbe a capire se almeno su qualcosa ci intendiamo.

    Buona domenica
    Giacomo

    • Giuseppe De Nicolao says:

      G. Poggi: è vero non hai mai scritto
      “queste cose, io, le faccio di mestiere, come dimostra il Modello Pozza di Fassa”
      Ma non mi dire che non l’hai fatto capire e -se mi consenti- mai detto.
      _____________________________
      Insisto: non si virgoletta una frase di cui non si può fornire una fonte verificabile da parte di terzi. Chi legge pensa che io lo abbia scritto o detto in pubblico, il che non è vero. Non è una differenza da poco. Per quanto mi riguarda, non uso le virgolette per affermazioni non verificabili da terzi.
      =============================
      G. Poggi: non vedo ancora alcun tentativo di rispondere al fatto centrale
      _____________________________
      Sto rispondendo ai vari punti, verificando le citazioni che metto tra virgolette, fornendo i link alle mie fonti e, se necessario, caricando anche delle immagini. Arriverà anche la risposta al fatto centrale.

    • Giuseppe De Nicolao says:

      G. Poggi (12:20): “Ricordo innanzitutto a Occhiuzzi, che pervicacemente insiste su questo punto, che l’indicatore IRFD è stato introdotto dall’ANVUR nel suo documento finale senza alcuna copertura da parte del Bando”
      ==================
      G. Poggi (20:03): “Però stiamo parlando delle valutazioni dei Dipartimenti e del peso della ricerca e quindi dei pesi w (quelli del costo della ricerca) messi dall’ANVUR (vedi Appendice D), senza copertura, né del bando né di nessun ministro. E l’ANVUR correttamene lo dice. Quelli del Ministro, come per altro dici tu, sono quelli del FFO2013 e sono diversi da quelli dell’appendice D.”
      ==================
      Insomma, l’indicatore IRFD non spunta dal nulla, dato che era già definito nel bando. Per fare i calcoli, bastava conoscere i pesi da assegnare alle diverse aree CUN. Nel Rapporto finale VQR, l’ANVUR non ha introdotto nuovi indicatori “senza alcuna copertura da parte del Bando”, ma semplicemente non ha indovinato i pesi wj che qualche mese dopo sarebbero stati scelti dal ministro. Nell’Appendice D del Rapporto Finale VQR, l’ANVUR ha discusso quattro diversi modi di assegnare i pesi wj, osservando – correttamente – che la decisione finale era di natura politica e spettava al ministro. Nel Rapporto Finale, l’ANVUR ha tentativamente calcolato IRFD con la tecnica #4, mentre (se interpreto correttamente) il ministro per FFO 2013 ha usato la tecnica #1 (http://attiministeriali.miur.it/media/229998/tabella_ffo_2013.pdf). Certo che se l’ANVUR avesse pubblicato i valori disaggregati IRDi, area per area, chiunque avrebbe potuto ricalcolarsi IRFD con qualsiasi scelta dei pesi wj.
      ==================
      G. Poggi: “Immagino che usciranno, ma ancora non li ho visti pubblicati. Li potremmo calcolare, importando i criteri FFO. Andremmo un po’ in crisi perché nel FFO c’è quell’altro indicatore sulle politiche di reclutamento, che io personalmente non saprei bene come riverberare sui Dipartimenti.”
      __________________
      Concordo: a Sergio Benedetto basta cambiare 16 numeri in un foglio Excel per ottenere indicatori IRFD dei dipartimenti coerenti con le regole usate nella quota premiale di FFO 2013. L’indicatore sulle politiche di reclutamento dipende da un sottoinsieme delle valutazioni IRAS3 dei prodotti presentati da soggetti valutati che, nel periodo 2004-2010, sono stati reclutati dalla struttura o in essa incardinati in una fascia o ruolo superiore. Credo che basti riverberarli sui dipartimenti di appartenenza di tali soggetti.
      È lecito domandarsi perché l’ANVUR non abbia aggiornato gli indicatori IRFD per allinearli alla scelta ministeriale per FFO 2013. Io ho ipotizzato che nemmeno l’ANVUR creda più nei voti VQR da lei calcolati (https://www.roars.it/online/vqr-da-buttare-persino-anvur-cestina-i-voti-usati-per-lassegnazione-ffo-2013/) e che ritenga meno peggio il rappezzo CRUI .
      L’ammissione di un fallimento?
      E se la toppa fosse peggio del buco?

  7. As a sidenote e da appassionato della tassonomia anvuriana, preciso che Suinicoltura è rivista scientifica per area 13 anche nelle recentemente pubblicate liste per la cosiddetta ASN 2013.

  8. Antonio Occhiuzzi says:

    Gedeone GP: “Ricordo innanzitutto a Occhiuzzi, che pervicacemente insiste su questo punto, che l’indicatore IRFD è stato introdotto dall’ANVUR nel suo documento finale senza alcuna copertura da parte del Bando”
    Oltre a quanto già precisato da GDN, trascrivo dal bando VQR la frase “la valutazione finale dei dipartimenti riguarderà separatamente gli indicatori di ricerca, opportunamente integrati per trasformarli in un indicatore unico riferito ai dipartimenti” ossia l’IRFD.
    Essendo la lingua italiana quella che è, Giacomo Poggi ha detto una bugia, e la precisazione serale risulta a tal fine ininfluente. La signorilità dei modi e le interessanti argomentazioni esposte mi fanno propendere per una svista, ma per chiunque altro penserei alla mala fede. Più che pervicacia, si tratta di comprensione di testi scritti, credo. E per amore di verità, gli indicatori “illegittimi”, ossia non introdotti dal bando, sono proprio R e X, quelli sui quali la stampa nazionale, opportunamente imbeccata, ha organizzato l’indegno teatrino dell’estate scorsa.
    Devo anche dire che una certa armonia della prosa, fin qui evidente, ha incontrato una evidente distonia, se non proprio una stonatura, nelle frasi “fra gli sghignazzi di un pubblico affetto dalla tua stessa patologia di supremazia culturale” o “gioioso pubblico adorante”. I frequentatori di questo sito, che spendono tempo per la passione che mettono nel loro lavoro, meritano, se non proprio rispetto, almeno scampoli di buona educazione.

  9. Giuseppe De Nicolao says:

    TERTIUM DATUR?
    _______________
    Consideriamo tutti i dipartimenti di Brescia e confrontiamo la standardizzazione CRUI (voto IPR basato sulla standardizzazione per SSD) con l’indicatore IRFD riportato dall’ANVUR nel Rapporto Finale VQR (che è stato normalizzato tra -0,5 e + 0,5 per facilitare il confronto). Come è possibile vedere nel seguente grafico, c’è una certa discordanza tra l’indicatore ANVUR e quello CRUI.


    Ci sono dei veri e propri “colpi di scena”.

    1. Il Dip. di Specilaità Medico Chirurgiche, che per l’ANVUR era distanziato dai primi due dipartimenti (Scienze Cliniche e Sperim. e Medicina Molecolare), per la CRUI li tallona da vicino.

    2. Ing. Meccanica e Industriale, che secondo l’ANVUR occupava un onorevole quarto posto, diventa maglia nera per la CRUI.

    3. Ing. dell’Informazione, che stava dietro i cugini di Ing. Meccanica e Industriale, non solo approfitta del loro scivolone per superarli, ma si avvicina molto al drappello di testa.

    Sarebbe interessante riuscire a capire quali sono gli SSD determinanti nel sancire questi colpi di scena. Nella maggior parte dei casi, l’analisi è resa difficile dalla mancanza di molti dati, dovuta alla scarsa numerosità dei relativi SSD, i cui indicatori vengono pertanto oscurati per ragioni di privacy. Nel caso del Dip. di Specilaità Medico Chirurgiche, il balzo potrebbe essere stato aiutato dal notevole punteggio (3,01) conseguito da MED/44. Questo exploit è anche legato al fatto che il voto medio del SSD MED/44 è basso (0,37) e la deviazione standard è abbastanza alta (0,44).

    Per quanto riguarda Ing. Meccanica e Industriale, il suo crollo è facilitato dal brutto voto (-3,1) di ING-IND/15.

    È bene ricordare che, se il modello statistico fosse calibrato come si deve, i voti standardizzati sarebbero quasi sempre compresi tra -3 e +3. (per distribuzioni gaussiame la probabilità di uscire da questo intervallo è pari a 2,7 millesimi).

    In un dipartimento dove convivono SSD i cui voti standardizzati sono abbastanza calibrati con altri SSD del tutto scalibrati il voto finale sarà molto sensitivo alla performance negli SSD “scalibrati”. Infatti, negli SSD “scalibrati” è possibile che i voti standardizzato raggiungano valori molto negativi (fino -6,9, come è possibile vedere nel foglio Excel: http://www.anvur.org/attachments/article/609/dati_SSD_29_01_2014%20con%20IPR%20num.xls) o molto positivi (fino a +6,7). Uno scivolone oppure un balzo in uno o più di questi settori diventa decisivo.

    Da questo punto di vista la normalizzazione CRUI è particolarmente fragile ed esposta all’aleatorietà.

    Cosa segue dal confronto ANVUR vs CRUI riportato nel grafico? Ne segue che uno dei due indicatori è sbagliato. Non possono essere entrambi buoni perché sono troppo discordanti. Verrebbe da dire: “tertium non datur”: o l’uno o l’altro. In realtà, non abbiamo alcuna sicurezza che almeno uno dei due indicatori sia adeguato. Alla luce di tutti problemi che affliggono la VQR, c’è anche una terza possibilità: che entrambi gli indicatori siano inadeguati. A occhio, l’indicatore ANVUR è meno instabile. Se poi l’ANVUR aggiornasse gli indicatori IRFD per renderli coerenti al criterio di ripartizione della quota premiale FFO 2013, gli atenei che lo desiderassero potrebbero riverberare sui dipartimenti gli stessi criteri che decidono i soldi provenienti da Roma.
    In realtà, uno degli effetti perversi della VQR è la disincentivazione a costruire e mantenere sistemi di valutazione interna che adottino una risoluzione più fine della grana grossa con cui è fatta la VQR. Si preferisce affidarsi ai numeri forniti dall’autorità esterna (ANVUR) perché è più facile farli acccettare rispetto a valutazioni fatte in casa. ANVUR dixit!
    E però ormai traballa un po’ tutto. La CRUI denuncia la disomogeneità dei voti da SSD a SSD, mettendo in dubbio le valutazioni ANVUR che presumono questa omogeneità. L’ANVUR dà ad intendere di ammettere questo problema fino al punto di ospitare le elaborazioni CRUI sul suo sito. Intanto, si scopre che anche le normalizzazioni CRUI sono frutto di scientometria fai-da-te. Un bel pasticcio.

  10. Gedeone GP says:

    Caro Giuseppe,
    rispondo a te, ma qua e là tento di rispondere ad altri che sono intervenuti.
    Inizio con una precisazione su un aspetto che, pur riportato nel famigerato documento, forse sta fuggendo a molti (e che ho capito essere sfuggito anche a te quando ci siamo sentiti al telefono):
    • Il Gruppo CRUI dedicato allo studio della modalità di valutazione interna (cioè degli Atenei) dei dipartimenti, aveva chiesto all’ANVUR, ben prima dell’uscita dei risultati VQR, che i GEV producessero anche analisi separate per SSD, nella consapevolezza che l’analisi di Area, soprattutto in alcune di esse, non rende sufficiente ragione delle specificità che si annidano al loro interno. L’ANVUR ha acconsentito.
    • Il gruppo CRUI, nel frattempo, ha elaborato l’indicatore Voto Standardizzato (VS), ritenendo che esso presentasse alcuni vantaggi rispetto agli indicatori delineati nel bando. Tale iniziativa non è parsa affatto impropria, visto che la valutazione dei dipartimenti, come è stato ricordato in queste pagine, era sempre stata considerata dall’ANVUR stessa come un mero suggerimento agli Atenei per la ripartizione delle risorse interne (senza specificare di che tipo) e visto che la CRUI rappresenta tutti gli Atenei. Il gruppo, dopo l’uscita dei risultati VQR ha provato a valutare gli effetti del VS sui dati VQR disponibili, necessariamente incompleti per via della privacy, fin dal luglio scorso;
    • Una volta che il Gruppo si è convinto che ne valesse la pena, ha chiesto all’ANVUR la collaborazione per compiere l’analisi completa. Solo l’ANVUR infatti, per via della privacy, li ha potuti calcolare;
    • Non c’è stata quindi alcuna richiesta di soccorso dell’ANVUR alla CRUI, ma piuttosto la disponibilità ANVUR a fare il conto dell’indicatore richiesto;
    • Poi l’ANVUR, in qualche modo a sancire che comunque i dati di dettaglio erano rimasti coperti dalla privacy, ha anche acconsentito di pubblicarli sul suo sito.
    Scusate la lunghezza della precisazione, ma ritenevo necessario far chiaro quali fossero i rapporti intercorsi fra Gruppo CRUI e ANVUR, per sgombrare possibili, strane interpretazioni. Posso solo aggiungere che dal punto di vista umano e tecnico sono stati perfetti.

    Ora vengo a Occhiuzzi: mi scuso se qualcuno si è sentito offeso per il confronto perfido, lo ammetto, con il popolo azzurro. Posso però ricordarti che subito dopo dicevo:
    “Poiché non credo affatto che i visitatori di questo sito siano equiparabili al popolo azzurro che canta “meno male che Silvio c’è” (mi sto facendo dei nemici?) e quindi conto sul loro spirito critico, trovo il tuo recente atteggiamento rischioso per te e per la credibilità del sito stesso.” Quindi se qualcuno si doveva offendere (se non gli piace Silvio) è Giuseppe (buono Giuseppe, stai buono!)
    caro Occhiuzzi, Cerca anche tu di capirmi: infondo mi presto a questo confronto che necessariamente è molto, molto asimmetrico: sono trattato da Giuseppe e da tutti voi come un dilettante allo sbaraglio, prendo palettate di fango da Giuseppe e dagli altri; un lavoro lungo di confronto con colleghi che masticano un po’ di formule e cercano di ragionare, viene liquidato con quattro burlette e sette frasi sferzanti. Mi offro come San Sebastiano agli arcieri di ROAS, chiedo di discutere davvero sull’efficacia o meno di questo benedetto indicatore e cosa ottengo? Praticamente che riparta sempre lo stesso film, tu con gli indicatori ANVUR dei dipartimenti che sembra che qualcuno ti voglia impedire di utilizzare e Giuseppe con suo modello Pozza di Fassa, abortito per volontà sua, ma nei fatti sempre redivivo.
    Cerca di comprendere un piccolo scatto, una piccola cattiveria. Sulla “bugia”, ne abbiamo già parlato. Insisto solo a dire che l’indicatore dei Dipartimenti pubblicato dall’ANVUR è proprio quello da cui il Gruppo CRUI è partito per dire che non andava bene; questa non è una colpa, né una scorrettezza visto che il bando garantiva solo che gli Atenei sarebbero stati liberi di utilizzare tali indicatori, nella loro autonomia.
    Comunque, davvero scusa se ritieni, come evidentemente ritieni, che sia stato maleducato oltre che aggressivo.

    Brevemente anche a Bertoletti:
    “se U(dipartimento reale)>2 allora e’ nel top 2%”, che mi sembra chiarissima. Altrettanto chiaro mi sembra però che la distribuzione dei voti standardizzati dei Dipartimenti effettivi non è gaussiana.
    Ne segue per caso che è possibile che i Dipartimenti classificati dalla procedura proposta dalla CRUI/ANVUR nel top 2% siano il 5% o magari lo 0,5%?
    Se fosse così un piccolo problemino mi sembrerebbe ancora presente …omissis…”

    Vero, come per altro ha detto Giuseppe. A me la faccenda non turba, o meglio può anche turbare, ma questo risultato riproduce fedelmente il modo di operare dei GEV: abbiamo alcuni casi (francamente non molti) in cui assistiamo a valutazioni dei GEV con tendenze alla bimodalità accentuate e estremale (massima frequenza di voti 0 – zero, una coda modesta appena sopra a zero e poi un gruppo consistente di eccellenti; quindi valori medi bassi, attorno a 0.12-0.13 e varianze piccole). Senza arrivare a questi casi estremi, si assise talvolta a valutazioni GEV “manichee”: un gruppo molto buono e un gruppo decisamente inferiore. In tutti questi casi che fare? Il mio turbamento, detto sopra, dipende dal fatto che vorrei davvero sapere se i GEV hanno operato bene, se davvero esiste questa dicotomia nelle pubblicazioni oppure se nasce da altro. Quel GEV ha deciso che quel SSD è composto da due categorie di persone: quelle al top (top dei top) che sono magari il 10% del totale e altre al bottom (il 90%). Davanti a questa situazione, il mio rispetto per i dati (e per i GEV) mi impone di prenderne atto. Giuseppe, fuori dallo scherzo, tende a definire modelli di riferimento e cerca di intervenire sulle valutazioni, aggiustando i parametri, per riprodurre il modello che ha in testa (per l’appunto gaussiano; il che genera confusione con la gaussiana del VS sui dipartimenti virtuali, come ha spiegato il mio amico matematico). Pensando e ripensando all’approccio di Giuseppe, l’unico modo che ho di comprenderlo (perché cerco di comprenderlo, ho davvero qualche problema a ignorarlo) è questo: forse quel modello potrebbe servire per individuare un metodo per introdurre correzioni per una futura seconda VQR, per identificare le patologie. Lo posso capire così. Ma mi rimane il dubbio: perché alla fine, se tutto secondo Giuseppe funzionasse, dovrebbe venire fuori una gaussiana? Sappiamo benissimo che abbiamo Atenei che funzionano (per mille motivi, per carità; fra questi il cronico sotto-finanziamento di alcuni, le tasse studentesche alte e fuori legge di altri, e lo sperpero di risorse di alcuni, la oculata gestione di altri, le scuole accademiche di lunga tradizione, le baronie nei concorsi,….), così come Dipartimenti che funzionano e altri no. Per quale motivo la loro distribuzione, derivante da mille differenze, dovrebbe venire gaussiana con larghezza prevedibile? Non stiamo sommando variabili (come quando costruiamo il VS che allora sui Dipartimenti virtuali deve venire una gaussiana standardizzata): stiamo vedendo, o meglio, vorremmo vedere la distribuzione della qualità della ricerca dei dipartimenti. Per me potrebbe essere tranquillamente bimodale e non sarei turbato; potrei non essere sorpreso a vedere che essa è data dalla somma di due distribuzioni con centroidi differenti e larghezze differenti. E per l’appunto è così: basta –ed è tristissimo- vedere la distribuzione separata NORD – SUD+Isole. Mi fermo, perché anche io ho fatto ripartire il solito film.
    Vero è, perché non si pensi che sia un talebano del VS, che queste patologie o anomalie valutative possono ingenerare effetti non compensabili quando in un dipartimento sono presenti docenti di un certo SSD dove si sono verificate queste forti bimodalità nei voti accompagnate da piccole varianze. I casi particolarmente difficili da compensare sono quelli in cui i due gruppi hanno consistenze molto differenti; se così non fosse le varianze sarebbero grandi e avremmo molto meno problemi (la divisione per la deviazione standard compenserebbe non poco il fenomeno della bimodalità). In termini statistici, le distribuzioni di cui parliamo hanno momenti terzi centrati molto diversi da zero e il povero VS che “uguaglia” le distribuzioni fino al momento secondo centrato mostra qualche cretto. In questo senso ho apprezzato (per questa parte), l’ultimo intervento di Giuseppe. Finalmente discutiamo di qualcosa che ha attinenza con le proprietà e le debolezze dell’indicatore e non di principi primi.

    Ora a Giuseppe.
    Come appena detto, ho apprezzato il tuo ultimo intervento, ancorché non puntuale sul tema dell’articolo (15 fisici e 163 medici a Brescia). Non tutti gli argomenti che porti mi trovano consenziente, ma sicuramente ha il merito di accettare il santo principio del seme del dubbio, per il quale nutro una sfrenata passione. Non perché mi piace dubitare, ma perché se tutti ammettiamo di non avere la verità rivelata, sono certo che riusciamo a discutere.
    Personalmente posso anche andare oltre: sono certo che un tertium esiste e da un po’ ci penso, proprio con riferimento ai casi complicati che tu citi. Ancora non l’ho individuato; ma non escludo che se un giorno, qualora non ti facesse troppo schifo, ci mettessimo davanti ad un tavolino, magari ci potremmo anche riuscire!
    Per essere chiari su un punto specifico: è vero che se in un dipartimento mescoli, in maniera dimensionalmente confrontabile, due SSD caratterizzati da procedure valutative GEV molto differenti, una delle quali porta a voti bassi e forti bimodalilità sugli estremi, il VS finale del dipartimento può soffrire in termini di affidabilità. E’ proprio questa l’indagine che sto facendo sui dati e mi ripromettevo, durante la presentazione che intendiamo fare presso la CRUI in un prossimo futuro, proprio di elencare questi casi (sono pochi e circoscritti, almeno sulla base di quello che ho analizzato finora) in cui è necessaria una attenta indagine del VS di Ateneo a livello di SSD. E l’Ateneo è bene che lo sappia. D’altronde per questo è fornito, ove possibile, il VS di SSD all’interno del Dipartimento. I casi di SSD con bassa numerosità (e quindi non palesabili) influenzano meno il risultato, necessariamente.

    _________________________________________________
    Sui punti specifici:

    Giuseppe: “È bene ricordare che, se il modello statistico fosse calibrato come si deve, i voti standardizzati sarebbero quasi sempre compresi tra -3 e +3. (per distribuzioni gaussiame la probabilità di uscire da questo intervallo è pari a 2,7 millesimi).”

    Giacomo: Rieccoci; vedi quanto detto sopra. La distribuzione sarà quella che sarà. Se il GEV XX ha compiuto valutazioni tali che il 10% di membri del SSD, concentrati su un solo Ateneo, magari in un solo dipartimento (il caso non è particolarmente pindarico) ha meritato tutti E e il voto medio del SSD è 0.12, con una deviazione standard dello stesso ordine, non c’è niente da fare: il VS su quel dipartimento ci darà un valore attorno a 10, cui corrisponde un IPR nel top0.0000…1%. Ovvero il numero di valori di VS sul Dipartimento specchio inferiori a quello ottenuto dal dipartimento reale coincide praticamente con tutti quelli possibili e IPR=0.5 secco. Qindi, nonostante che quei membri siano in un top0.000…1%, restano comunque il 10% del totale dei membri del SSD (per tornare a Bertoletti). Come faccio a far rientrare quei voti in un andamento gaussiano, normale appunto, a meno di non cambiare, forzare, adattare, comunque far violenza ai voti del GEV? Posso, come dicevo sopra, una volta individuato il caso imparare come correggere il tiro la prossima volta, posso studiare cosa imporre alla politica valutativa dei GEV. Ma quelle che sono state le valutazione, sono state.
    Giuseppe:
    “Nel caso del Dip. di Specilaità Medico Chirurgiche, il balzo potrebbe essere stato aiutato dal notevole punteggio (3,01) conseguito da MED/44. Questo exploit è anche legato al fatto che il voto medio del SSD MED/44 è basso (0,37) e la deviazione standard è abbastanza alta (0,44).”

    Giacomo: scusa, ma forse questo è un lapsus. La deviazione standard alta abbassa il valore di VS. Credo che la frase giusta sia “il voto medio basso del SSD esalta il notevole punteggio e vien solo parzialmente temperato dalla deviazione standard abbastanza alta”

    ____________________________________________________________________________________________________________
    Giuseppe. “In un dipartimento dove convivono SSD i cui voti standardizzati sono abbastanza calibrati con altri SSD del tutto scalibrati il voto finale sarà molto sensitivo alla performance negli SSD “scalibrati”. Infatti, negli SSD “scalibrati” è possibile che i voti standardizzato raggiungano valori molto negativi (fino -6,9, come è possibile vedere nel foglio Excel: http://www.anvur.org/attachments/article/609/dati_SSD_29_01_2014%20con%20IPR%20num.xls) o molto positivi (fino a +6,7). Uno scivolone oppure un balzo in uno o più di questi settori diventa decisivo. Da questo punto di vista la normalizzazione CRUI è particolarmente fragile ed esposta all’aleatorietà.”
    Giacomo: vero, come detto sopra. I casi sono sotto osservazione; non sono molti ma esistono e, come ti dicevo, saranno elencati e fatti presenti agli Atenei interessati. Spero che tu convenga che ogni indicatore possiede le sue piccole o grandi patologie; occorre esserne consapevoli e individuarle. Poi, si tratta sempre di trovare un compreomesso. L’analisi fatta dal gruppo CRUI (e espresso bene dall’amico matematico) suggerisce che il VS è meglio degli altri indicatori a disposizione (che, insisto, gli Atenei erano liberi di adottare o no; e quindi di sceglierne altri).
    In generale, comunque, l’utilizzo di IPR tempera abbastanza le anomalie.
    Giuseppe:
    “Cosa segue dal confronto ANVUR vs CRUI riportato nel grafico? Ne segue che uno dei due indicatori è sbagliato. Non possono essere entrambi buoni perché sono troppo discordanti. Verrebbe da dire: “tertium non datur”: o l’uno o l’altro. In realtà, non abbiamo alcuna sicurezza che almeno uno dei due indicatori sia adeguato. Alla luce di tutti problemi che affliggono la VQR, c’è anche una terza possibilità: che entrambi gli indicatori siano inadeguati. A occhio, l’indicatore ANVUR è meno instabile. Se poi l’ANVUR aggiornasse gli indicatori IRFD per renderli coerenti al criterio di ripartizione della quota premiale FFO 2013, gli atenei che lo desiderassero potrebbero riverberare sui dipartimenti gli stessi criteri che decidono i soldi provenienti da Roma.
    In realtà, uno degli effetti perversi della VQR è la disincentivazione a costruire e mantenere sistemi di valutazione interna che adottino una risoluzione più fine della grana grossa con cui è fatta la VQR. Si preferisce affidarsi ai numeri forniti dall’autorità esterna (ANVUR) perché è più facile farli acccettare rispetto a valutazioni fatte in casa. ANVUR dixit!”
    Giacomo
    Sul “tertium”, già detto. E qui ho apprezzato il seme del dubbio. Il terzo forse c’è, ma non sapendo come è fatto, possiamo sospendere il giudizio definitivo?
    La maggior stabilità (apparente) ANVUR dipende, secondo me, dal fatto che esamina le macro realtà di Area e media molto di più dell’analisi di SSD. Come sempre o aumenti la banda passante, col che passa un po’ più di rumore, (caso VS) oppure metti il filtro passa passo (Analisi ANVUR di Area): tutto diviene più smooth, tutto più bigio, più normale, più gaussiano…e rieccoci al punto.
    Sui soldi provenienti da Roma, ne abbiamo già parlato. L’ultimo FFO è stato una vergogna. I MIUR ha usato la VQR non per dare soldi, ma per dire come non ce li avrebbe dati: tutti, praticamente tutti al -5% rispetto all’anno prima.
    L’ultimo tuo punto: accidenti, sono d’accordo con te ancora una volta! A Firenze, abbiamo da quando è Rettore Alberto Tesi (ed io a dargli una mano) costruito un modello che prende i criteri con cui il premiale FFO è stato dato assegnato e li riverbera sul sistema, prima sulle facoltà e ora sui Dipartimenti, analizzando da anni SSD per SSD. Ovviamente aggiunge qualcos’altro; ne abbiamo discusso a lungo e ora lo applichiamo da anni (il delegato alla ricerca del tuo Ateneo lo conosce, perché gli ho fornito dei dettagli). I punti organico del piano straordinario associati sono già stati distribuiti con questo modello, nel quale era sospesa, perché ancora non disponibile, la VQR. Ora cercheremo di utilizzarla, per completare il modello col VS, magari aggiungendo punti organico da cessazioni. Quindi d’accordissimo sulla necessità di metodi sviluppati localmente (sperando che tu non mi impallini anche questi come “fai da te”, “da dilettanti…” e così via).
    _________________________________________________________________________________
    Giacomo
    Ora ritorno al punto principale dell’articolo, ovvero: le differenti valutazioni fisici – medici a Brescia.
    Intanto ti riporto in grafico una distribuzione e due
    correlazioni.


    La distribuzione riporta il VS di tutti I dipartimenti nazionali. Cerca di frenarti e non metterci subito sopra il tuo KO! Sì, è quella. La riporto solo per completezza. Ti ricordo, un po’ malignamente, che aspetto ancora di sapere perché non è centrata su zero. Sono un mascalzone. Comunque è una fesseria, non ti preoccupare. Ininfluente nella nostra discussione.
    La prima correlazione di sotto riporta sull’asse delle X l’indicatore “R medio di dipartimento” (aka IDVA) che non corregge per deviazione standard e quindi neppure per effetto dimensione:


    Ritrovi chiarissima la dipendenza dalla dimensione. Dipartimenti grandi hanno un accesso manifestamente frustrato a valori alti e bassi rispetto a 1 (la normalità). I piccolo viceversa fanno scorribande amplissime.
    Ora riporto la stessa correlazione per il VS, calcolato sugli stessi dati:


    A me pare evidente l’efficacia di VS di rimuovere l’effetto dimensione.
    Proviamo a fare un passo avanti, che forse potrebbe aiutare a trovare una piccolo convergenza su questo punto?
    Puoi rifare le tue simulazioni sulle otto VQR (https://www.roars.it/online/lanvur-la-classifica-degli-atenei-della-vqr-e-la-legge-dellimbuto/) applicando il VS?
    Infondo non ti chiedo altro che verificare se il VS cancella almeno questo effetto.
    Mi pare di meritare una risposta. Credo che aiuterebbe a migliorare la comprensione reciproca, a stabilire che non ho solo detto fesserie dilettantesche (a sessantaquatto anni si ha ancora bisogno di certezze, sopratutto in un ambiente di rottamatori) e aiutare la comprensione di tutti quelli che ci ascoltano.
    Tanto, anche se si dimostra che questo effetto è curato, riuscirai comunque a trovare esempi di piccolo o grandi debolezze dell’indicatore. Ma almeno, su un punto potremmo non dover tornare più sopra. Potremmo cercare di far aumentare il tasso di reale scambio di idee.
    Passo ora ad un approccio schifosamente mellifluo: perché un giorno non ci vediamo davanti a un tavolino e verifichiamo davvero se le divergenze sono tali da esaurirsi in questo (per me estenuante) esercizio bloggistico? Per non escludere nessuro di quelli che ci ascoltano, a me va bene se ci sono anche tuoi fedeli lettori. Io vengo da solo, e disarmato. Oppure tu da me, sempre disarmato. O meglio armato di solo lapis (noi chiamiamo così la matita)
    Buona domenica davvero a tutti, con una promessa: che se non mi provocate, per un po’ non mi riaffaccio
    Giacomo

    PS: spero che Giuseppe mi metta le figure o mi insegni come metterle

  11. Antonio Occhiuzzi says:

    @Gedeone GP
    Sulla questione <> accetto la replica, per me l’episodio può dirsi chiuso.Aggiungo solo che penso che il ventennio appena terminato sia stato uno dei più tristi dell’Italia unificata.
    Nel merito della questione, però, ci tengo a chiarire una cosa. Siamo (gli accademici) abituati ad una sostanziale autoreferenzialità, spesso non ci accorgiamo che quando assumiamo posizioni pubbliche e visibili occorre molta prudenza. So bene che l’IRFD, così come è stato concepito, non è adatto a valutare comparativamente i dipartimenti universitari italiani, non mi devi convincere. Il fatto che lo dica io, uno straordinario di periferia, significa ben poco. Ma se ne ne è convinta la CRUI (“…il Gruppo CRUI è partito per dire che non andava bene…”) lo deve dire a chiare lettere. Il documento che hai redatto avrebbe dovuto avere inizio con le motivazioni che appuriamo ora: la CRUI avrebbe dovuto avere l’onestà intellettuale di dire che questa porzione di VQR era stata mal progettata e mal condotta e che per tale motivo si proponeva un rimedio. E’ un punto fondamentale per la credibilità del nostro sistema. L’ANVUR costa 3 milioni e mezzo di euro l’anno, sottratti al FFO degli atenei statali, ossia ai cittadini italiani, e consta di un board di personalità di primo piano: dall’ANVUR non è accettabile niente che non sia “eccellente”, figuriamoci VQR “accettabili” o “limitate”. Finché non si ammette chiaramente di avere sbagliato, io continuerò a chiedere perché l’indicatore IRFD, costato 3,5 Meuro, non si può utilizzare.

    La medesima prudenza è necessaria quando si esce dal proprio “particolare” e ci si affaccia all’universo mondo.
    Intanto continuo a non capire perché debba essere scontato che “… è più meritevole (cioè meno probabile a realizzarsi) un gruppo di 163 medici con un voto medio 1.37 volte maggiore di quello medio dell’area 06 rispetto a un gruppo di 15 fisici con un voto medio 1.2 volte quello medio di area 02”. Sarebbe meno probabile a realizzarsi se gli outcome di ciascun medico o fisico fossero indipendenti gli uni dagli altri e dalle condizioni al contorno. Ma chi si prende l’onere di proporre criteri di valutazione dell’università italiana non può farlo senza tenere in considerazione l’effettivo stato delle cose. A me sembra ovvio, evidente, lapalissiano che una forte scuola medica di grande tradizione sia avvantaggiata rispetto a una pattuglia di fisici in “avanscoperta”: c’è la scuola, la tradizione, l’organizzazione, le attrezzature che pesano, ovviamente, evidentemente, in modo diverso. Caro Poggi, non posso credere che non converrai nel ritenere scontate queste circostanze: è più probabile che una grande squadra sia più “forte” di una piccola che non il contrario. Trattare la produzione scientifica come fosse il risultato delle estrazioni del lotto non corrisponde alla realtà delle cose nell’università italiana: chi si propone per valutarla, queste cose deve saperle e deve considerarle nei modelli di valutazione.

    Ci dici che da tempo nel tuo ateneo le risorse umane vengono distribuite prendendo in considerazione la qualità della ricerca scientifica. E’una circostanza splendida, ma NON è quello che succede dovunque. Nel mio ateneo le risorse sono state distribuite, fino ad ora, con criteri assai diversi. Solo recentemente, e sull’onda dei risultati della VQR, si sta timidamente affacciando la correlazione qualità della ricerca-distribuzione delle risorse. E’ molto difficile, credimi, introdurre questi concetti in consessi dove non c’è alcuna intenzione di accoglierli. Se poi uno fonda il suo ragionamento su un indicatore descritto come una precisa fotografia della qualità della ricerca, e pochi mesi dopo questa fotografia viene però ritenuta – proprio dal fotografo! – sfocata e male esposta, il ragionamento viene sputtanato e chi è contrario a ogni forma di premialità del merito ha gioco facile a metterci in ridicolo. Allora, in sintesi, poichè si deve ritenere che in CRUI una vaga idea di come siano condotte le università in tutta Italia pure ci deve essere, sarebbe stato necessario utilizzare con prudenza i concetti viceversa “sparati” a fine gennaio. Poiché le partite non si possono giocare a regole variabili, sarebbe stato necessario dire:
    – L’indicatore per i dipartimenti previsto sin dall’inizio dalla VQR non è perfetto ma per ora si usa quello (visto che si è pagato tanto per averlo) e nella PROSSIMA VQR sarà modificato,
    OPPURE
    – L’indicatore per i dipartimenti previsto sin dall’inizio dalla VQR non è perfetto e non può essere utilizzato: nella PROSSIMA VQR sarà modificato.

    Modificare le regole in corso di gioco è una pessima idea: ci sarà comunque qualcuno che si riterrà danneggiato dal cambio e, nel complesso, il sistema della valutazione sarà ancora più screditato.

    Detto questo, apprezzo il tuo metterti in gioco, anche su questo sito, e penso che la valutazione futura dei dipartimenti migliorerà di molto anche grazie al tuo contributo, purché, appunto, si parli di quella futura (ma non tra 100 anni: basta applicare i concetti di cui si stiamo discutendo alle imminenti SUA-RD, che come noto l’ANVUR vuole affiancare alla VQR perché siano effetive da subito).

  12. Gedeone GP says:

    A uupp da Gedeone GP
    Grazie della segnalazione del refuso. Non so se farlo modificare o contare sull’attenzione del lettore.
    E grazie per aver capito quello che da tanto cerco di spiegare.
    Scusa, ma ho visto solo ora il tuo messaggio.

    A Occhiuzzi: 3.5 Milioni non è costato l’indicatore IRFD, ma tutto il resto.
    La proposta CRUI nasce proprio per il rispetto di questo sforzo, come è scritto nelle presentazione fatta alla CRUI, compiuto da tutto il sistema. E’ quindi proprio per non buttare via tutto che nasce la proposta della CRUI. Troppi atenei stavano già rifiutando di applicare il lavoro VQR per il piano associati.
    Sui gruppi di tante persone, la discussione potrebbe essere lunga. Mi limito a dire che Giuseppe DN per primo, e correttamente secondo me, ha notato l’effetto dimensione, ovvero che ai “numerosi” erano preclusi i valori estremi. Poi c’è il fatto che dovendo presentare ognuno 3 lavori non si premia la eccellenza, ma la efficienza. In gruppi piccoli i nulla o poco facenti si nascondono peggio. Poi c’è il fatto che i gruppi grandi sono spesso costituiti da anziani, che spesso hanno tirato i remi in barca (guarda che miseria di votazioni nei dipartimenti n.d.)

    Giacomo

  13. Gedeone GP says:

    Rispondo alla domanda di Lovecchio, sperando di averla compresa (ma credo proprio di sì):

    Sono costretto a parlare un po’ tecnicamente e me ne scuso con i non esperti; d’altronde la domanda è precisa e tecnica; richiede quindi una rsposta adeguata.
    Lovecchio ha ragione a porsi (pormi) questa domanda: proprio per quanto dice Lovecchio mi sono fatto dare dall’ANVUR le distribuzioni (ovviamente anonime) dei voti medi di tutti i membri valutati per ogni SSD (quelle, per intendersi da cui si estraggono le medie e le varianze campionarie di SSD). Mediante simulazioni Montecarlo (10^5 eventi per dipartimento) ho riprodotto tutte le distribuzioni di U sui dipartimenti virtuali di tutti gli 845 dipartimenti italiani e ho calcolato per per ognuno di essi la probabilità P_inf di avere un DVA con votazione inferiore a quella ottenuta dal DR. Ho verificato che la massima differenza fra P_inf estratta dalla distribuzione Montecarlo e P_inf ottenuta dalla gaussiana standardizzata è il 3.5%. Il Dipartimento è quello di Design del Politecnico di Milano: P_inf=0.970745 con il Montecarlo e 0.939532 con la gaussiana standardizzata (U*d=1.516627579).
    Col che mi sono ritenuto soddisfatto e sono andato avanti.
    Sembrerebbe allora inutile aver fatto ricorso al metodo della gaussiana standardizzata per calcolare P_inf e avremmo potuto adoperare sempre il risultato del Montecarlo che calcola “direttamente” tutte le combinazioni di voti possibili. Spero che la ragione sia chiara a tutti: la tecnica Montecarlo non è proprio diffusissima ed è incomparabilmente più complicata e meno trasparente di una chiamata di foglio elettronico (distrib.norm.(U*d,9,1,1), che tutti possono utilizzare. Non solo, ma è anche estremamente più elegante e meno “forza bruta”.
    Infine, se nel documento CRUI avessi detto che tutto si basava su una simulazione Montecarlo, forse nessuno sarebbe stato messo in grado di comprendere quello di cui si parlava e giustamente nessuno mi avrebbe preso sul serio (anche se anche ora…).
    Grazie comunque della domanda, che mi ha permesso di chiarire un punto importante. Per finire, non è sorprendente che l’accordo nei due calcoli sia così buono, ovvero che il Teorema del Limite Centrale sia abbastanza ben soddisfatto: infatti le numerosità tipiche dei dipartimenti sono spesso superiori a 40 (minimo di legge) e soprattutto, anche se le distribuzioni dei voti standardizzati nei vari SSD sono spesso non simmetriche, è pur vero che le code sono sempre necessariamente limitate come estensione, essendo limitato il dominio su cui è definito lo spazio dei campioni.

    GPoggi

Leave a Reply

Sostieni ROARS

Sostieni ROARS