Il 31 gennaio 2014, l’ANVUR ha pubblicato i valori di un nuovo indicatore di Voto VQR, suggerito dalla Commissione Ricerca della CRUI. L’indicatore, applicabile a dipartimenti ed aree, è finalizzato alla valutazione interna agli atenei e dovrebbe garantire la comparabilità tra dipartimenti e aree di uno stesso ateneo. Ma su quali basi poggiano le nuove normalizzazioni? È davvero possibile comparare aree e SSD diversi? I colleghi Peppe e Gedeone ne discutono insieme e notano la violazione della proprietà statistica che dovrebbe garantire la comparabilità. Roars bandisce un premio per chi troverà per primo la causa dell’errore: un posto in prima fila al II Convegno di Roars e una locandina autografata da Peppe e Gedeone.

 

1. Attenti ai Freaks

Peppe stava armeggiando con un tubo di cartone. Aveva già aperto il tappo di plastica ad un’estremità e con cautela cercava di far scivolare fuori un cartoncino arrotolato, quando qualcuno bussò alla porta. Assorto com’era nel suo compito, tardò a dire «avanti!», cosicché non era ancora arrivato alla “i” che un «ciao Peppe» entrò atraverso lo spiraglio della porta spinta dal suo collega Gedeone. L’occhiata che gli lanciò Peppe era più che eloquente, ma Gedeone non la intese e si fermò  nel vano della porta, appoggiato allo stipite, con un fascicolo in mano:

– Cosa c’è in quel tubo? Il manifesto del prossimo congresso a Città del Capo?

– No, non è un congresso, è la locandina di un film del 1932 …

Peppe era da sempre un appassionato dei classici del cinema. Pabst, Lang, Griffith, Capra: potevi decifrare i suoi gusti dalle locandine e dalle foto di scena che decoravano le pareti del suo studio. Gedeone, pur immune all’ossessione cinefila del collega, disponeva di quel’infarinatura che serviva per reggere la conversazione con l’amico e apprezzarne le disquisizioni sui film e sulle memorabilia che ogni tanto acquistava su eBay.

Lulù di Pabst? – tirò ad indovinare Gedeone che conosceva la passione di Peppe per Louise Brooks.

– Guarda che Lulù è del ’29 – replicò asciutto Peppe, che aveva distolto lo sguardo ed era tornato al suo lavoro di lenta estrazione dal tubo.

Mentre Gedeone assisteva in silenzio, Peppe srotolò con cura la locandina stendendola sulla scrivania, che per l’occasione era insolitamente sgombra da pacchi di compiti e fotocopie di articoli.

Il film era “Freaks” di Tod Browning.

2. Diagnosi: “ANVUR positivo”

Gedeone dovette fare mente locale. Stando dietro le spalle di Peppe, si piegò leggermente in avanti per esaminare più attentamente il disegno. Occorsero solo pochi secondi per mettere a fuoco le creature deformi che occupavano la parte destra dell’illustrazione. Solo a quel punto si arrischiò a rompere il silenzio.

– Ah, il famoso “Freaks” di Browning. Una storia raccapricciante, se ben ricordo. I “freaks” vengono trattati come fenomeni da baraccone …

– … ma alla fine avranno la loro tremenda vendetta – proseguì Peppe che si era girato  –  Secondo te lo posso appendere qui in ufficio senza destare troppo raccapriccio negli studenti che vengono qui nell’orario di ricevimento?

– Vai tranquillo. Non è niente in confronto a certe magliette piene di teschi e zombies che indossano i nostri studenti – disse Gedeone che però non vedeva l’ora di passare al motivo della sua visita – Hai saputo del’ultima novità dell’ANVUR?

– Beh, mostruosità per mostuosità, preferisco i freaks di Browning alla bibliometria fai-da-te dell’ANVUR – commentò sarcastico Peppe.

– Sei sempre il solito. Lo sai che io la penso diversamente da te. Te l’ho detto anche ieri, alla fine del tuo seminario sulla scalibrazione dei voti VQR. Con tutta la fatica che abbiamo fatto per raccoglierli, non possiamo perdere l’occasione di utilizzare questi dati anche all’interno degli atenei. Lo ammetto, c’è qualche problema, ma con un po’ di tecnica lo si può superare. Ed è proprio di questo che ti voglio parlare.

– Sono tutto orecchie – replicò Peppe non senza un sorriso a metà tra lo scettico e l’ironico.

– La novità è che è scesa in campo anche la Commissione Ricerca della CRUI. Sono stati bravissimi! Detto in poche parole, hanno trovato la soluzione ai problemi che avevi sollevato nel tuo seminario. Tu avevi detto che i voti di area degli atenei ed anche dei dipartimenti sono tutti sballati perché ogni SSD usa un metro di giudizio diverso. Bene: hanno inventato dei nuovi indicatori che normalizzano i voti VQR compensando proprio gli effetti delle diverse scale di giudizio. È tutto spiegato in questo documento – disse,  agitando il fascicolo che teneva in mano – C’è questa idea geniale del “dipartimento virtuale associato”  che …

– Fammi vedere – lo interruppe Peppe, la cui attenzione si era improvvisamente riaccesa.

Mentre si faceva dare il fascicolo e cominciava a sfogliarlo, il collega continuava come un fiume in piena. Gedeone era sempre stato un entusiasta della valutazione e – orgogliosamente – amava definirsi un soggetto “ANVUR positivo”. Pur ammirando l’abilità tecnica del collega, non ne condivideva lo scetticismo nei confronti di tutto quello che faceva l’ANVUR. “Meglio una cattiva valutazione che nessuna valutazione” era solito dire. Qualche errore e qualche vittima erano un prezzo del tutti accettabile per diffondere una sana “cultura della valutazione” in un ceto accademico autoreferenziale, da sempre abituato a non rendere conto di niente a nessuno.

– Leggi qua: questo è il punto chiave per dare il voto ai dipartimenti – disse Gedeone additando un paragrafo che era stato evidenziato in giallo:

Il metodo che si propone si ispira a quello cui fanno ricorso le Università più prestigiose — tipicamente negli USA — quando chiedono informazioni su un nostro studente che ha fatto domanda per essere ammesso ad uno dei loro corsi: non ci chiedono il voto che gli abbiamo assegnato in un nostro insegnamento, ma piuttosto in quale percentile (top %) della distribuzione dei nostri studenti esso si colloca. Se dichiariamo, dopo aver confrontato il voto che abbiamo assegnato allo studente con la distribuzione completa dei voti dell’insegnamento, che egli si colloca nel top 5%, vuol dire che la probabilità di trovare uno studente migliore di quello (ovviamente secondo il nostro metro di giudizio) è bassa, pari appunto solo al 5%.

– Ma no! Non funziona – lo interruppe Peppe – per farlo, dovresti fare una classifica di tutti dipartimenti dello stesso tipo. Una “mission impossible” perché i dipartimenti sono incomparabili dato che sono diversi gli uni dagli altri per quel che riguarda la loro composizione. E anche gli SSD di un dipartimento fossero tutti interni ad un’area CUN, è ormai chiaro che le scale di giudizio della VQR cambiano da un SSD all’altro. Lo ha mostrato Roars e lo ha ammesso persino l’ANVUR nel suo documento sull’accreditamento dei dottorati, dove anticipa che userà una normalizzazione specifica per ogni SSD …

– … e qui ti sbagli!

disse Gedeone, soddisfatto di poter prendere Peppe in contropiede.

3. Gioco di specchi

Avevano frequentato l’università insieme, massimo dei voti e lode entrambi. Ma mentre Gedeone era un regolarista, meticoloso e diligente, Peppe era sempre stato il più brillante dei due, capace di risolvere in pochi passaggi astrusi temi d’esame attraverso strade che nemmeno il professore aveva previsto. Gedeone si fece restituire il fascicolo e andò a pagina 3 (il numero era stato messo a mano perché il documento originale non era numerato):

 è comodo introdurre, per ogni dipartimento dell’ateneo, un Dipartimento Virtuale o ”Dipartimento Specchio” ad esso Associato (DVA nel seguito): questo è un dipartimento ipotetico (ovvero inesistente ma perfettamente definibile in termini operativi) composto da una distribuzione di membri nei vari SSD identica a quella del nostro dipartimento reale (DR nel seguito).

Durante la mattinata, Gedeone aveva faticato non poco a decifrare queste righe, come pure il resto del documento, zeppo di formule cabalistiche davanti a cui persino i colleghi del Nucleo di Valutazione avevano alzato bandiera bianca. Più volte era stato sul punto di alzarsi e andare a chiedere lumi a Peppe, ma, orgoglioso com’era, aveva stretto i denti. Dopo tre ore di smadonnamenti che avevano allarmato il suo vicino di ufficio, adesso ostentava scioltezza mentre si accingeva a fare la lezioncina a Peppe:

– Vedi, Peppe, con una procedura di randomizzazione, potremmo calcolare tutti i voti che i membri del “Dipartimento Specchio” avrebbero potuto ottenere, estraendoli a caso dall’insieme delle valutazioni nazionali dei rispettivi SSD …

– … ma certo, il concetto è molto simile al “randomizazion test” che è ben spiegato nel classico libro di Box, come si chiamava? … ah eccolo qui: “Statistics for Experimenters: Design, Innovation, and Discovery” – tagliò corto Peppe additando un logoro volume della Wiley con la tipica banda rossa che stava sullo scaffare alla sua sinistra.

Gedeone, si sentiva umiliato, ma fece finta di nulla e proseguì:

– Anch’io ho pensato subito al randomization test – disse mentendo spudoratamente – Il bello, però, è che non c’è bisogno di svolgere estenuanti estrazioni casuali, ma che la distribuzione di riferimento del nostro “Dipartimento Specchio” (a Gedeone questa denominazione che echeggiava i famosi “neuroni specchio” sembrava molto più evocativa  del prosaico “Dipartimento Virtuale Associato”) può essere calcolata mediante una formula semplice semplice. Ed ecco che possiamo dare i voti a tutti i dipartimenti italiani. Vai sul sito dell’ANVUR e segui il link che c’è nelle News.

Peppe seguì il consiglio. In un attimo si era scaricato il file Excel ed aveva cominciato a scorrerlo. Di tanto in tanto, confrontava le intestazioni delle colonne con la terminologia usata nel fascicolo, distogliendo lo sguardo dal video per posarlo sul fascicolo appoggiato sopra il poster di Freaks che, a confronto, era diventato un po’ meno mostruoso.

Passarono pochi minuti durante i quali Gedeone decantava le lodi della Commissione Ricerca della CRUI. Le critiche di Roars – osservava Gedeone – anche quando erano giustificate, avevano sortito pochi effetti pratici. Il fatto che l’ANVUR avesse fatto sue queste nuove normalizzazioni “made in CRUI” dimostrava che bastava un minimo di spirito collaborativo per muoversi finalmente nella giusta direzione e che l’ANVUR era disponibile a dare ascolto alle critiche, ammesso che fossero costruttive.

Ah ecco! Non poteva che essere così! – Peppe, che fino ad un attimo prima era ricurvo sul video, si era appoggiato sullo schienale della sedia, mentre con una spinta dei piedi si era girato nella direzione di Gedeone.

Vedo con piacere che riconosci anche tu la correttezza e l’eleganza di questa soluzione – commentò Gedeone, che era raggiante – Niente più faide tra i dipartimenti per dividersi i posti del Piano Straordinario Associati. Ora che abbiamo una scala di giudizio omogenea in base alla quale possiamo dare un voto a tutti i dipartimenti …

– … omogenea un accidenti! – lo interruppe brutalmente Peppe mentre Gedeone, colto di  sorpresa, per poco non lasciava cadere a terra l’iPhone 5 nuovo di zecca.

– Caro Gedeone, qui ci sono almeno due problemi belli grossi, uno teorico e l’altro pratico, se così si può dire.

4. Il problema teorico

– Cominciamo dal problema più teorico Se ci pensi, il bonus maturità funzionava allo stesso modo e quando si sono viste le conseguenze, è stato precipitosamente abbandonato. Se ti manca una misurazione uniforme sulle diverse scuole, è illusorio pensare di venirne a capo assegnando il bonus solo al top 20% degli studenti in ogni commissione di maturità. Essere nel top 20% di un buon liceo ed essere nel top 20% di un’Istituto professionale sono due cose diverse. C’è il rischio – o addirittura la certezza – che venga negato il bonus a studenti più meritevoli di altri che lo riceverebbero solo perché circondati da un gran numero di  compagni con voti più bassi.

Lo stesso vale per la VQR. Per quale ragione i voti eccelenti dei membri di un settore scientifico in cui l’Italia primeggia anche a livello internazionale dovrebbero contare meno dei voti VQR, magari meno eccellenti, conseguiti in un “settore depresso”? Un dipartimento di ricercatori strepitosi potrebbe essere superato da un altro dipartimento i cui membri sono solo onesti “travet della ricerca”, ma i cui punteggi sono gonfiati perché sono i meno peggio del loro SSD a livello italiano.

– Ma dai! – interruppe Gedeone – Devi ammettere che, se la distribuzione del valore scientifico fosse la stessa in tutti i settori, la normalizzazione CRUI-ANVUR compenserebbe le disparità di giudizio dovute alla scalibrazione dei quadrati bibliometrici. Non credo che ci siano differenze così grandi tra un SSD e l’altro …

– … aspetta: sei proprio sicuro che non ci siano differenze? – riprese Peppe mentre si fiondava sulla tastiera e in men che non si dica apriva il file Excel delle tabelle VQR dell’Area 09, andando a colpo sicuro sulla Tabella 1.11. Peppe era un mago di Excel. Tre colpi di mouse e sullo schermo comparve il seguente grafico.

 

 

– Vedi questo grafico? Per ognuno dei 42 SSD di Ingegneria Industriale e dell’Informazione, mostra quale percentuale dei prodotti VQR sottoposti a valutazione bibliometrica compare nella lista del 5% di articoli che hanno ricevuto più citazioni nel database Web of Science della Thomson Reuters. Come puoi vedere, per due SSD la percentuale dei prodotti “ad alto impatto citazionale” sfiora il 20% e ce ne sono sette in cui la percentuale supera il 15%. Niente male, davvero. E tuttavia, ci sono anche cinque SSD in cui la percentuale di lavori ad alto impatto citazionale è inferiore al 5%. Insomma, ci sono fondate ragioni per ritenere che ci possa essere una sensibile differenza tra i valori in campo. Una situazione analoga a quella del bonus maturità.

– Ma i percentili sono usati anche dalle università USA più prestigiose … – tentò di obiettare Gedeone.

– Non ho dubbi che per gli studenti stranieri guardino i percentili, dato che non hanno alternative più solide. Per l’ammissione degli studenti statunitensi, però, si servono di test standardizzati, proprio per evitare le disparità di trattamento che sto cercando di spiegarti. Hai mai sentito parlare del SAT?

C’è poco da fare. Se le valutazioni sono state fatte su scale non omogenee, ricalibrarle senza poter contare su un riferimento esterno che funga da “metro di Sèvres” è impresa quanto mai ardua. Ci riesci solo se la popolazione misurata si mantiene omogenea quando ci si muove da un gruppo all’altro. Non è così per i maturati quando confronti quelli di una scuola con quelli di un’altra. Temo proprio che accada lo stesso quando confronti i ricercatori di un settore scientifico con quelli di un altro SSD.

5. Caccia all’errore: gara a premi per i lettori di Roars

Gedeone era sempre più mogio, ma trovò la forza per chiedere:

– E quale sarebbe il problema, per così dire, di natura pratica?

– Il problema è che c’è un errore nelle ipotesi statistiche usate per ricavare la normalizzazione – rispose al volo Peppe.

– Ma no! Ho perso un’intera mattinata a ricostruire passo passo tutte le formule. Ti assicuro che non ci sono errori. Stai bluffando! Vorresti farmi credere che in cinque minuti hai pescato un errore che io non ho visto in quattro ore?

– Caro Gedeone, che ci sia un errore te lo posso dimostrare in pochi minuti …

Peppe non se ne rendeva conto, ma era veramente detestabile quando assumeva quel tono a mezzo tra il saccente ed il paternalistico. Il povero Gedeone, però, era troppo affranto per rivendicare il suo diritto a non essere trattato come l’ultimo degli studentelli.

Peppe cominciò a lanciare MATLAB. Mentre, il programma si apriva, ne approfittò per selezionare nel file Excel  la colonna dei voti dei dipartimenti, quelli che nel documento di accompagnamento erano indicati con la lettera U e che nel foglio Excel stavano nella colonna “I”, sotto la dicitura:

voto standardizzato di Dipartimento

Con un rapido copia-e-incolla importò la colonna dei dati in MATLAB, scrisse un paio di righe di codice, ma si fermò prima di eseguirle.

– Caro Gedeone, vedi cosa c’è scritto a pagina 7 del documento tecnico?

Stai bene attento: questa proprietà è la chiave di volta della normalizzazione CRUI-ANVUR. Se questa proprietà non è verificata, la normalizzazione crolla come un castello di carte.

Facciamo una cosa molto semplice: verifichiamo se l’indicatore U è veramente una gaussiana standardizzata. Basta costruire l’istogramma dei voti normalizzati dei dipartimenti. La forma dovrebbe seguire da vicino la  curva a campana della gaussiana standardizzata.

Quando premerò il tasto invio, vedrai due grafici. In quello a sinistra ti mostro come dovrebbe essere fatto l’istogramma. Per ottenerlo ho generato dei dati artificiali distribuiti proprio come una gaussiana standard.

A destra, invece, ti mostro come viene l’istogramma se calcolo gli indicatori U applicando le formule CRUI-ANVUR ai dati della VQR. Se non ci sono errori, il grafico di destra e quello di sinistra dovrebbero essere del tutto simili.

Peppe sapeva essere molto teatrale. Per aumentare la suspense, aspettò una manciata di secondi in silenzio prima di premere il fatidico “invio”.

Senza nemmeno accorgersene, Gedeone aveva trattenuto il fiato. Finalmente, sullo schermo comparvero i due istogrammi.

– Caro Gedeone, come vedi, non siamo certo in presenza di una gaussiana standard. Le ipotesi su cui si basa la normalizzazione non sono soddisfatte dai dati reali.

– Ma come hai fatto a capirlo in pochi minuti? Non è possibile! Tu mi hai preso in giro. Hai passato la notte in bianco a studiare il documento e con me hai fatto finta di vederlo per la prima volta.

– Niente VQR ieri. Ho finito di rivedermi il DVD di C’era una volta in America che mi hai regalato a Natale e, come diceva De Niro, “sono andato a letto presto” – a Peppe piaceva da matti citare le frasi dei suoi attori preferiti – D’altronde, non c’era proprio bisogno di studiare a lungo il documento. È tutto più facile di quanto tu non creda. Quando estrai dei dati da una gaussiana standard, nel 95% dei casi ottieni valori compresi tra -1,96 e + 1,96. Inoltre, solo nel 99,73% dei casi i valori sono compresi tra -3 e +3. Mi è bastato dare una veloce occhiata alla colonna del file Excel per capire che c’era qualcosa che non andava. Troppi valori più piccoli di -2 e più grandi di +2 per trattarsi davvero di una gaussiana standard.

Mi è occorso qualche minuto in più per individuare l’origine dell’errore. La maggiore difficoltà era concentrarmi mentre tu continuavi a decantarmi le sorti magnifiche e progressive di queste nuove normalizzazioni fai-da-te …

– … scusa se ti ho disturbato interruppe stizzito Gedeone – ma quale sarebbe l’origine dell’errore, Peppe? … No, non dirmelo ci voglio arrivare da solo.

– Guarda, mi hai dato un’idea. Domani ho lezione e propongo questa “caccia all’errore” anche ai miei studenti. Tutti gli anni lancio una sfida. Al primo studente che la risolve concedo un bonus sul voto dell’esame. Ero un po’ a corto di idee. Chi l’avrebbe mai detto che anche la CRUI e l’ANVUR potessere tornare utili?

Ma lasciamo da parte questi grovigli scientometrici  e dedichiamoci a qualcosa di più artistico e meno inquietante. Conosci la scena finale di Freaks in cui le creature deformi strisciano nella pioggia per farla finita con i loro aguzzini?


CONCORSO: Al primo lettore di Roars che segnalerà la ragione per cui l’indicatore U non è una gaussiana standard verrà riservato un posto in prima fila al II Convegno di Roars che si terrà il prossimo 21 febbraio a Roma. Inoltre, riceverà in omaggio una locandina del convegno autografata da Peppe e Gedeone.

Suggerimento: leggere attentamente il documento tecnico.

Send to Kindle

72 Commenti

  1. Caro Giuseppe,
    e allora continuiamo a non capirci. Soprattutto dispiace che tu reagisca in maniera scorrelata rispetto alle mie repliche. Dai l’impressione di evitare di dare le risposte che sarebbe legittimo aspettarsi.
    Lascio perdere il discorso del peer-review. Non sapevo di scrivere un articolo.
    Il mio disagio maggiore, ora, è che vedo alcuni interventi che chiedono di capire e che meritano, secondo me, di sapere se è stata detta cosa fondata o meno quando in un battibaleno si è liquidato un lavoro che ha comportato discussioni fra persone non del tutto prive di senno. E non sto invocando il principio di autorità, perché i conti sono tutti lì con le loro spiegazioni. Basta leggerli. Basterebbe, ma non è bastato. Colpa di chi ha scritto in maniera poco chiara. Bene, allora faccio un altro estremo tentativo, approfittando di un neghittoso sabato invernale.

    Parto da un esempio molto semplice, e per questo purtroppo non reale, sperando così di far cogliere i punti che restano fondamentali nei casi reali, decisamente più complicati (dal punto di vista dei conti, non del ragionamento).
    Partiamo dai risultati nazionali VQR di un SSD, detto SSD0, e facciamo un’ipotesi semplificativa, ovvero che esistano tre dipartimenti reali DR1, DR2 e DR3 costituiti solo da membri del SSD0, DR1 con 2 membri, DR2 con 10 membri e DR3 pure con 10 membri (lasciamo perdere la incompatibilità con la legge 240 sulla numerosità dei membri).
    Immaginiamo anche che le valutazioni nazionali del SSD0 abbiano interessato tutti i 1000 membri del settore. La distribuzione delle votazioni sia la seguente: 190 non valutabili (quindi voto = 0) , 10 non hanno presentato alcun prodotto (voto -0.5) , 600 accettabili (0.5), 100 buoni (0.8) e 100 eccellenti (1). Per semplicità di ragionamento tratto i membri e i loro voti medi (se ti fa specie, immagina che si parli di prodotti). Di questo campione si possono calcolare media e varianza campionaria. Per ora, nell’esempio, non servono.
    Soffermiamo la nostra attenzione sugli eccellenti del campione nazionale: la loro incidenza è del 10%.
    I risultati nei nostri tre dipartimenti reali siano :
    DR1: 2 eccellenti
    DR2: 2 non valutabili, 1 accettabile, 3 buono, 4 eccellenti
    DR3: 10 eccellenti.
    Il risultato può essere interpretato in mille modi. Con indicatori più o meno intelligenti per quantificare la valutazione e fare confronti. Tutti gli indicatori dovrebbero possedere la caratteristica di essere crescenti con il voto. Comunque possiamo ancora ritardare l’introduzione degli indicatori, perché si può già dire qualcosa di un po’ più che qualitativo:
    1. DR1 e DR3 paiono, entrambi, due dipartimenti buoni e DR2 non sembra male
    2. DR1 è buono, ma DR3 è molto meglio; DR2 meglio della media nazionale
    3. ….
    Ometto le interpretazioni maliziose ma legittime che porterebbero a sospettare qualche comportamento pregiudizievolmente positivo nei confronti di DR3. Sta di fatto che quelle sono le votazioni assegnate e di queste bisogna parlare. Qui non facciamo ricorsi al TAR Lazio.

    La domanda: è possibile stilare una comparazione fra la qualità dei tre dipartimenti?
    Ecco che a tal fine fanno capolino i famigerati DVA1, DVA2 e DVA3 associati a DR1, DR2 e DR3 (dipartimenti virtuali di dipartimenti reali inventati…).
    L’idea suggerita è quella di popolare a caso i voti dei membri dei tre DVA pescandoli dal monte dei 1000 nazionali; dalla distribuzione ottenuta (puro calcolo combinatoriale – dove è il modello?) si calcola la probabilità, per ognuno dei DVA, di ottenere casualmente una votazione inferiore a quella realmente assegnata dalla VQR ai corrispondenti DR. Migliore è il dipartimento per il quale maggiore è la probabilità di avere per il suo DVA votazioni inferiori; così posso confrontare ogni DR con gli altri. E’ facile perché opero nello stesso SSD e non ho problemi di comparare votazioni di differenti GEV. E’ per i lettori inaccettabile questo criterio? Se inaccettabile, è finita qui; tutto chiaro. Mi piacerebbe sapere perché, ma capisco che non si possa pretendere di sapere tutto.
    Se accettabile, o quanto meno non tale da buttare via tutto subito, andiamo avanti.
    I lettori saranno allora d’accordo che, secondo il GEV di SSD0 che ha esaminato tutti i prodotti, il migliore è DR3, seguito dagli altri due (in quale ordine, mica è chiaro).
    Fin qui non mi paiono discorsi esoterici.
    Completiamo il quadro e finiamo di chiarire la procedura su questo caso ipotetico.
    La necessità del calcolo combinatoriale (sostanzialmente un esercizio sulla multinomiale) nasce solo per DR2; infatti per DR1 e DR3 possiamo conoscere “a vista” la probabilità di avere nei rispettivi DVA delle votazioni diverse e peggiori di quelle ottenute (cioè non Eccellenti):
    P_inf(DR1) = 1 – P_sup(DR1) = 1 – 0.1^2 = 0.99
    P_inf(DR3) = 1 – P_sup(DR3) = 1 – 1^-10 = 0.9999999999 (speriamo di aver messo il numero giusto di nove, sennò si ci porti a discutere di questo e il resto passa in cavalleria (vedi P_value…)

    Un inciso che serve a riprendere una tua contestazione, anzi la prima, quella delle 1:44, ovvero la correlazione: sono forse correlate le estrazioni? Mi rispondi per favore?
    Andiamo avanti.

    A questo punto, tornando ai modelli probabilistici, mi sai dire Giuseppe se questo illustrato rappresenta un modello probabilistico? E’ il calcolo combinatoriale (parolona in questo caso) che fallisce perché la probabilità di avere a caso 10 eccellenti in un dipartimento è 1^-10? Non ti ricorda questo numero quella tua enorme sorpresa dei 10 miliardesimi?
    La conclusione ovvia non è certo che è sbagliato il calcolo della probabilità congiunta, ma che la valutazione VQR non è casuale! Vivaddio! Quel dipartimento secondo la VQR è veramente buono, direi eccezionale, al punto che produrlo a caso è in pratica impossibile. Meglio decisamente di DR1.
    Se ti piace, Giuseppe, ricorrere a test statistici, mettila così: con questo approccio elementare vedi che applicare il test statistico alle votazioni reali dimostra proprio che le valutazioni VQR non sono state compiute a caso (in senso scientifico, non maligno). Lo impari proprio da quanto esse si discostano dalla distribuzione random (nel caso appena esaminato dalla probabilità congiunta). E l’entità del loro scostamento, espresso in termini di probabilità, misura la qualità dei dipartimenti (sempre “modulo correttezza dei GEV, modulo mancanza collocazione internazionale, modulo quello che vuoi”, ma non stiamo parlando di questo). Fa venire in mente, questa osservazione, il tuo “KO” e mi fa un po’ sorridere. Dopo se ne riparla.

    Veniamo al caso di DR2 e del suo DVA2. In questo caso occorre fare il combinatoriale, definire un indicatore (per esempio il voto medio o la somma dei voti sul DR2) e vedere la distribuzione che esso assume sul DVA. Francamente è un po’ uggioso. Un esercizio alla fine del capitoletto sulla multinomiale in un libro di probabilità e statistica. Qui ci soccorre il Montecarlo, col quale possiamo simulare la popolazione del DVA2. Dalla distribuzione così ottenuta e dalla posizione, all’interno di essa, del valore reale dell’indicatore (cioè quello calcolato con i voti ottenuti) calcoliamo la probabilità di ottenere a caso un voto per il DVA2 inferiore a quello reale del DR2. Vorrei sapere, anche qui, quale altro equilibrista della logica aristotelica mi dice che la Multinomiale è un modello probabilistico.
    Ho fatto anche l’esempio di DR2 perché introduce naturalmente ai casi dei dipartimenti reali, che sono davvero più complicati: ci sono più SSD, c’è la variabilità dei GeV, ci sono le varie numerosità di membri e i numeri coinvolti sono molto più grandi. Per lavorare con lo stesso approccio visto prima, allora elementare perché tutto svolto all’interno dello stesso SSD0, non c’è verso, ora occorre fare il Montecarlo. Occorre anche, proprio per svolgere il Montecarlo, definire un indicatore, con la solita prerogativa di essere crescente con i voti all’interno dello stesso SSD, ma con qualche importante caratteristica in più: in particolare la sommabilità con l’indicatore valutato su membri di altro SSD e la conoscenza di alcune proprietà base sul campione. “Eccoci all’acqua” si dice dalle nostre parti: quale è questo indicatore e esso esiste? E’ forse questo il modello probabilistico? Secondo me no: si tratta solo, SSD per SSD, di definire il voto standardizzato (voto-media nazionale)/(s.d. nazionale), che sul campione nazionale del SSD ha media nulla e varianza unitaria, su qualunque SSD. In questa maniera hai introdotto una variabile che tratta simmetricamente tutti i SSD. Ciò è sempre possibile e l’indicatore è perfettamente definito. Onestamente questo poteva essere un punto su cui appuntare l’attenzione per capire meglio quanto legittioma sia tale sommabilità (ma non posso essere io a instillare dubbi, immagino che tu comprenda). Occorre anche definire la normalizzazione di questi voti standardizzati quando si sommano sui membri, per garantire la normalizzazione della variabile Voto standardizzato di dipartimento. E qui schizzano fuori quelle radici quadrate e quelle sommatorie. Anche qui: non c’è alcun modello probabilistico. La scelta di questo indicatore di dipartimento ottenuto come somma, anch’essa standardizzata, di variabili standardizzate, assicura che nel limite di N infinito la variabile è distribuita come una gaussiana standardizzata. E’ questo il modello probabilistico? Secondo me no, al momento si ipotizza solamente che siano verificate le condizioni per cui può valere il TLC.
    Riconosco la necessità, a questo punto, di un test, ovvero l’importanza di verificare mediante Montecarlo, che il numero di variabili che sommo sia sufficientemente grande (i membri dei dipartimenti reali) da garantire, stante la loro distribuzione quasi sempre non simmetrica, il soddisfacimento del TLC.

    Come dicevo anche nell’altro messaggio, il problema vero (questo il test da fare e allora lo sto facendo da quattro mesi e più – non continui…) è proprio vedere quanto ci si sbaglia nel calcolare la probabilità assumendo la validità assoluta del TLC. Su questo, ripeto, mi aspettavo che si appuntassero le critiche, mi si facessero catastrofiche previsioni di scostamenti; personalmente continuo a produrre Montecarlo e non ho ancora trovato significative differenze. Cosa vuol dire “significative” è essenziale, lo so e il mio referee me lo ha ricordato. Sarò esplicito quando avrò completato l’analisi. Ti anticipo però che come puoi ben capire, sapere se la probabilità per un dipartimento di avere DVA peggiori sia 0.990 o 0.994 (l’ordine di grandezza delle differenze) fa poca differenza se –come verrà suggerito nel prossimo aggiornamento del documento (motivato da osservazioni pervenute al Gruppo da vari Atenei e colleghi) si suggerirà, a chi lo richiede, di erogare risorse proprio sulla base di tali probabilità.

    Torno ora a quel “KO” così ostentato che mi ha fatto un po’ sorridere! Tant’è vero che la mia prima replica era impostata in modo faceto.
    Scusa la brutalità, davvero, ma non mi posso trattenere: a me è sembrato che tu vedessi il grafico giusto ma che tu non stessi capendo quello che avevi davanti agli occhi. Ovviamente puoi non credermi, ma quella stessa distribuzione l’ho fatta subito, appena l’ANVUR mi ha prodotto le tabelle che avevo richiesto. Fino ad allora solo stime e Montecarlo, una frustrazione per un fisico sperimentale. Diversamente da te, mi ha rincuorato molto vedere il segnale così chiaro. Il grafico confermava proprio che le valutazioni vere della VQR non erano a caso e contenevano dei segnali; magari polarizzati, ma segnali. Meno mi rallegra (e qui potremmo discutere a lungo e confido che saremmo d’accordo) scoprire quello che comunque si era già visto forse con meno dettaglio di ora, ovvero che se tagli la distribuzione con varie condizioni (NORD/SUD una, la più sgradevole) vedi che si spostano i valori medi e le varianze ancor di più dalla gaussiana standardizzata.
    A questo proposito, ti faccio una domanda io: come mai non hai notato che il valor medio non è zero? Sul campione nazionale totale la matematica mi dice che questo dovrebbe avvenire. Lancio io la gara questa volta?
    Tornando a quella distribuzione mandata al tappeto: è questo forse il fallimento del modello probabilistico? Non è piuttosto il fallimento di una politica nazionale che si protrae da decenni e che lascia morire o vivacchiare il nostro sistema, che ha al suo interno realtà molto, troppo diverse? Pensavate che io volessi dimostrare che la VQR era stata condotta “rigorosamente a caso” in modo da illudere il volgo sciocco che tutti i dipartimenti sono equivalenti, che il sistema nazionale è equilibrato, che il governo può tagliare altri fondi, che non esistono differenze NORD/SUD fra gli Atenei? Che le differenze sono solo casuali? Per ottenere il risultato della gaussiana standardizzata della distribuzione reale dei voti dei dipartimenti nazionali che secondo te avrebbe dovuto appalesarsi sullo schermo, la VQR avrebbe proprio dovuto trattare tutti i dipartimenti come il loro DVA: valutare tutti i prodotti nazionali come ha fatto e poi chiedere al CINECA di distribuire a caso i voti sui dipartimenti: Giuseppe, tu saresti stato costretto a dire che quel grafico rosso era perfettamente compatibile con una gaussiana standardizzata: “OK. Purtroppo questa volta il Gruppo CRUI ha fatto centro!” Capisci che a stento riesco a trattenere altra ironia. Te l’ha detto anche l’amico matematico. Perché non ascolti? Tirem innanz.

    Vorrei finirla, ma le conclusioni non spettano certo a me. C’è però un aspetto su cui mi sento di dover dire ancora qualcosa prima di congedarmi, spero per un bel po’: le discussioni che stiamo avendo hanno interessato, giustamente, non solo noi due, ma anche altri, tutti quelli che hanno seguito e che tu hai anche stimolato a formulare ipotesi, in quella “corrida telematica” alle ore piccole. Dicevi anche che avresti coinvolto i tuoi studenti in un simpatico esercizietto.
    Prova allora a rispondere alle mie repliche, che mi sembrano puntuali, sui temi da te toccati e poi ripresi da me. Non lasciarli cadere nell’oblio, tirando fuori un altro argoment(in)o (ora il P_value, ora il referee, domani cosa?).
    L’amico matematico che mi ha scritto esiste davvero, e –senza ricorrere neppure questa volta al principio di autorità- è matematico di valore, non da strapazzo. Quelli che con me hanno seguito il lavoro non sono imbecilli. E se anche lo fossimo, avremmo tutti diritto di replica. Non credo di essere stato così aggressivo e offensivo da non essere considerato. Se replichiamo sui punti contestati e se parola in proposito non viene più profferita da parte di colui che ha sviluppato la critica, oppure se gli argomenti usati nella replica sono ignorati, che fare? E’ un dibattito? Questo modo di discutere mi sta onestamente un po’ tanto stretto.

    Tutti quelli che hanno seguito la discussione meritano di sapere se quel “KO” è una bufala o no; meritano di sapere se esiste davvero un modello probabilistico sotto o no. Meritano di sapere se quello che ho scritto fin dalla mia prima replica confutava o solo farfugliava, oppure se qualcun altro ha mancato il bersaglio. Non per questione di puntiglio, permettimi, ma proprio per la credibilità del sito cui tu dedichi tanto tempo. Per questo ho cercato di argomentare diffusamente in questo testo sabbatico.

    Non mancheranno, stai tranquillo, altre occasioni per prendere in castagna me o qualcun altro. Ti ho anche suggerito possibili punti critici del metodo e non posso escludere che ne esistano altri che mi sfuggono.
    Datti da fare su quelli, se ti interessa, ma prova anche a dire qualcosa su quello di cui abbiamo discusso.
    Sono sincero quando dico che mi piacerebbe davvero parlarne a quattrocchi, anche a 200 se necessario, purché si voglia davvero capire. Su questo sito, oramai penso di aver detto abbastanza. Spero solo non invano.

    Un caro saluto anche a tutti quelli che leggono
    Giacomo Poggi

    • Giacomo Poggi: “L’idea suggerita è quella di popolare a caso i voti dei membri dei tre DVA pescandoli dal monte dei 1000 nazionali; dalla distribuzione ottenuta (puro calcolo combinatoriale – dove è il modello?) si calcola la probabilità, per ognuno dei DVA, di ottenere casualmente una votazione inferiore a quella realmente assegnata dalla VQR ai corrispondenti DR.”
      ___________________________
      Se si calcola una probabilità siamo di fronte ad un modello probabilistico (il calcolo combinatoriale – non a caso – è uno degli strumenti classici dei primi capitoli dei testi di calcolo della probabilità). Quale modello? Quello che ipotizza che i voti siano ottenuti mediante questa specifica procedura di estrazione casuale.
      Le probabilità così calcolate hanno senso più di quelle calcolate con altre regole? Per rispondere bisogna verificare se il modello è validato ovvero se viene smentito o meno dai dati. La differenza tra gli istogrammi (la figura OK vs KO) mostra che il modello è *nettamente* smentito dai dati.
      È come se un pediatra valutasse i percentili della statura dei bambini italiani usando le curve di crescita dei pigmei. Quelle dei pigmei sono curve di crescita del tutto legittime in astratto (come lo sono anche quelle dei watussi), ma prima di usarle in Italia dovrei validarle sui bambini italiani. Ci sono diverse distribuzioni candidabili (curve di crescita dei pigmei, dei watussi, degli svedesi, dei francesi, ecc.) e non sono tutte equivalenti. Mettendole a confronto con i dati reali, si può cercarne una che non sia smentita dalle osservazioni (per es. le curve di crescita dei francesi potrebbero adattarsi accettabilmente ai bambini italiani).
      Il modello del dipartimento virtuale “made by CRUI” è uno degli infiniti modelli immaginabili, ma purtroppo è smentito dai dati VQR proprio come le curve di crescita dei pigmei sarebbero smentite da uno studio sulle stature dei bambini italiani. La CRUI ha considerato solo le curve di crescita dei pigmei e si è fermata lì senza considerare che ne potevano esistere altre e migliori.
      ===========================
      Giacomo Poggi: “Se ti piace, Giuseppe, ricorrere a test statistici, mettila così: con questo approccio elementare vedi che applicare il test statistico alle votazioni reali dimostra proprio che le valutazioni VQR non sono state compiute a caso (in senso scientifico, non maligno). Lo impari proprio da quanto esse si discostano dalla distribuzione random.”
      ___________________________
      Qui c’è una fallacia logica. Poggi menziona *la* distribuzione random come se ne esistesse solo una. L’esito del test dimostra solo che la *specifica* distribuzione random ipotizzata dal modello DVA “made by CRUI” viene smentita dai dati. Ciò non impedisce che esistano altri modelli probabilistici che se la cavano molto meglio.
      Faccio un esempio. Lavorando sui voti di area degli atenei, la scorsa estate ho esaminato un semplice modello probabilistico della VQR che produce dei voti normalizzati il cui istogramma è confrontato con la gaussiana standard nella seguente figura.


      Non va così male, vero? L’adattamento alla distribuzione teorica non è perfetto, ma almeno non è un KO alla prima ripresa. A occhio, sembra più difendibile del modello DVA “made by CRUI” (mutatis mutandis, il problema è lo stesso). Però, queste cose non si dovrebbero giudicare ad occhio. Allora, ho sottoposto l’insieme di tutti i voti normalizzati ad un test di gaussianità e (purtroppo) ho trovato un p-value inferiore a 0,05. Dato che il p-value risulta inferiore al convenzionale 5%, il test di ipotesi respinge il modello. Forse, c’è ancora qualcosa da sistemare (ci sto lavorando).
      Morale della favola: non è difficile sviluppare modelli probabilistici più realistici del DVA “made by CRUI”, il cui p-value – ricordiamolo – è dell’ordine dei miliardesimi.
      Per chiudere: non è che mi piace ricorrere ai test statistici. Li trovo noiosi, ma mi rassegno ad usarli perché è la procedura standard richiesta dalla comunità scientifica per validare i modelli.
      ___________
      P.S. Il semplice modello probabilistico dell’estate scorsa è definito come segue:


      Il modello, per quanto simile al DVA “made by CRUI”, presenta una differenza sostanziale: i parametri m_j e sigma2_j vengono stimati direttamente in base ai voti medi di area degli atenei y_ij e non sulla base di un presunto modello di estrazione casuale assunto valido senza essere sottoposto a validazione.

  2. ——
    Giacomo Poggi “come mai non hai notato che il valor medio non è zero? Sul campione nazionale totale la matematica mi dice che questo dovrebbe avvenire. Lancio io la gara questa volta?
Tornando a quella distribuzione mandata al tappeto: è questo forse il fallimento del modello probabilistico? Non è piuttosto il fallimento di una politica nazionale che si protrae da decenni e che lascia morire o vivacchiare il nostro sistema, che ha al suo interno realtà molto, troppo diverse? Pensavate che io volessi dimostrare che la VQR era stata condotta “rigorosamente a caso” in modo da illudere il volgo sciocco che tutti i dipartimenti sono equivalenti, che il sistema nazionale è equilibrato, che il governo può tagliare altri fondi, che non esistono differenze NORD/SUD fra gli Atenei? Che le differenze sono solo casuali? Per ottenere il risultato della gaussiana standardizzata della distribuzione reale dei voti dei dipartimenti nazionali che secondo te avrebbe dovuto appalesarsi sullo schermo, la VQR avrebbe proprio dovuto trattare tutti i dipartimenti come il loro DVA: valutare tutti i prodotti nazionali come ha fatto e poi chiedere al CINECA di distribuire a caso i voti sui dipartimenti: Giuseppe, tu saresti stato costretto a dire che quel grafico rosso era perfettamente compatibile con una gaussiana standardizzata: “OK.
    ———
    Concordo perfettamente con Lei!
    Anch´io sono fortemente rincuorata, se capisco bene quindi quanto da Lei scritto, sostanzialmente quello che si dimostra nel “presunto-KO” é che si stanno paragonando e misurando mele e pere e che se si standardizzano le mele e le pere restano mele e pere con una qualche standardizzazione e che quindi la distribuzione non potrà mai essere una Normale a media nulla e varianza 1 altrimenti a livello nazionale vorrebbe dire che sono tutti “Normali” standardizzati, indipendenti e identicamente distribuiti. Se facciamo poi il test d´ipotesi statistico (chiamiamolo Müller!), questo viene banalmente confermato.
    Questo dimostra FINALMENTE che ci sono delle differenze…… era ORA CHE SI DICESSE, siamo diversi, SUD NORD, ALTI BASSI, CON SOLDI SENZA SOLDI, CON LABORATORI SENZA LABORATORI, CON VOGLIA SENZA VOGLIA…… Come faccio quindi a confrontare in modo omogeneo e rigorosamente teorico “mele, pere e banane “ se esse non sono nemmeno standardizzabili al “kiwi normale” perché esse stesse non sono distribuite normalmente? Se dovessi attenermi al controllo della qualità a questo punto direi che avrei un grosso problema a spedire la merce (?) perché non sono in grado di controllarne il processo produttivo e controllarne la qualità generando delle carte di controllo attendibili, esattamente perché voglio mettere sullo stesso piano prodotti e macchine che hanno delle caratteristiche, parametri e misure intrinsecamente diverse. Una volta la macchina mi produce una pera, un`altra la mela e quella dopo ha forma di noce e pure rugosa!
    Il modello che è stato ipotizzato secondo i dati reali non è quello che ri-“specchia” ☺ le mie popolazioni (vedi risposta pigmei – De Nicolao).
    In sostanza è inutile costruire dei castelli di calcoli “bellissimi” su fondamenta di polistirolo.
    Grazie degli stimoli alla discussione, al tentativo di miglioramento del sistema universitario per il bene comune e anche di aiutarci alla sua migliore comprensione.

  3. Caro Giuseppe,
    prendo atto che tu hai studiato un modello che voleva introdurre un voto standardizzato, esaminando atenei e aree cun. Voti medi e sigma sono parametri, come dici tu, “da stimare in base ai dati”. Questo passo mi è stato illuminante (spero che non tanto illuminante da divenire un abbaglio…). Le tue formule sono le stesse delle mie (credo che possiamo convenire su questo), con una differenza fondamentale: tu, dentro le formule, hai parametri da stimare (e quindi la necessità di test del modello). Nelle mie formule non c’è nulla da stimare. Tutto è derivabile direttamente e univocamente dai dati. Da questo punto di vista il mio voto standardizzato è molto meno ambizioso e sofisticato del tuo, ma anche, se mi consenti, più robusto: non devo adattare parametri, non devo fare alcun fit. Prendo solo le medie e le varianza campionarie e cerco solo di rispondere ad una domanda semplice semplice, che nell’esempio banale di ieri è: qual è la probabilità che estraendo a caso dieci membri di SSD0 dal campione nazionale non tutti siano eccellenti (P_inf)? Quando dico random, mi sembrava che si potesse comprendere facilmente, parlo della estrazione a occhi bendati del Martinet o a occhi aperti dal sacchetto della tombola. Questo è il mio modello: l’estrazione a occhi bendati. Conosci altri metodi?
    Tornando alla illuminazione che dicevo: secondo me tu hai visto il voto standardizzato made in CRUI e hai assunto che quel gruppo avesse provato a ragionare come te, magari non altrettanto bene, introducendo modelli, evidentemente sottaciuti ( e che abbia quindi spadellato).
    Non è così: noi nel gruppo abbiamo ragionato diversamente e il nostro voto standardizzato ottenuto dal dipartimento consente di calcolare la probabilità di ottenere, con estrazioni a caso delle votazioni dai sacchetti delle tombole degli ssd, voti standardizzati inferiori nel DVA. Per questo il nostro voto standardizzato non contiene parametri da stimare. E’ univocamente determinato dai dati (insisto univocamente e solo dai dati) e per questo assume la forma non gaussiana che risente di tutte le patologie del nostro sistema universitario italiano. Le probabilità di avere voti standardizzati inferiori sono per me le vere classificazioni dei dipartimenti, come ho detto in molte presentazioni precedenti (senti Alberto Baccini che era a Scienze Giuridiche a Firenze quando a ottobre ho presentato l’idea); ciò sarà ridetto con chiarezza nel prossimo aggiornamento del documento.
    Credo, come ho sempre sostenuto, che una chiacchierata a quattrocchi o dueorecchi vada fatta per non continuare in quella che secondo me sta diventando una noiosa commedia degli equivoci. Per poi magari ritornare in questa più ampia platea per rispetto di coloro che hanno avuto la pazienza di seguirci
    Buona domenica
    Giacomo

    • Caro Giacomo, credo che tu abbia colto il punto. La commissione CRUI ha derivato un modello sulla base di una procedura di estrazione ritenuta paradigmatica ma che non è riscontrata sperimentalmente. Infatti, se bisogna ricalibrare degli score, è fondamentale validare il proprio modello contro i dati reali. Validare il proprio modello è l’unico modo per giustificare una ricalibrazione rispetto ad un’altra.
      Faccio un esempio. Immaginiamo uno studio clinico multicentrico svolto in qualche centinaio di centri clinici sparpagliati in 16 nazioni. Ogni centro clinico arruola un numero diverso di pazienti e restituisce un voto medio (per esempio la riduzione del dolore, se il farmaco è un antidolorifico). Nell’analisi dei risultati, ci si accorge che per ragioni linguistiche e culturali la misura dell’effetto del farmaco (svolta attraverso questionari) è influenzata dalla nazione dove si svolge lo studio. Pertanto, posso comparare i risultati ottenuti nei centri clinici della stessa nazione, ma non quelli di nazioni diverse.
      Il problema di ricalibrare i voti medi per renderli comparabili è del tutto analogo al problema della ricalibrazione delle 16 aree CUN (o alla ricalibrazione dei voti nei diversi SSD). Nessuno tenterebbe una correzione “d’emblée”, che non passa un test di verifica di ipotesi, perché introdurrebbe ulteriori e incontrollabili scalibrazioni capaci di alterare il giudizio finale sul farmaco. Piuttosto, bisogna costruire un modello della scalibrazione e stimarne i parametri in base alle osservazioni.
      Nel modello “Pozza di Fassa 2013” (dal luogo dove è stato pensato, complice una giornata di pioggia), i parametri che caratterizzano la scalibrazione della j-esima area CUN sono m_j e sigma2_j. Ho provato ad applicare la ricalibrazione CRUI ai voti di area per compararla alla ricalibrazione “Pozza di Fassa”. Ecco il risultato.


      Attenzione: sebbene il modello “Pozza di Fassa” sembri molto meglio di quello CRUI, io lo ritengo inadeguato, soprattutto in certe aree. Pertanto, usarlo per ricalibrare causerebbe potenziali ingiustizie legate al diverso grado di violazione delle ipotesi del modello quando ci si muove da un’area all’altra. Per i comuni standard scientifici, il modello CRUI è inutilizzabile.
      ===================
      Questo è il mio modello: l’estrazione a occhi bendati. Conosci altri metodi?
      ___________________
      Tutti quelli definiti dalle infinite leggi di probabilità alternative che posso immaginare. Per esempio, invece che immaginare di estrarre a occhi bendati dei singoli ricercatori (ovvero i loro voti medi sui tre prodotti presentati) potrei introdurre un elemento di “preferential attachment”. Una volta estratto in una sede un ricercatore con un certo voto medio, rendo più probabile l’estrazione di un successivo ricercatore con voto medio simile (effetto “caposcuola scientifico”). In realtà, una volta riconosciuto che lo schema CRUI non è l’unico possibile, conviene muoversi a livello aggregato. Si tratta cioè di trovare una distribuzione plausibile per i voti medi di ateneo (o dipartimento, a seconda della scala dimensionale considerata) in funzione del numero di prodotti attesi.
      ==================
      Chiudo con tre osservazioni:
      1. Disponibilissimo a parlare a quattrocchi degli aspetti tecnici.
      ___________________
      2. Lasciando da parte gli aspetti tecnici, l’effetto “bonus maturità” chiarisce la natura essenzialmente politica di una ricalibrazione automatica: punire i dipartimenti di chi è bravo in settori dove l’Italia primeggia e premiare quelli di chi è il meno peggio in settori dove l’Italia arranca. Intendiamoci: è una politica possibile, ma non è trasparente nasconderla dietro un mare di formule che il 99,9% dei colleghi non è in grado di capire. Sono convinto che evitare di valutare le persone e le strutture con tecnicismi incomprensibili ai più sia una vera priorità etica. Se proprio è necessario (ma lo è?) bisogna portare allo scoperto tutte le ipotesi e le scelte politiche nascoste.
      ___________________
      3. Ogni ateneo deve sapere che la VQR è scalibrata e che non sono possibili confronti tra aree diverse e nemmeno tra SSD diversi. Deve anche sapere che nei settori bibliometrici, il risultato è influenzato dalla percentuale di lavori sottoposti a peer review, percentuale che non ci è nota in forma disaggregata SSD per SSD all’interno dell’ateneo. In queste condizioni, è del tutto ingenuo affidarsi ai voti VQR come ad un novello oracolo. È ben difficile raddrizzare un esperimento che è stato progettato male. Qualche volta è semplicemente impossibile.

  4. La discussione è davvero molto interessante.
    La domanda che voglio fare in base a quello che ho letto in precedenza è la seguente: come si “deriva tutto univocamente dai dati”?
    In generale per quello che ne so, e non è molto, l’analisi esplorativa dei dati campionari aiuta a capire quale modello di variabile casuale si può utilizzare per spiegare il fenomeno oggetto di studio. La scelta di un potenziale modello è necessaria perché consente il calcolo della statistica campionaria di tendenza centrale (la media in s.l.) e la varianza intorno a questa. Successivamente queste statistiche possono servire per stimare i corrispondenti parametri della popolazione dalla quale i dati sono stati estratti. Se i dati in fase esplorativa seguono il modello normale allora la statistica “media” è determinabile mediante la formula della media aritmetica e la varianza come scarto quadratico medio intorno a questo baricentro. Se questo modello non funziona, e ne devo scegliere uno diverso, le statistiche di tendenza centrale e variabilità sono calcolabili in modo diverso.
    Quindi: come si deriva tutto dai dati se dai dati non traggo l’informazione che mi devono dare cioè che modello tendono a seguire?
    Grazie per la vostra attenzione e grazie mille a roars per tutto quello che riesce a fare per aiutarci a capire! Buona domenica anche a voi.

    • Bisogna ipotizzare dei modelli e usare diagnostiche grafiche e statistiche (test di ipotesi, per es.) per decidere quali tenere e quali respingere. Ci vuole anche una buona dose di pazienza e, talvolta, di intuizione/fortuna.

  5. Concordo pienamente.
    Io mi riferivo in particolare alle parole di Gedeone GP, quando dice: “Nelle mie formule non c’è nulla da stimare. Tutto è derivabile direttamente e univocamente dai dati”. Credo che questo sia un punto importante per capire e capirsi.

    • Caro Giuseppe e cari lettori,
      si stanno indubbiamente facendo passi avanti nella reciproca comprensione, ma le vischiosità introdotte da proprie esperienze, approcci e forse weltanschauung (di tutti, per carità) rischiano di farci perdere un sacco di tempo. Sperando che un contatto diretto non degeneri in rissa (bassissima probabilità), cercherò di parlarti.
      A questo punto mi è chiaro che tu hai in mente un approccio che ha lo scopo di far rientrare l’operazione ANVUR all’interno di un modello, immagino con l’intento di dimostrare che non esiste alcun modello teorico coerente e degno di tale nome al quale l’operazione può essere riferita. Il modello Pozza di Fassa ne è un esempio, mi par di capire (ti e mi auguro giornate splendide nell’estate 2014: io sono a Moena. Dalla realizzazione dell’auspicio trarrò doppio vantaggio: tempo e bello e DN lontano da calcoli perversi!).
      Personalmente ho molte meno ambizioni, o meglio se le ho, sono del tutto diverse. In particolare non mi è mai passato per la testa di cercare di far rientrare la VQR in un modello. Già mi riesce poco con i nuclei, figurati se ho bisogno di altre difficoltà. Spero solo, con buona pace di chi ha pensato la VQR, che sia fatta ancora, ma meglio e soprattutto meglio analizzata. So che su questo ci dividiamo: tu vorresti metterci sopra una pietra tombale. Ma lasciamo ora perdere.
      Per me, sempliciotto, la situazione è questa: ci sono stati chiesti dei prodotti scientifici e qualcuno li ha valutati. Magari, come dici tu, male, malissimo. Io sono molto meno negativo. Di certo li hanno valutati i vari GEV in maniera differente. Questo so. Le azioni conseguenti alla valutazione non sono in mano ora all’ANVUR.
      Per me esaminare i dati della VQR, nella posizione di responsabilità che occupo nell’Ateneo, è un obbligo nei confronti della maggioranza dei colleghi, che chiede che se ne faccia un utilizzo per assegnare le risorse. Il MIUR ha adoperato quei dati in un modo molto lontano da quello che considero ottimale per l’ultimo FFO. Il prossimo FFO riutilizzerà quei dati. La SUA-RD pure, per non parlare dei Dottorati. Bene, chi se lo può permettere perché gioca da solo, può anche pensare che la soluzione sia: buttiamo via tutto. Su questo non sono d’accordo, anche solo come membro della Università italiana: se tutti come un sol uomo buttassimo a mare la VQR saremmo distrutti dalla pubblica opinione e affondati definitivamente.
      Nella mia posizione, poi, più semplicemente non me lo posso permettere. Il mio Ateneo mi chiede di usare la VQR per valutare i dipartimenti. Il problema è quello di come procedere. Analizzare i dati è la consegna. Esistono allora indicatori già proposti dall’ANVUR che mi soddisfano? La risposta è no. Altri proposti da altri? Neppure. Non ne vedo.
      Allora, che fare (vecchia domanda)?
      Rispondo anche questa volta un po’ per le lunghe perché vedo colleghi che vogliono sapere e capire (che è un bene impagabile; o meglio pagabile solo cercando di spiegare). Pertanto meritano che tenti di illustrare in maniera organica il mio punto di vista che è molto, molto, molto pragmatico.
      Approfitto anche dell’occasione per far capire che il metodo proposto non è affatto protetto da una cortina fumogena. Molto di quello che mi appresto a dire è riportato nella prima parte del documento forse letto da molti; vale lo stesso la pena di ripassare i vari punti. Matematica, praticamente zero.
      Allora, forza e coraggio:
      1. Innanzi tutto devo trovare un criterio che magari si accompagni ad una matematica non elementarissima, ma i cui fondamenti devono essere comprensibili a qualunque collega, di qualunque formazione; per questo le basi del metodo sono state spiegate sempre ad uditori compositi, dove la presenza di colleghi di discipline scientifiche era nettamente minoritaria. Ho sempre avuto reazioni estremamente positive, che mi hanno incoraggiato ad andare avanti.
      2. Prendo atto che manca l’informazione che consenta di sapere come si colloca una certa area scientifica nel contesto internazionale; lo dico in ogni sede dove posso sperare di avere influenza, covando la speranza che un giorno tale informazione sia disponibile.
      3. Faccio mia la seguente petizione di principio: ogni SSD ha pari dignità di qualunque altro e, a parte il fatto che un giorno mi piacerebbe sapere qualcosa sul punto 2, assumo come criterio generale di valutazione di una aggregazione di M membri dello stesso SSD nella VQR, la probabilità che essi ottengano una votazione inferiore se le loro votazioni fossero state estratte a caso dall’insieme di tutte le votazioni. Il criterio è forse discutibile, banaluccio forse,si può complicare come tu suggerisci (e io dissento). Secondo me questo criterio lo capisce e lo accetta chiunque.
      4. Fisso alcuni vincoli che devono essere soddisfatti: per esempio, la analisi che devo “inventare” deve fare in modo che qualunque procedura porti, nel caso di un Ateneo con dipartimenti tutti fatti da membri dello stesso SSD, al risultato che la erogazione delle risorse avvenga con esiti facilmente comprensibili e equi (in ragione del voto moltiplicato per la dimensione, per esempio).
      5. Parto dai dati, che non tocco, e che considero come campione a disposizione, senza interpretare niente. Posso anche pensare che le informazioni da raccogliere avrebbero dovuto essere altre. Lo posso pensare e dire, ma non serve, se non per correggere un eventuale prossimo esercizio.
      6. Spacco il campione completo per SSD perché la omogeneità di valutazione è meglio assicurata. Questo oltretutto abbimo chiest e ottenuto ai GEV. Qui qualcuno lamenta che una eccessiva disaggregazione rischia di diluire le differenze; secondo me sono più i vantaggi che gli svantaggi.
      7. Vedo che non solo le medie campionarie dei voti, ma anche le larghezze delle distribuzioni (le varianze) sono diverse, passando da un ssd a un altro. Di entrambi gli aspetti devo pertanto tenere conto.
      8. Inoltre, so che devo stare attento a confrontare la qualità di raggruppamenti di dimensioni diverse, ma per questo il criterio espresso al punto 3 mi aiuta strutturalmente.
      9. A questo provo a inventarmi un metodo per aggirare la difficoltà di comparazione fra dipartimenti diversi: il DVA. Ovvero ogni dipartimento ha un suo “riferimento personale” con il quale confrontarsi, e questo è il dipartimento fatto come quello reale, che però immagino di riempire con membri virtuali i cui voti , nei rispettivi SSD, sono pescati a caso dal monte nazionale corrispondente. In questo modo ho aggirato, almeno parzialmente, il problema, perché ogni sottogruppo reale ha un sottogruppo virtuale con il quale confrontarsi.
      10. Questo è stato un concetto apprezzato dai più: esso non supera, ma senz’altro attenua il problema della non confrontabilità fra dipartimenti diversi. Ogni dipartimento ha il suo riferimento naturale. Il confronto finale deriva comunque da tanti confronti omogenei ssd per ssd. Politicamente è stato apprezzato perché semplice e –a mio modesto parere- non grossolano.
      11. Ora l’altro passo fondamentale: un dipartimento è veramente buono se è alta la probabilità che sia sistematicamente migliore del suo DVA popolato a caso sì, ma rispettando, come detto, la suddivisione fra SSD (aspettiamo a definire l’indicatore, perché concettualmente ora non serve). Se è come il DVA medio, è di di qualità media.
      12. Fino a qui non c’è bisogno di matematica. Forse il nostro loico Giuseppe avrà già avuto molto da dire. Per me fin qui le obiezioni sono solo sofismi. O meglio, si può dissentire e ritenere il criterio opinabile. Ma non qualcosa di astruso; complicabile, come tutte le cose, a piacere.
      13. Il problema è ora la scelta dell’indicatore: potremmo prendere R, calcolato SSD per SSD del dipartimento e costruire l’indicatore Rmedio di dipartimento ottenuto come media pesata degli R di settore. E’ quello che nelle mie prime presentazioni chiamavo IDVA (aprile 2013). Ma si può fare meglio (soprattutto la matematica è più elegante e diretta).
      14. L’indicatore ideale, dal mio punto di vista deve soddisfare ad alcuni semplici criteri:
      a. Essere crescente con il voto medio dei membri
      b. Possibilmente essere definibile sul singolo membro, e più importante sull’accorpamento di membri dello stesso SSD nel dipartimento
      c. Sia sommabile sul dipartimento
      d. Tornare a fornire una informazione coerente con R nei casi limite in cui tutti i SSD fossero stati valutati in maniera indiscutibilmente coerente, per esempio se l’Università fosse composta da un unico SSD
      e. Non contenere alcun parametro aggiustabile, ovvero le eventuali diverse scalature dei voti nei vari SSD devono dipendere solo dalla informazione contenuta nei dati.
      f. Siano note e calcolabili le proprietà campionarie della somma di questi indicatori
      15. Infine la proprietà che rende l’indicatore davvero utile: essere tale che il suo valore calcolato sul Dipartimento reale mi consenta di calcolare direttamente la probabilità di ottenere sul DVA valori inferiori.
      16. Emerge allora naturalmente il passaggio da R e dal voto medio tout-court del singolo docente al voto standardizzato: operazione perfettamente definita dal punto di vista matematico, che uniforma le proprietà medie delle votazioni dei vari SSD fino ai momenti secondi. Il voto standardizzato dei veri membri dei vari SSD del dipartimento viene sommato e normalizzato in modo da ottenere il voto standardizzato di Dipartimento.
      17. Dal punto 16 in poi, ma solo da lì, la matematica diventa necessaria. Fino a questo punto, la mia esperienza dice che l’approccio è compreso da chiunque. Chi si sente sguarnito di matematica, ha chiesto lumi e li ha avuti.
      18. Un aspetto ultimo che non va sottaciuto, altrimenti si perde una parte importante, è come mai diventa facile calcolare la probabilità P_inf(U*d) che il Voto Standardizzato dei DVA siano minori di U*d , ovvero quello ottenuto dal dipartimento reale. Il motivo è che il Voto standardizzato di DVA (cioè l’insieme di tutti i valori possibili che il Voto St.zzato può assumere pescando i voti dei membri a caso nei rispettivi SSD) è una variabile gaussiana standardizzata (quindi una funzione matematica nota), secondo le previsione del TLC per un numero infinito di membri. Non essendo infinito il numero di membri, diventa necessario capire quanto lontani siamo dalla forma teorica gaussiane equi ci confortano le verifiche finora fatte con simulazioni Montecarlo.

      Credo che il lettore veda manifestamente che modelli non ce ne sono. Ci sono solo criteri, improntati al riconoscimento di cittadinanza e dignità ad ogni ssd. E c’è il criterio generale che pilota i ragionamenti: una valutazione di un dipartimento è buona se è molto alta probabilità P_inf di ottenerne una peggiore scegliendo a caso i voti dei membri di quel dipartimento (popolando cioè il DVA).
      Proprio P_inf (U*d) è la misura della qualità del dipartimento, non U*d che costituisce unicamente un passaggio intermedio per giungere alla misura vera P_inf.

      A questo punto spero anche che sia chiaro che per me i Voti standardizzati dei Dipartimenti sono per me esattamente quelli che sono: sono quelli che VQR ha assegnato. Non ci voglio fare teorie e non ha modelli da applicare e mettere sotto test. Non avrei proprio idea di che diavolo confronto fare. Le probabilità che emergono sono figlie dirette dell’operazione VQR; mostrano (se ci si crede) le nostre magagne di sistema come fotografate dall’ANVUR, depurate di un po’ di difetti grazie ai voti standardizzati, difetti dovuti a confronti fra grandezze non direttamente confrontabili.
      Il test proposto da te, Giuseppe, cha ha presunto di mandare KO il metodo, il è totalmente fuori luogo. Come tu continui a sostenere che ha significato, io sostengo il contrario. Io capisco perché tu lo vuoi applicare al tuo approccio, perché ora ho capito che hai bisogno di un modello di cui aggiustare parametri; tu non comprendi perché nel mio caso non c’è bisogno di alcun test, credo solo perché non hai compreso quello che propongo di fare.
      Il mio unico test, e lo dico per l’n-esima volta, è solo le verifica di quanto davvero siano gaussiane standardizzate le distribuzioni dei voti standardizzati sui DVA. Ma questo non sembra che interessi.
      Chiudo il sipario con la minaccia a Giuseppe: ti cerco al telefono
      Giacomo Poggi

  6. Premetto che per formazione sono ben lontano dalla statistica ma che per altre ragioni seguo da vicino tutto quello che riguarda la VQR per il mio dipartimento.
    Ho avuto modo di prendere visione dei vari documenti del gruppo di lavoro CRUI e trovo estremamente interessante quanto si sta qui discutendo.
    Premetto anche che condivido pienamente tutto quanto è descritto nella presentazione CRUI e quanto qui riportato da Poggi circa i limiti della VQR per la valutazione dei dipartimenti e la necessità di trovare altri indicatori che possano superare quei limiti.
    Noto anche che si stanno facendo diversi passi avanti nell’individuazione di questi indicatori, visto che sono annunciati degli aggiornamenti.
    Mi sfugge ancora qualcosa però….
    Nella prima presentazione fu individuato il valore IDVA quale possibile indicatore; con la pubblicazione dei dati sul sito ANVUR e nel relativo documento di accompagnamento si dice che si possono utilizzare vari indicatori come ad esempio Δ=(IDVA-1)/σ o il voto standardizzato (con una preferenza per quest’ultimo) poiché “un’analisi condotta su tutti i dipartimenti mostra che, per ogni dipartimento, i valori numerici degli indicatori Δ* d e U* d sono estremamente simili, e quindi forniscono risultati analoghi nel momento in cui sono applicati per confrontare la qualità dei dipartimenti”.
    Io ho provato a stilare delle graduatorie dei dipartimenti del mio ateneo sulla base dei tre indicatori (IDVA, Δ e U) ed ho ottenuto per alcuni dipartimenti dei risultati molto diversi (con spostamenti nella graduatoria relativa di più di 5 posizioni sulla base dell’indicatore prescelto). E’ evidente perciò, dal mio punto di vista, che non ci si possa fidare di graduatorie (soprattutto da chi non riesce a comprendere bene i calcoli alla base) fondate su indicatori annunciati come simili ed invece molto dissimili nei risultati.
    E’ sbagliato confrontare i diversi indicatori?

    • Rispondo solo a questa domanda precisa, anche perché mi consente di dire qualcosa su un paio di aspetti importanti che nella discussione precedente, centrata su aspetti talvolta molto tecnici, sono saltati. Per il resto non ce la faccio, i troppi impegni durante la settimana mi vedranno assente su questo sito. Scusatemi; credetemi, mi costa perché, come si sarà capito, non mio stile sottrarmi al confronto.
      Effettivamente il primo approccio (IDVA-1)/sigma è meno efficiente del voto standardizzato per correggere differenze fra voti medi e varianze nei vari SSD. Avevo sviluppato un ulteriore indicatore, la cui efficienza di correzione era assi superiore,prossima davvero al voto standardizzato (il DELTA’, per quelli che hanno seguito le presentzioni nel gruppo CRUI). La mia frase un po’ sbrigativa sulla coerenza fra DELTA=(IDVA-1)/sigma e il voto standardizzato molto meglio si attagliava a DELTA’ e dal quel contesto è stata frettolosamente importata nel documento pubblicato.
      Comunque: è vero le differenze per DELTA che lei osserva (o meglio: quelle che ho visto io ovviamente su certi casi particolari e immagino siano del tipo di quelle viste da lei) hanno effetto talvolta sulle “classifiche”. Personalmente non ho affatto simpatia per le classifiche (ecco uno dei punti omessi nelle discussioni precedenti): più fini sono, meno ci credo, ovviamente. Quando poi si passa al vero parametro di confronto che secondo me è la solita classificazioni (magari un po’ grossolana) di probabilità di trovare un DVA con indicatore minore, esse in genere si attenuano. Teniamo (anche se non soprattutto; ecco l’altro punto omesso nelle discussioni precedenti) conto del fatto che secondo me (è suggerito qualcosa del genere anche nell’aggiornamente del documento CRUI sul sito ANVUR) che una volta determinata tramite l’indicatore la probabilità di cui sopra, gli interventi dell’Ateneo nel distribuire le risorse dovrebbero confinarsi esclusivamente ai cssi molto buoni identificati con classificazioni ampie (per esempio top 20%, 10%, 5%) perché è giusto che essi abbiano un riconoscimento della loro qualità, non compiere interventi finemente calibrati sulle classificazioni intermedie nei i casi “normali” e intervenire con politiche di intelligente intervento e sostegno per i casi manifestamente non buoni.
      Tutto questo non per sminuire il lavoro fatto, ma solo per insistere su un punto: che l’intento dell’indicatore svilppato è quello di riuscre a conservare il grosso della informazione (robusto sia rispetto ai limiti delle procedure seguite nella fase di valutazione, sia ai limiti -che comunque esistono- di qualnque indicatore proposto ), avere certezza del segnale osservato e non mescolare, come altri indicatori tipo R, che in non pochi casi confondono e scambiano completamente le qualità dei dipartimenti (esempi tipici nell’area 01 matematici e informatici, nell’area 06 chirurghi rispetto a qusi tutti gli altri ssd, nell’area 13 i secs-p e i secs-s).
      Scusate, ora mi metto a lavorare.

  7. Sto seguendo con grande interesse questa discussione: di DN sono un fan (lo vorrei non come ministro, che sembra contare poco, ultimamente, ma come direttore generale del MIUR) e ho molto apprezzato i toni cortesi e pacati di Giacomo Poggi (dico sul serio: per me questi aspetti danno l’esatta connotazione della statura morale e professionale delle persone). Eppure, proprio seguendo la discussione, una serie di aspetti della vicenda trattata, che non mi erano chiari, si sono rapidamente messi a fuoco. Penso da molto tempo che il problema principale dell’ANVUR sia costituito dai membri del consiglio direttivo che hanno avuto il ruolo più significativo nella VQR e nella ASN; le parole di Giacomo Poggi, che appartiene alla medesima area del presidente dell’ANVUR, me ne hanno dato la conferma definitiva. Uno degli aspetti più controversi di VQR e ASN è senza dubbio l’esportazione forzosa di metodi e consuetudini tipiche di alcune (poche) aree scientifiche a tutte le altre. In molti SSD dell’area “fisica”, le pubblicazioni sono essenzialmente lavori su rivista indicizzata con svariate centinaia di autori. In pratica, svariate centinaia di autori scrivono centinaia di articoli nello stesso tempo in cui, in altre aree, due/tre autori scrivono uno/due articoli o un unico autore, in altre aree ancora, scrive un’unica monografia. Le differenti “prassi pubblicistiche” sono in principio parimenti valide (io che predico ai miei allievi e ai miei collaboratori che gli articoli li firma solo chi ha avuto una ben definita e oggettiva parte nella redazione del lavoro su cui si basa l’articolo – può rimanere “fuori” anche l’ordinario di riferimento – ossia io, non mi sognerei neanche di giudicare come si deve o non si deve pubblicare in fisica): tuttavia, anche se hanno pari dignità, le differenti consuetudini non possono essere trattate allo stesso modo. Uniformare il modo di considerare, prima ancora che valutare, la pubblicistica dell’intero scibile umano alle consuetudini della fisica nucleare o a quelle dell’ingegneria delle telecomunicazioni è un’operazione, oggettivamente, poco sensata; ma è quello che viene fatto nella VQR e più ancora nell’ASN. Per quest’ultima, poi, era largamente sufficiente “il filtro” iniziale anti-figli e anti-amanti proposto dal CUN sulla scorta dei suggerimenti delle aree e dei SSD, peraltro applicabile da subito anche alle valutazioni comparative pre-gelmini.
    Le interessanti repliche di Giacomo Poggi mi portano a contrastare gli argomenti che espone in almeno cinque punti.
    1. Modus operandi inaccettabile.
    GP: Il mio Ateneo mi chiede di usare la VQR per valutare i dipartimenti. … Esistono allora indicatori già proposti dall’ANVUR che mi soddisfano? La risposta è no. (9 febbraio 2014 at 21:50).
    Obiezione: Premesso che reputo che la VQR sia stata progettata male e condotta peggio, precisato che le mie 3 pubblicazioni hanno avuto giudizi lusinghieri (2 eccellenti e 1 buono), l’esercizio era comunque dotato di una sua coerenza interna e prevedeva esplicitamente un indicatore “globale” di valutazione dei dipartimenti. Poiché non ci piacciono i risultati che sono venuti fuori, ora rielaboriamo i dati fino a che il risultato diventa quello voluto? Mi sembra francamente una posizione insostenibile. La VQR è oramai stata fatta (male), si può utilizzare “cum grano salis” e con molta moderazione (attesi gli enormi difetti) e si può imparare dall’analisi degli errori come rendere migliore la prossima. Ma cambiare le regole della partita tra il 90° e il fischio finale è un rimedio senza alcun dubbio peggiore del male che vorrebbe curare. O si usa la VQR (incluso l’indicatore globale sui dipartimenti) o la si butta via tutta.
    2. Pretesa universalità di ipotesi personali.
    GP: … assumo come criterio generale di valutazione di una aggregazione di M membri dello stesso SSD nella VQR, la probabilità che essi ottengano una votazione inferiore se le loro votazioni fossero state estratte a caso dall’insieme di tutte le votazioni. … Secondo me questo criterio lo capisce e lo accetta chiunque. (9 febbraio 2014 at 21:50).
    Obiezione: Ma chi lo dice che il criterio lo accetta chiunque? A parte il lessico (“… valutazione della produzione scientifica di una aggregazione di …” suonerebbe molto meglio di “… valutazione di una aggregazione di …” – le persone sono cosa diversa dagli articoli su rivista), il criterio appare sotto molti aspetti irragionevole. In particolare, sembra chiaro a molti (non pretendo a tutti) che la probabilità di cui si parla dovrebbe venire calcolata utilizzando per i dipartimenti virtuali una distribuzione almeno imparentata con quella dei dati sperimentali, altrimenti si può dimostrare tutto e il contrario di tutto ed arrivare, di nuovo, ad un qualunque risultato prefissato.
    3. Esemplificazione del metodo proposto.
    GP: Parto da un esempio molto semplice … sperando così di far cogliere *i punti che restano fondamentali nei casi reali.* … Partiamo dai risultati nazionali VQR di un SSD, detto SSD0, e facciamo un’ipotesi semplificativa, ovvero che esistano tre dipartimenti reali DR1, DR2 e DR3 costituiti solo da membri del SSD0, DR1 con 2 membri, DR2 con 10 membri e DR3 pure con 10 membri … Immaginiamo anche che le valutazioni nazionali del SSD0 abbiano interessato tutti i 1000 membri del settore. La distribuzione delle votazioni sia la seguente: 190 non valutabili (quindi voto = 0) , 10 non hanno presentato alcun prodotto (voto -0.5) , 600 accettabili (0.5), 100 buoni (0.8) e 100 eccellenti (1). … Soffermiamo la nostra attenzione sugli eccellenti del campione nazionale: la loro incidenza è del 10%. I risultati nei nostri tre dipartimenti reali siano :
    DR1: 2 eccellenti
    DR2: 2 non valutabili, 1 accettabile, 3 buono, 4 eccellenti
    DR3: 10 eccellenti.

    per DR1 e DR3 possiamo conoscere “a vista” la probabilità di avere nei rispettivi DVA delle votazioni diverse e peggiori di quelle ottenute (cioè non Eccellenti):
    P_inf(DR1) = 1 – P_sup(DR1) = 1 – 0.1^2 = 0.99
    P_inf(DR3) = 1 – P_sup(DR3) = 1 – 1^-10 = 0.9999999999 (8 febbraio 2014 at 18:17)
    Obiezione: qualche post fa, avevo ipotizzato che si potesse arrivare ai risultati di Poggi con un metodo molto più semplice, direi amatoriale: calcolare il voto medio minimo e quello massimo fra tutti i dipartimenti valutati ed utilizzare come indicatore una proporzione lineare adimensionalizzata al voto massimo. Esemplifico sui dati mostrati da GP:
    DR 1: voto medio 1
    DR 2: voto medio 0,69
    DR 3: voto medio 1
    Indicatore amatoriale per DR 1: 1,00 (contro lo 0,99 proposto da GP)
    Indicatore amatoriale per DR 3: 1,00 (contro lo 0.9999999999 proposto da GP)
    La differenza tra il metodo amatoriale e quello ANVUR-CRUI, sull’esempio proposto da GP, è risibile: se si trattasse di distribuire le quote premiali, l’uno e l’altro metodo comporterebbero differenze di poche migliaia di euro, molto meno di quanto speso dallo Stato per “… quattro mesi di lavoro …” di un professore ordinario. Sicuro che ne valga la pena?
    4. Considerazioni personali trattate come dogmi
    GP: Il risultato può essere interpretato in mille modi. … 2. DR1 è buono, ma DR3 è molto meglio. (8 febbraio 2014 at 18:17)
    Obiezione: in linea generale, dalle mie parti è noto sin dal tardo medio-evo che “fare” ambo al lotto è meno probabile che “fare” cinquina o decina; tuttavia, la realtà universitaria italiana non è rappresentabile mediante concetti elementari di calcolo delle probabilità. Faccio un esempio, il mio. Nel periodo VQR (2004-2010), il mio SSD era rappresentato nel mio dipartimento da me e (per parte del tempo) da un ricercatore. 2 membri del SSD, come il DR1 dell’esempio. I 2 membri hanno tenuto tutti i corsi del SSD (fondamentale nell’ambito dell’ingegneria civile), i corsi di un altro SSD (affine, ma privo di membri nel DR1), seguito tesi, partecipato alle attività di orientamento in ingresso, in itinere e in uscita, contribuito alla gestione del DR1 e, negli spiccioli di tempo libero, si sono potuti dedicare alla ricerca. In un CdL di recente istituzione, però, senza laboratori (si sperimentava in trasferta, elemosinando qualche ora ad amici generosi di altri atenei), scrivendo progetti, procacciandosi risorse senza le quali la ricerca è impossibile. Con mille fatiche si è anche pubblicato qualcosa di dignitoso (giudicato anzi più che buono dalla VQR). Poi mi viene alla mente lo “squadrone”, il DR3, di cui facevo parte prima di venire chiamato dall’ateneo dove lavoro adesso. Laboratori, mezzi, risorse, studenti (bravi, bravissimi) di dottorato, impegno didattico equo (niente a che vedere coi 24 CFU/anno del 2004-2010). Bè, questo esempio (niente affatto raro nel panorama nazionale) dovrebbe potere bastare a chiarire che spesso è molto più difficile fare bene nel DR1 che nel DR3, ossia l’esatto contrario di quanto ritenuto “pacifico” da GP. Nel suo esempio, in moltissimi casi sarebbe vero che DR3 è buono, ma DR1 è molto meglio.
    5. Sulla valutazione dei dipartimenti, e in generale sulla missione dell’Università
    GP: L’Ateneo potrebbe quindi (anzi, dovrebbe) avere la legittima aspirazione di accogliere al suo interno docenti che si collochino nel top X% dei loro SSD. (7 febbraio 2014 at 18:37). … si osservano, lo sappiamo tutti, anche correlazioni forti fra votazioni VQR e latitudine… (6 febbraio 2014 at 16:00) Non è piuttosto il fallimento di una politica nazionale che si protrae da decenni e che lascia morire o vivacchiare il nostro sistema, che ha al suo interno realtà molto, troppo diverse? (8 febbraio 2014 at 18:17)
    Obiezione: Io credo che stia sfuggendo il senso stesso di “universitas studiorum”. Ma prima di illuderci che un numeretto (un indicatore) sia sufficiente a raccontare un fenomeno così complesso, vogliamo prima chiederci cosa ci chiede lo Stato, ossia l’insieme dei contribuenti italiani, in cambio dei circa 7 miliardi di euro che spende ogni anno? Anche in questo caso, appare evidente che l’analisi del proprio particolare faccia perdere di vista i caratteri fondamentali della questione. Non ho nessun dubbio che GP reputi necessario reclutare un ricercatore o un professore che si colloca in un top X% del suo SSD per quanto concerne la ricerca scientifica: sta pensando alla fisica sperimentale, ai suoi esperimenti, alle sue pubblicazioni, al suo h-index e il pensiero è perfettamente coerente. Ma può pensare che la missione dell’Università è anche altro? Che, per esempio, gli Atenei esistono anche perché vi si insegnino delle professioni (mi viene da dire dei mestieri) ad una vasta platea di “utenti”: medici, veterinari, avvocati, notai, magistrati, ingegneri, architetti, economisti, solo per citarne alcuni? Ora, è evidente che lo studio e la ricerca permettono di trasferire le conoscenze più aggiornate ed evolute: ma io, quando spiego ai miei allievi come si dispongono le armature di acciaio nei pilastri di cemento armato in modo che durante un terremoto la gente non muoia, devo essere al top X% del mio settore? Sicuro? O stiamo di nuovo pensando alla fisica nucleare e crediamo di potere estendere quanto di pertinenza di quella materia a tutti i settori dello scibile umano? E chi lavora nell’Università non dovrebbe sentire come un imperativo dovere morale quello di migliorare il Paese, soprattutto alle latitudini dove è evidente che “si corre meno”? E come lo si migliora, tagliando i fondi e concentrandoli dove le cose vanno già più che bene? E ci vogliamo anche chiedere perchè corre meno da quando Cavour, per riparare al dissesto delle finanze sabaude a rischio default, scritturò un mercenario per rapinare il tesoro dello Stato indipendente più florido d’Europa, mascherando la vicenda da evento storico di indipendenza (http://www.ilsole24ore.com/art/finanza-e-mercati/2012-06-30/eurobond-fecero-unita-italia-190357.shtml?uuid=AbDwao0F)?
    Io non sto dicendo che non voglio la valutazione, la voglio e come, ma seria e non fai-da-te.
    Negli atenei del mezzogiorno ci sono familismo e nepotismo che ne compromettono l’efficienza? Bene, esiste un ministero che vigila sull’autonomia degli Atenei: che vigili, che mandi i suoi ispettori a vedere come si svolgono i concorsi e annulli gli atti ritenuti illegitimi.
    Però, veramente, basta fai-da-te e sterili semplificazioni di realtà assai complesse. C’era una parte della VQR che era interessante: l’indicatore IRAS3 sulle politiche di reclutamento. L’ineffabile burocrazia del MIUR ha neutralizzato anche quella, rendendola iniqua ai fini dell’assegnazione della quota premiale corrispondente. Nell’allegato B del decreto sul FFO 2013 a proposito della quota premiale relativa alle politiche di reclutamento si legge la seguente clausola: “L’indicatore finale di ateneo è calcolato come somma pesata degli indicatori IRAS3 delle sole aree in cui la valutazione dei prodotti dei soggetti reclutati (inclusi i passaggi di ruolo interni) dell’ateneo nel periodo 2004 – 2010 è almeno pari alla valutazione media nazionale dei soggetti reclutati (inclusi i passaggi di ruolo interni) dell’area.”
    Significato: un Ateneo che versa in una situazione disastrosa in una certa area CUN recluta un ricercatore/professore bravo che pubblica bene e che contribuisce positivamente alle performance dell’area in quell’ateneo. Partendo da un contesto difficile, il poverino però non tiene il passo dei suoi colleghi reclutati dove quell’area è fortissima. Risultato: l’ateneo verrà penalizzato per avere assunto uno bravo.

    • Cerco di replicare alla parte cha va da: “Penso da molto tempo che il problema principale dell’ANVUR sia costituito …….anche alle valutazioni comparative pre-gelmini”.

      Francamente il solo fatto che qualcuno pensi che io sia un fan degli indicatori e delle loro più sciagurate (e ricole) conseguenze, ovvero le mediane della ASN, mi stupisce e mi conferma che fare estrapolazioni troppo ardite senza aver parlato abbastanza con le persone, sia quanto meno temerario. Al momento giusto ho sepolto Fantoni di mail e argomenti per allontarlo dalla pericolosa china delle mediane. Da questo punto di vista il mio SSD è il paradigma dell’idiozia (ti risparmio i dettagli). Come in tante altre occasioni, non mi è stato dato retta; capita. Sono abituato a farmene una ragione.

      Altra obiezione: “Poiché non ci piacciono i risultati che sono venuti fuori, ora rielaboriamo i dati fino a che il risultato diventa quello voluto? Mi sembra francamente una posizione insostenibile…. o la si butta via tutta.”
      E’ vero che forse ho ricevuto una discreta educazione da bambino i cui effetti evidentemente si fanno ancora sentire, ma non approfittiamone! Questo larvato sospetto che io proponga di far qualcosa che mi fa comodo, aumenta il mio tasso di acidità. Però, per fortuna, è facile verificare, che passare dalla valutazione VQR dei fisici del mio amato dipartimento a quella che propongo io, ci fa solo del male. Ma non mi interessa: se penso che una cosa sia giusta la propongo e se ci riesco la faccio pure.
      Gli indicatori globali della VQR non sono semplicemente applicabili per distribuire risorse non dipendenti dal costo della ricerca. Solo un indicatore legato a qualcosa che è stato chiesto a tutti i membri della nostra comunità complessiva (i tre prodotti) può essere adoperato. Secondo me, ovviamente.
      In un Ateneo generalistica, se non vuoi scatenare guerre infinite e stiracchiamenti di indicatori (del tipo che ricordi più avanti e di cui il MIUR è campione), devi trovare un approccio che accumnuni tutti, in cui tutti si riconoscano.

      Altro punto: “Pretesa universalità di ipotesi personali.”
      Ci vai giù duro, ohibò. Comunque nel merito per me si fa confusione fra quello che è stata la VQR e quello che ci sarebbe piaciuto che fosse. Per è stata quello che è stata: ha valutato indubbiamente certi Atenei meglio di altri. Voglio solo disporre di un indicatore che non sia pesantissimamente polarizzato dalle disomogenità fra SSD. Non ho modelli in testa per interpretare la VQR.

      “Considerazioni personali trattate come dogmi”.
      Mi pare di aver riempito le mie frasi di “secondo me”, “a mio parere”. Tuttavia continuo a sostenere che la distribuzione a caso dei voti nazionali sul DVA, che quindi in ogni DVA andrebbe a riprodurre quella nazionale e li renderebbe tutti uguali e uguali al SSD nazionale è qualcosa che chiunque -se non rifiuta di capire- è in grado di comprendere. Può ovviamente non essere d’accordo, ma non può non comprendere la ragionevolezza dell’approccio. Mi pare così ovvio, che temo che si sia frainteso: distribuire a caso non vuol dire che spalmo su tutti i membri in maniera equiprobabile lo spettro di voti possibili. Le frequenze relative da cui parto sono quelle nazionali. Ma immagino che aveste capito. Non immagino però come non si possa comprendere.
      Quanto al resto, scusa, ma si riusciranno sempre a fare casi personali che dimostrano la non equità di qualunque sistema valutativo.

      “Sulla valutazione dei dipartimenti, e in generale sulla missione dell’Università”
      Ho l’impressione che tu cerchi di rifarmi la predica che ho fatto io l’altro giorno. Guarda che il metodo che propongo io non fa strame degli altri, anzi.
      Tutti avranno un loro un top X% di riferimento; l’indicatre che pare piacerti IRDF1 o come diavolo si chiama, fa viceversa strame di coloro che strutturalmente non possono accedere alle risorse di bandi internazionali.
      Il mio vituperato Voto standardizzato, a Firenze premia Scienze Giuridiche, Lettere e Filosofia, Storia, poi Scienze della Terra, Chimica, Statistica. Butta un po’ giù la Fisica che guadagnava a confrontarsi con l’Area invece che con i SSD e lascia dove sono i dipartimenti messi peggio, dell’Area Tecnologica. Quindi, per favore, evita di malignare a gratis. E scusa se questa volta ho trasceso.

      IRAS3: su un punto sono perfettamente d’accordo con te, ovvero che il MIUR ha utilizzato in maniera assolutamente incomprensibile quell’indicatore, che comunque aveva un enorme difetto, secondo me, come ti dico fra poco. Ho l’impressione che il MIUR l’abbia utilizzato per compensare le botte agli Atenei che con il nuovo metodo usato per il FFO 2013 avrebbero perso troppo rispetto a prima. Non so se te ne sei accorto, ma le politiche di reclutamento sono entrate due volte: una volta nell’indicatore principae e poi anche nel 10% con quello strano ghirogoro che tu citi.
      IL problema dell’indicatore è che nel periodo 2004-2010 non pochi atenei per errate e colpevoli politiche di assunzione hanno subito il blocco del turn-over. Orbene quegli atenei anche se nel periodo 2004-2010 hanno assunto giovani e meno giovani di qualità, si vedono comunque penalizzati molto fortemente semplicemente perché non hanno potuto assumere (l’indicatore contiene a fattore il numro dei reclutati, non solo la loro qualità). Non mi sembra un grande approccio. Penalizzare una volta, bene; ma ripenalizzare non mi sembra una grande idea.
      Detto questo, sono d’accordo che quell’indicatore debba essere tenuto di gran conto, magari con approccio che al solito rispetti le specificità di sdd.
      Basta davvero e buonanotte
      GP

    • @GP
      Intanto, grazie per la replica, interessante come al solito, e che mi fa riconoscere una passione simile a, ma certamente più qualificata di, quella che metto io in questo lavoro. Succede che finiti gli impegni di lavoro e quelli familiari, si arriva un pò tardi a roars e a volte il pensiero si mette a lottare con le palpebre che cadono. Non dovrebbe succedere, ma qualche volta succede di andare sopra le righe: non era mia intenzione nè di malignare né di puntare qualche dito verso alcuno, se ho dato questa sensazione me ne scuso.

      A dire il vero, l’utilizzo che ho fatto della prima persona plurale era inteso proprio a includere tutta la nostra comunità, non ad accusare: chiunque di noi può proporre criteri che ritiene “giusti”, ma quel “giusto” è inevitabilmente affetto dal bias della nostra personale esperienza e del nostro “particolare”.
      Voglio anche chiarire che ho compreso il concetto alla base del DVA, ma il mio dubbio è a monte: perché dobbiamo creare un indicatore dei dipartimenti “post-mortem”? Ho letto con attenzione il bando VQR sin dalla prima stesura in bozza e, pur consapevole delle mancanze da subito segnalate su questo sito, ho “obbedito” alle regole, ho fatto delle valutazioni, ho reperito e scelto la documentazione da sottomettere. Adesso, secondo le regole iniziali, ho una valutazione, mi piaccia o non mi piaccia. Mi sento, credimi, truffato dal fatto che le regole così chiaramente poste sin dal principio debbano essere modificate a giochi fatti perché (queste regole) conducono a risultati ritenuti inaccettabili. Le nuove regole postume che si vuole introdurre porteranno a risultati accettabili per qualcuno e inaccettabili per qualcun altro. E allora, che si fa? Le si cambia di nuovo? No, almeno il buon senso dovrebbe consigliare di fermare subito la giostra. Se la VQR, così come è stata fatta, può essere utilizzabile per qualcosa, la si utilizzi; altrimenti la si archivi e si riparta da zero. L’indicatore sui dipartimenti va bene? Che si utilizzi. Non va bene? Niente VQR per la ripartizione delle risorse nei dipartimenti.

      Non è immobilismo: si può veramente fare qualcosa di diverso. Ad esempio, si potrebbe introdurre un indicatore della tipologia che proponi, magari evoluto sulla scorta delle telefonate che vi siete promessi con GDN, per le SUA-RD che avranno un peso crescente nel tempo rispetto alla VQR fino al prossimo esercizio di valutazione. Non si “tradirebbe” un patto già sancito, ma si ripartirebbe dagli errori per fare meglio. Per la VQR propriamente detta, si potrebbero utilizzare i risultati limitatamente alle “code”, in particolare quella sinistra, per affrontare seriamente il problema degli inattivi.
      Sempre tenendo presente, però, che la realtà è più complessa di quanto riesce a rappresentare un singolo scalare: molti (non tutti, ma molti) degli inattivi sono stati reclutati secondo uno stato giuridico che richiedeva molto poco (ricordi gli obblighi pre-moratti? un corso all’anno e mediamente un’ora al giorno in istituto per i professori, molto meno per i ricercatori) e offriva una retribuzione relativamente modesta (molto minore di quella dei pari grado europei). Adesso, all’improvviso, gli chiediamo di diventare dei giganti della ricerca, ma sempre retribuiti tra 1/3 e 1/2 dei colleghi europei. Con i nuovi reclutati puoi sperare di fare un discorso diverso, facendogli capire (se te ne sei accorto) che le regole sono cambiate e soprattutto (se te lo puoi permettere) facendogli avere una esperienza diretta nelle istituzioni di punta italiane e straniere: ma con i “vecchi” non vedo soluzioni facili.

      Un’ultima considerazione: sarebbe anche ora di evitare, tutti noi, il velo di ipocrisia che rende troppo difficile spiegare le cose in maniera chiara. Da meridionale che ha avuto la ventura di studiare e lavorare in un grande ateneo (prima) ed in uno medio-piccolo (ora), ma anche di laurearsi e di partecipare per un anno alle attività di ricerca di un politecnico superstar (comunemente ritenuto tra i primi 3 nel mondo) vorrei dire per una volta con chiarezza che gli esiti globali della VQR (indicatore IRFS), pur con tutti i loro limiti, hanno evidenziato una differenza tra il centro-nord ed il mezzogiorno imbarazzante, soprattutto per noi, ma perfettamente coerente con il differente contesto socio-economico delle citate parti del Paese. Sulla grande scala non credo che si possa associare questo risultato ai difetti della VQR, le cose stanno sostanzialmente così. Tuttavia, la stessa VQR e i suoi indicatori (IRFD) mostrano, con la medesima chiarezza, che vi sono punte di eccellenza (dipartimenti) distribuite in maniera molto più uniforme sul territorio nazionale: e che in varie, come dire, sottoaree CUN, o se preferite SSD, ci sono molti dipartimenti di atenei meridionali piazzati molto meglio dei loro omologhi centro-settentrionali. A me pare che sia quest’ultima la parte del risultato VQR che “non piace”. Allora, di nuovo e poi prometto di smetterla, o questa VQR ce la facciamo piacere (tutta! – compresi IRFS e IRDS) oppure diciamo che non funziona (tutta!) e la riteniamo inutilizzabile.

  8. Spero che Poggi, disponibile e dotato di autoironia (qualità rara in accademia), trovi qualche scampolo di tempo per partecipare ancora a questa interessante discussione.
    La mia domanda, sicuramente stupida e ingenua, è la seguente.
    Perché confrontiamo il dipartimento effettivo proprio con il DVA popolato a caso? Immagino che, se non si segue una procedura di test come suggerisce DN, ci debba essere una spiegazione forte dell’obiettivo dell’esercizio proposto e che i confronti possibili siano molteplici: oltre il DVA casuale, potremmo costruire un DVA medio, o una distribuzione di DVA tale per cui siano presenti il 10% eccellenti, il 40% buoni/accettabili, il 50% limitati. O un’altra distribuzione qualsiasi.
    Confrontando con una distribuzione casuale, verifichiamo che la composizione del dipartimento non è casuale. Significa questo che esso è buono, cattivo o medio?
    Quello che intendo dire è che la classifica che ne consegue deve avere un obiettivo preciso: vogliamo far migliorare tutti i dipartimenti? Costruiamo un DVA mediano. Vogliamo cancellare i dipartimenti scarsi e premiare solo i dipartimenti top? Confrontiamo con la distribuzione ideale che si vuole raggiungere dove il 10% dei dipartimenti più scarsi saranno cancellati e il 10% dei dipartimenti migliori premiati, ad esempio. Vogliamo rendere uniformi tutti i dip? Confrontiamo con una distribuzione in cui tutti i dip sono uguali.
    Che classifica otteniamo confrontando i DR con i DVA casuali?

  9. Anche il sottoscritto segue con grande interesse questo argomento a causa del ruolo di presidente del comitato di ricerca assegnatomi dal mio Dipartimento. La statistica non è la mia passione e la ‘digerisco’ con qualche difficoltà anche se mi rendo perfettamente conto della sua ineluttabilità in casi come questo. Tuttavia, credo che uno sforzo vada fatto per rendere ‘semplice e commestibile’ il metodo che TUTTI dobbiamo utilizzare. Senza ampia condivisione non abbiamo speranza: nessuno ci crede=nessuno lo applica.
    Vorrei ringraziare Beppe e Gedeone per le loro ‘dotte’ elucubrazioni volte alla ricerca di un metodo ‘equo’ che consenta di valutare i Dipartimenti (e di cui sto beneficiando) ma il mio applauso va ad Antonio Occhiuzzi (vedi sopra) ed al suo indicatore ‘amatoriale’. Il grande vantaggio dell’indicatore ‘amatoriale’ (che rassomiglia molto alla I di ANVUR) è la sua semplicità e (sembrerebbe) anche la sua replicabilità (quando comparato al metodo ANVUR-CRUI). Avevo anche chiesto (vedi post precedenti) che qualcuno mi spiegasse (o mi convincesse) sulla inutizzabilità di I (se esiste), ma evidentemente è sfuggito.
    In conclusione, l’indicatore ‘amatoriale’ (Occhiuzzi) è il mio preferito e riceve tutto il mio apprezzamento sopratutto per la sua semplicità (la virtù degli DEI).
    Buon lavoro a tutti!

  10. @Bruna Bruno e @Marco Diana
    L’indicatore amatoriale è chiaramente una (piccola) provocazione: il DR2 avrebbe un “voto supremo” pari a 0, il che non è ovviamente credibile. L’ho proposto sperando di capire anch’io perché ci si dovrebbe affidare al dipartimento virtuale, così come è stato proposto, quale rimedio a tutti i mali della vqr. Ancora non l’ho capito, sarà un mio limite.
    Però diffido molto di concetti del tipo “… maggiorata di un importo pari al 15 per cento del margine ricompreso tra l’82 per cento delle entrate di cui all’articolo 5 …” (D. Lgs 49/2012). E perché non il 14% dell’83%, oppure il 16% del 81%? Sarò in mala fede, ma mi sa tanto di foglione excel di simulazione con il quale si verifica ex ante che 15 e 82 corrispondano al risultato voluto a priori, travestito da valutazione dell’equilibrio economico degli atenei. Su questo non riesco proprio a passarci: si fanno le regole, si condividono e poi si accettano i risultati; oppure, se proprio si comprende che le regole sono sballate, si butta via tutto e si ricomincia daccapo. E’ francamente inaccettabile organizzare una costosissima VQR, per poi accorgersi che i risultati non ci piacciono, e allora li modifichiamo ex post per arrivare al risultato pre-definito.
    La VQR prevede, sin dalla bozza iniziale del bando, un indicatore globale per i dipartimenti (è l’IFRD, non I). Allora, se la VQR viene ritenuta valida, si utilizza il “suo” IFRD per “misurare” i dipartimenti; se invece la VQR è stata solo un enorme spreco di denaro pubblico, lo si ammette e si ricomincia più seriamente. La versione “bastarda”, lo ripeto, mi sa solo di aggiustamento verso un risultato pre-definito e diverso da quello venuto fuori dalla VQR.
    A GP mi piacerebbe tanto chiedere se ha mai provato a stilare una “classifica” dei dipartimenti post L 240 in base all’indicatore “IRFDx100 / % prodotti attesi sul totale di struttura”, essendo stati, entrambi i dati, resi noti fin da subito dall’ANVUR per tutti i dipartimenti. Mi piacerebbe, veramente, studiare le sue osservazioni sulla correlazione di tale indicatore con la latitudine.

    • L’indicatore IRFD è calcolato sulla base di IRD1 (qualità della ricerca – peso 0,5), IRD2 (attrazione risorse – peso 0,2), IRD3 (internazionalizzazione – peso 0,2). Quindi la metà del peso dell’indicatore è basato su dati comunicati dai singoli atenei e non sono verificabili. A riguardo posso fare un’esempio che mi auguro non si sia tradotto in alcun parametro di qualità della ricerca: l’Università di Trento ha comunicato di lavorare su ben 219 siti archeologici; La Sapienza invece “solo” su 73. Il dato di Trento è assolutamente inverosimile ma nessuno può controllarlo e nessuno sa se sono stati utilizzati gli stessi parametri per indicare i “siti”. Posso quindi solo immaginare, per estensione, cosa voglia dire compiere elaborazioni su dati, molto più complessi e numerosi, comunicati dalle amministrazioni delle singole università senza una adeguata base comune.
      Ma soprattutto il problema principale dell’IRFD comunicato dall’ANVUR è che è contiene il “costo” della ricerca per area. Un capitolo, quest’ultimo, che potrebbe aprire pagine e pagine di discussione.

    • Benissimo, allora torniamo al punto di partenza. La VQR è stata progettata bene?
      E’ stata condotta bene?
      I risultati sono affidabili e verificabili? L’indicatore IRFD può venire utilizzato, come scrive l’ANVUR nel rapporto finale della VQR, “… per ripartire le risorse all’interno della struttura tra i dipartimenti con una modalità che tiene conto sia della qualità della ricerca del dipartimento nelle varie Aree che della consistenza numerica dei soggetti valutati afferenti al dipartimento nelle Aree stesse”?
      Se pensiamo di sì, allora l’indicatore per i dipartimenti c’è già. Se pensiamo di no, vuol dire che la VQR non è utilizzabile a questo scopo, occorre cestinarla e prepararne una migliore.
      Certamente non si può prendere la VQR, “estrarne” qualche porzione ritenuta valida, “scartarne” qualche altra giudicata errata e rimescolare i dati fino a che il risultato diventa quello “giusto”. E’ pericolossissimo: esisteranno tanti risultati “giusti” quanti sono i portatori di interessi e alla fine prevarrà quello del “più forte”. Sarebbe una barbarie.

    • @ac65
      L’esempio che fai non calza: i siti archeologici mi pare che entrino nell’indicatore di terza missione, che è diverso e separato ripetto all’IRFD.

    • @Antonio Occhiuzzi
      L’esempio che fai non calza: i siti archeologici mi pare che entrino nell’indicatore di terza missione, che è diverso e separato ripetto all’IRFD
      =========
      Probabilmente non sono riuscito a spiegare che il mio esempio si riferiva ad altri dati (che conosco bene) e ad altri indicatori, ma voleva semplice mostrare la difficoltà di lavorare sui dati comunicati dagli atenei. IRD2 e IRD3 sono calcolati rispettivamente sui finanziamenti da bandi competitivi e sulla mobilità internazionale dei ricercatori. Entrambi questi dati sono stati comunicati dagli atenei senza la possibilità di operare alcun controllo a livello centrale. Ogni ateneo può aver effettuato differenti interpretazioni su quali fossero i bandi competitivi, quali fossero le tipologie di ricercatori da inserire per il calcolo della mobilità, il tutto condito da disperate ricerche di archivio nel settennio – riuscite o meno – visto che nessuno aveva pensato che questo dato sarebbe stato necessario in futuro.

      In ogni caso tralasciando questa questione marginale….
      La mia opinione sulla VQR è che tutto il lavoro sulle pubblicazioni, per quanto migliorabile in futuro per cercare di superare l’incomparabilità tra valutazione bibliometrica e peer review, si possa e si debba utilizzare. E ben venga il tentativo del gruppo di lavoro della CRUI per cercare di trovare un indicatore che “misuri” i dipartimenti senza i problemi di appartenenza di area e senza l’imposizione di presunti “costi” della ricerca (anche se non ho le competenze per stabilire se quanto fatto finora stia andando davvero in quella direzione). Un indicatore di questo tipo non c’è nella VQR2004-2010, forse si sarebbe potuto provare ad utilizzare l’indicatore IRD1 depurato dal fattore “w” (=costo della ricerca per Area) ma giustamente il gruppo CRUI è andato oltre ponendo al centro dell’attenzione gli SSD.
      Insomma…forse possiamo provare ad evitare di buttare via il bambino insieme all’acqua sporca.

  11. Ecco lo scampolo di tempo serotino e provo rspondere
    La domanda era:

    “Perché confrontiamo il dipartimento effettivo proprio con il DVA popolato a caso?” – seguivano altre sotto-domande.

    Facciamo riferimento al caso particolare, che poi si può generalizzare ai casi reali con le procedure “complicate” che abbiamo visto prima: un solo SSD che a livello nazionale presenta una certa distribuzie di voti: tot E, tot B, ….., per un totale Ntot membri nazionali.
    Se ora ho ND dipartimenti di varia numerosità, tutti composti da membri del solito unico SSD (la somma di tutti membri dei dipartimenti fa Ntot), se immagino di popolarli tutti a caso partendo dalla distribuzione nazionale, otterrò su tutti i dipartimenti (a parte le fluttuazioni statistiche, particolarmente evidenti per i dipartimenti più piccoli, la stessa distribuzione di quella nazionale. Sarebbero cioè (insisto: a parte le fluttuazioni statistiche) tutti di qualità equivalente. E’ una ipotesi molto “democratica”. Una maniera un po’ più semplificata di vederlo, è quello di dire, come dice lei, che in questo modo si attrbuisce al DVA di ogni dipartimento una valutazione pari a quella media nazionale.
    E’ la più equa o meglio la più neutra fra tutte le distribuzioni per il DVA; le altre, comunque uno se le inventi, introducono un modello particolare (da cui pi la necessià dei test… buono Giuseppe). In questo modo, quando tratto tutti i ssd, li tratto tutti alla stessa maniera e non creo pregiudiziali preferenze con la mia procedura. Certo le pregiudiziali ci possono essere e le possono avere create i GEV; ma da questo punto di vista il povero voto standardizzato ci aiuta e non poco perché non conta i voti assoluti, così differenti frr ssd e ssd; fa sempre le differenze rispetto la voto medio e inoltre corregge per le diverse “dinamiche” dei vari GEV. Infatti se i GEV sono stati poco dinamici, dando a tutti voti molto prossimi attorno al voto medio, la divisione per la deviazione stardard (che risulterà piccola) amplifica le differenze rispetto al voto medio e tende a renderle più simili a quelle di SSD con dispersione maggiore. Se per converso, un GEV avessse voluto divaricare al massimo le sue votazioni dividendo in modo manicheo il SSD fra scarsi e eccellenti (magari in maiera non equa) vedrà almeno un po’ attenuata la sua eccessiva dinamica perchè la standard deviation di quel SSD sarà particolarmente elevata e la dinamica del voto standardizzato risulterà compressa rispetto a non dividere.
    Tornando alla distribuzione a caso:
    in questo modo (e così tento di rispondere a quanto dice subito sotto, che non riporto) effettivamente ho a disposizione un riferimento “mediano” (forse tecnicamente questo aggettivo non è il massimo, ma va bene se ci capiamo): nella realtà infatti avremmo dipartimenti che -secondo VQR, per carità- saranno meglio e altri che saranno andati peggio. Se ne vedrà così la colocazione rsipetto al DVA popolato a caso, che funge da riferiment.
    Non ho alterato i dati che sono quello che sono, ma credo di aver introdotto un indicatore che mi permette di vedere la collocazione del mio dipartimento reale.

    GP

    • @GP
      Grazie per lo scampolo di tempo e la spiegazione. Purtroppo sono tonta e non capisco il principio per il quale il confronto con una distribuzione casuale è garanzia di una valutazione democratica o equivalente, e soprattutto perché questo principio sia neutro.
      Mi immagino di rispondere alla domanda:

      Se tutti i Dipartimenti del mondo avessero la stessa composizione del mio dipartimento ma fossero popolati a caso, il mio dipartimento sarebbe – casualmente – buono o cattivo?

      Sono stanca ed è tardi, ma non riesco a capire il senso di questa domanda, il “principio” di neutralità che ne dovrebbe scaturire, l’assenza di un giudizio di valore.
      Confrontarsi con una distribuzione casuale non implica un giudizio di valore?
      Messa in altri termini, ipotizzare che il riferimento “giusto” sia quello casuale significa dire che qualsiasi progetto perseguito in maniera migliore (peggiore) di un progetto fatto a caso sia da premiare (punire). E’ questo un giudizio neutro?
      Non lo so. Vi lascio i miei dubbi.

    • “Se tutti i Dipartimenti del mondo avessero la stessa composizione del mio dipartimento ma fossero popolati a caso, il mio dipartimento sarebbe – casualmente – buono o cattivo?”

      Se ho capito correttamente, è proprio qui che entra il p-value. Se tutti i dipartimenti fossero *veramente* popolati a caso, il mio dipartimento sarebbe – casualmente – buono o cattivo (rispetto alla media). Ma non lo sarebbe significativamente.

      Supponiamo che esistano due tipi di ricercatori: 50% buoni e 50% cattivi. Se i ricercatori fossero *veramente* assegnati a caso nei dipartimenti, il mio dipartimento avrebbe la stessa probabilità di essere > della media e < della media (e notare, e questa è la ragione della randomizzazione, che questa probabilità è indipendente della gandezza del dipartimento!). Se i ricercatori fossero *veramente* lanciati a caso queste differenze di voti *non* sarebbero significative (e la distribuzione dei voti tenderebbe alla gaussiana).

      Ovviamente i ricercatori non sono lanciati a caso (altrimenti che bisogno ci sarebbe di valutare i dipartimenti?). Questo significa che ci sono dipartimenti che hanno valutazioni *significativamente* più alte o basse rispetto a quanto aspettato da un'assegnazione casuale.

      Se lancio due monete 100 volte e ottengo 45 volte testa con la prima moneta e 57 volte testa con la seconda, le due monete sono diverse?
      Se lancio due monete 100 volte e ottengo 6 volte testa con la prima moneta e 98 volte testa con la seconda, le due monete sono diverse?

  12. Piccoli danni imprevisti.
    I “voti standardizzati” si sono già diffusi in ogni dove.
    Poiché nell’immaginario collettivo il voto minimo è 0, la comparsa dei -1 e -2 ha dato il via al pubblico sbeffeggiamento di interi SSD a livello di ateneo.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.