Misure e qualità: pubblicato il 21.08.2015 su http://www.alfonsofuggetta.org/
Misure e qualità
di Alfonso Fuggetta
Nel corso delle discussioni sul tema del valore e qualità delle università italiane avviato a valle degli articoli sulle “lauree utili”, alcuni colleghi e commentatori hanno mosso forti critiche all’articolo di ROARS che proponeva una “controclassifica” rispetto a quella proposta da ARWU (nota come classifica di Shanghai). La critica è stata ben espressa da un collega economista secondo il quale “ è assurdo pensare che l’Università di Ferrara possa essere meglio di Princeton”.
Pur non facendo parte di ROARS, mi pare di poter dire che questa interpretazione del lavoro fatto da ROARS sia forzata, sbagliata e anche un po’ paradossale. Provo ad argomentare affrontando il tema da due punti di vista: tecnico e “politico/strategico”.
1. Aspetti tecnici
1.1 Significatività
La critica di molti colleghi è che l’indicatore usato da ROARS – Expense per ARWU point = Operating Expenses / Total ARWU score (cioè costo complessivo diviso punteggio ARWU) – sia sbagliato e fuorviante, come spiega, per esempio, l’amico Thomas Manfredi in questo articolo.
L’output di una università non sono i punti di una classifica, ma la conoscenza trasmessa agli studenti, che si traduce in salari futuri in grado di giustificare l’investimento intrapreso.
Ma questo è esattamente il punto di ROARS! L’articolo di ROARS, in modi per certi versi paradossali (ma non troppo …), voleva stigmatizzare il vizio italiano (e non solo) di banalizzare o semplificare in modo eccessivo i problemi. Non è ROARS ad aver stabilito una classifica di qualità sul base del punteggio ARWU: l’ha fatto ARWU! E non è certo ROARS che sulla base di tale punteggio ha per l’ennesima volta criticato e giudicato negativamente le università italiane.
Il punto è proprio questo: ARWU ha arbitrariamente definito una metrica di qualità di un ateneo e sulla base di quella metrica ha stabilito un ordinamento. È un metodo usato anche in altri campi ed è un metodo che presenta vantaggi e svantaggi. Ci tornerò con calma in un altro post anche se ne avevo già brevemente parlato qui e qui a proposito della “classifica dei blog”, sollevando proprio il tema rilanciato da Thomas: cosa si intende per output e quale è la metrica che lo misura?
Con questo, ovviamente, non voglio certo dire che Ferrara sia meglio di Princeton: è ovvio quale siano i rapporti tra le due. Ma un primo punto del ragionamento di ROARS era mettere in discussione queste classifiche che di scientifico hanno poco e che invece nel nostro paese vengono acriticamente assunte come valutazioni indiscutibili e “assolute” per dire che “il sistema universitario (tutto!) fa un po’ schifo”.
1.2 La valutazione di efficienza
Un’altra critica –– o meglio, una variante della stessa critica –– dice che la classifica di ROARS premia chi spende poco rispetto a chi produce alta qualità. A parte il fatto che ROARS non voleva fare classifiche (anzi, voleva criticarle!) e voleva invece ragionare “per assurdo” (e l’ha scritto nel suo articolo ripetendo questo concetto diverse volte), devo dire che rimango un po’ sorpreso dal ragionamento dei colleghi.
Nessuno si sogna di dire che una Prius sia in generale “migliore” di una Ferrari. È ovvio che se guardo prestazioni, prestigio e attrattività, una Ferrari sia “meglio” di una Prius (peraltro, per alcuni così non è …). Ma è indubbio che dal punto di vista dei consumi e del costo di esercizio (km per litro di carburante o costo totale per km o km percorsi per costo unitario, scegliete voi) la Prius sia migliore di una Ferrari. Abbiamo dubbi in proposito?
Allo stesso modo, nel mondo del trasporto aereo un indicatore di efficienza è il costo per “available seat mile” o CASM:
Measure of unit cost in the airline industry. CASM is calculated by taking all of an airline’s operating expenses and dividing it by the total number of available seat miles produced.
Una compagnia aerea commerciale ha certamente un CASM minore (e quindi migliore) rispetto a chi affitta aerei executive da 10 posti. Questo vuol dire che viaggiare in economica su un affollato volo per Tokio su un 747 sia una esperienza migliore del viaggio su una lussuosa poltrona in pelle di un jet executive? Ovviamente no, ma è certamente più efficiente dal punto di vista dell’allocazione delle risorse e della accessibilità da parte di tutte le fasce della popolazione.
ROARS ha preso quello che altri hanno definito essere l’output, e cioè il punteggio ARWU, e ha valutato una semplice misura di efficienza. Vuol dire che dal punto di vista accademico Ferrara è meglio di Princeton? No, ovviamente. Ma quanto meno ci deve venire il sospetto che a parità di unità prodotta (per come l’ha definita ARWU, non ROARS!) alla società l’università di Ferrara costi meno di Princeton.
Si dirà “ma il punteggio ARWU è su una scala ordinale e non a intervalli né tantomeno a rapporti” (vedi qui oppure qui) e quindi non si possono misurare distanze relative o fare rapporti (si veda in appendice al termine di questo post una breve introduzione al tema per chi lo non conoscesse). In realtà, per come è stata definita da ARWU, la metrica ha non solo una scala di misura ad intervalli, ma a rapporti (ha lo zero assoluto). Per capirci, se raddoppio gli articoli scientifici prodotti, raddoppia il relativo contributo al punteggio ARWU; se non ho articoli scientifici, il contributo è zero. Quindi, perché mai non si potrebbe fare una misura di efficienza data da un rapporto tra investimento e punteggio ARWU ottenuto?
In altre parole, è ovvio, come scrivono in prima battuta i colleghi di ROARS, che il loro esercizio è volutamente provocatorio. Ma ha una sua motivazione e ragionevolezza. E forse i critici dovrebbero tenere tutto questo in considerazione prima di o nel criticare le provocazioni di ROARS.
Peraltro, meccanismi di questo tipo sono stati utilizzati nel report prodotto per il governo inglese dove si vede che se dal punto di vista dei valori assoluti il nostro paese fa fatica, sul fronte dell’efficienza le nostre università nel loro complesso non vanno per nulla male: esattamente quello che dice ROARS. E quel report non l’ha scritto ROARS …
2. Aspetti politico/strategici
L’altra principale critica rivolta a ROARS è che questo tipo di argomenti giustifica e difende l’operato di università inefficienti e gli atteggiamenti clientelari e baronali così frequentemente riportati dalle nostre cronache. Quanto fa ROARS sarebbe una difesa strumentale di inefficienze e interessi localistici che non aiutano il sistema universitario italiano a crescere. Sarebbe solo una richiesta di maggiori fondi che, a parità di sistema, costituirebbero un altro spreco di risorse pubbliche.
A queste critiche vorrei contrapporre le seguenti osservazioni:
- In Italia esistono tante realtà di ricerca eccellenti che sono quotidianamente ignorate o assimilate alle pratiche di mala-università. Per primo chiedo una valutazione seria e per primo chiedo che le realtà serie che lavorano e cercano di competere siano distinte da chi invece spreca in modo inaccettabile le risorse pubbliche. Perché dobbiamo ignorare gli sforzi e i risultati che stanno ottenendo, per fare solo qualche esempio, i colleghi di Pisa sul fronte delle tecnologie di trasmissione dati ad altissima velocità, o i colleghi del polo milanese sulle biotecnologie e le scienze della vita, o i colleghi di Trento sul fronte dell’internazionalizzazione e attrazione di investimenti? È giusto, equo, accettabile e, soprattutto, utile al paese?
- Vogliamo forse dire che le risorse economiche sono ininfluenti rispetto alla qualità e quantità degli output? Possiamo continuare a ignorare diagrammi come quello che segue, e chiedere le prestazioni di una Ferrari al costo di una Prius? Dicevo in questi giorni, che io come informatico posso lavorare (spesso) anche solo con un PC. Ma un fisico come attrezza un laboratorio? Con quali risorse?
Sono io il primo a chiedere una forte azione politica e vorrei dire sociale che cerchi in tutti i modi di valorizzare merito, qualità, competizione. Ma è funzionale a questo obiettivo continuare a mettere nello stesso calderone chi si dà da fare e chi no? Ha senso continuare a svilire e disprezzare i tanti colleghi che lavorano e si impegnano seriamente? Questo atteggiamento aiuta a premiare il merito e a valorizzare chi cerca di competere?
Su questo tutti –– esperti, politici, commentatori –– dovremmo impegnarci se veramente vogliamo il bene del nostro Paese.
Piccola appendice sulle scale di misura
Ogni misura, per come è definita, può essere caratterizzata da una scala o livello di misura, che sostanzialmente dice “quanto è potente” quella misura e quali operazioni si possono fare su di essa.
Esistono (almeno) quattro scale di misura, caratterizzate da una crescente capacità espressiva:
- Scala Nominale: caratterizza misure che costituiscono classificazioni “pure” come Sesso o Nazionalità. Caratterizzano l’entità misurata, ma non permettono di fare alcuna operazione se non l’uguaglianza (e disuguaglianza). Posso dire “queste due entità sono dello stesso sesso o della stessa nazionalità”, ma non posso dire per esempio che una sia “maggiore” dell’altra (a meno che non sia razzista o misogino).
- Scala Ordinale: caratterizza misure che definiscono solo un ordinamento parziale, cioè “cosa viene prima e cosa viene dopo”, senza poter dire nulla sulle distanze relative. Se per una gara di corsa do il solo ordine di arrivo senza dire i tempi di percorrenza, non posso in alcun modo dire quanto il secondo sia stato più lento del primo: posso solo dire che è arrivato dopo.
- Scala a Intervalli: caratterizza misure nelle quali posso definire le distanze relative. Per esempio, le misure di temperatura in gradi Celsius permettono di dire che tra 10° e 20° c’è la stessa differenza che esiste tra 25° e 35°. Siccome però manca uno zero assoluto (quello della scala Celsius è relativo!) non posso dire, per esempio, che una temperatura sia “doppia” di un’altra.
- Scala a Rapporti: sono misure per le quali esiste lo zero assoluto e quindi posso effettuare rapporti. È il caso della misura della temperatura in gradi Kelvin (che ha lo zero assoluto!) o della misura di lunghezza in metri.
Le implicazioni di queste definizioni sono molto importanti. Per esempio, nel caso di scala nominale non posso calcolare la media, ma solo la “moda”, cioè è il valore che ha la frequenza maggiore. Allo stesso modo, nel caso di di scala ordinale posso solo calcolare la “mediana”, cioè il valore che “spezza” a metà il gruppo di valori osservato. È solo a partire dalla scala a intervalli che posso calcolare la media.
Le osservazioni di Fuggetta mi sembrano alquanto bizzarre. In un indice composto da criteri diversi si pongono molti problemi: peso dei singoli criteri di valutazione, scelta dei criteri di valutazione, misura dei criteri di valutazione, dipendenza dei criteri di valutazione, ecc. Inoltre come ben noto la “classifica” non è invariante rispetto alla scelta della misura e del tipo (qualitativo, quantitativo) di misura. Infine la rilevanza dei criteri è per definizone definita sulla base delle preferenze, cioè non è oggettiva, quindi perchè un criterio che tenga conto della spesa non può trovare spazio nella determinazione della classifica? Il confronto prius e ferrari è l’esemplificazione di una valutazione multicriteriale in cui il costo di esercizio è un criterio, non il criterio, come anche la spesa che normalizza il risultato della arwu è un criterio, non il criterio. Mi sono perso qualcosa?
Le risposte sono già nel mio primo articolo (https://www.roars.it/classifica-arwu-14-universita-italiane-meglio-di-harvard-e-stanford-come-value-for-money/) che forse marcello non ha letto.
=========
marcello: “peso dei singoli criteri di valutazione, scelta dei criteri di valutazione, misura dei criteri di valutazione, dipendenza dei criteri di valutazione, ecc”
________
Mio articolo: “le basi scientifiche di queste classifiche sono labili se non inesistenti (Should you believe in the Shanghai ranking? è l’eloquente titolo di una demolizione tecnico-scientifica risalente al 2010).”
Nell’articolo citato (leggetelo, ne vale la pena: http://www.lamsade.dauphine.fr/~bouyssou/BillautBouyssouVinckeScientometrics.pdf), vengono discusse con grande rigore proprio le questioni della scelta, della misura, del peso, del criterio di pesatura e chi più ne ha più ne metta.
=========
marcello: la rilevanza dei criteri è per definizone definita sulla base delle preferenze, cioè non è oggettiva, quindi perchè un criterio che tenga conto della spesa non può trovare spazio nella determinazione della classifica?
________
Mio articolo: “nessuna delle classifiche internazionali degli atenei introduce delle normalizzazioni per tener conto dei diversi livelli di spesa.Ecco perché abbiamo pensato di proporre ai nostri lettori un rudimentale “esercizio pedagogico” che, senza pretese di scientificità, aiuti anche i non esperti a mettere nella giusta prospettiva i risultati delle classifiche internazionali. … Il migliore non sarà più quello in testa alla classifica generale, ma quello che ha fatto l’uso più efficiente dei soldi spesi.”
========
marcello: “Il confronto prius e ferrari è l’esemplificazione di una valutazione multicriteriale in cui il costo di esercizio è un criterio, non il criterio”
________
Mio articolo: “Chi acquista un’automobile, tranne quando è talmente ricco da non dover badare a spese, cerca di mettere a confronto i consumi dei diversi modelli. Sarebbe spiacevole comprare una vettura, magari luccicante e scattante, ma che beve come una spugna.”
________
Nel display del mio computer di bordo vedo indicato un consumo medio di 5,2 litri per 100 Km, non vedo indicata la media dei Km percorsi e – che ne so – dell’inverso del costo dell’ultimo pieno. Credo che anche chi non ha fatto studi tecnico-scientifici comprenda molto bene la nozione di efficienza (prestazioni/spesa), sempre che non sia così ricco da non far mai conto di quanti soldi ha nel portafoglio. Non abbiamo mai scritto di voler produrre la classifica definitiva (anzi, non ci crediamo nelle classifiche). Piuttosto la nostra è una dimostrazione per assurdo: se fosse vero che il punteggio ARWU è il santo Graal, allora a parità di punti ARWU è preferibile chi spende meno e (dato che il punteggio è additivo) due atenei che spendono la metà e ottengono la metà dei punti di un terzo ateneo, una volta messi assieme, sono equivalenti a quest’ultimo (hanno la stessa ARWU-efficienza). Sono ragionamenti elementari anche per chi non ha una laurea scientifico-tecnica (ma pure per chi non ha una laurea, direi).
Al bar dello sport, durante la mia adolescenza, ho sentito commenti più sensati.
Non ho capito in che cosa sarebbero bizzarre. Nel suo lungo testo io non ravvedo critiche a quel che scrivo.
Se mi spiega, provo a rispondere.
Questo articolo mi sembra molto ben scritto e sensato.
.
Come i test INVALSI “misurano” la capacità di risolvere i test INVALSI, queste classifiche “misurano” in sé soltanto i numeri di Nobel, di articoli, di ricercatori citati ecc. senza una correlazione significativa fra questi numeri e …cosa? Qualità di un ateneo? Che “qualità”? La capacità di attrarre ricercatori? Quella di procurarsi i fondi per finanziare gli articoli di Nature?
Ancora più bizzarra allora mi sembra l’affermazione “L’output di una università non sono i punti di una classifica, ma la conoscenza trasmessa agli studenti, che si traduce in salari futuri in grado di giustificare l’investimento intrapreso.” La conoscenza trasmessa agli studenti si misurerebbe col numero di Nobel e degli HCR di un’istituzione? Che correlazione ci sarebbe fra i salari futuri e questi indicatori, poi?
.
Le critiche all’efficienza, cioè a quei numeri pesati sulla base dei finanziamenti ottenuti, dovrebbero poi basarsi casomai sulla dimostrazione che non esista correlazione fra tali indicatori e i costi dell’istituzione.
Invece molte delle università fra le top 20 di questa classifica sono tra le più grandi e costose del mondo. Esiste, cioè, più che un sospetto che la correlazione fra indicatori ARWU e le spese sia reale. Ma la classifica si limita a “dare i numeri” (appunto) senza tener conto che il confronto non è alla pari, ma *non* per, casomai, pure *questioni di qualità*. Banalmente, non è possibile dimostrare che quella classifica mostri la bravura di certi atenei rispetto ad altri, qualunque cosa questo significhi, perché non sono le stesse le condizioni al contorno. Ossia si fa la “misura” di indicatori con le variabili principali di influenza/disturbo fuori controllo. Variabili che nessuno si è preso neanche la briga di individuare.
.
Ma tutto ciò sembra così scontato che davvero chi pensa di usare questi argomenti per orientare critiche e politiche, manchi di qualche neurone o sia solo in cattiva fede.
“Ma tutto ciò sembra così scontato che davvero chi pensa di usare questi argomenti per orientare critiche e politiche, manchi di qualche neurone o sia solo in cattiva fede”.
Direi tutti e due: sarebbe ora di fare un ranking della stupidità umana applicata alle politiche universitarie.
Comunque non c’è niente da fare, è proprio vero che non abbiamo un futuro nelle biotecnologie:
http://corriereinnovazione.corriere.it/2015/08/22/gel-italiano-applicare-protesi-che-abbatte-infezioni-chirurgiche-d192314c-48fd-11e5-adbb-a52649bc660c.shtml
http://www.trentinosviluppo.it/it/ELE0006377/novagenit-ed-il-gel-anti-infezioni-per-la-chirurgia-ortopedica
… Sarà, ma bisogna riconoscere che noi italiani siamo più famosi per il gel-ato, che per il gel-antibiotico :-)
Parli come Zingales. Mangia un gelato e tirati su :-)
Wikipedia: “L’origine italiana del gelato viene riconosciuta in gran parte del mondo (non è inusuale, nelle gelaterie estere, vedere indicazioni come “vero gelato italiano”), …
Zingales dice che noi dovremmo fare solo gelati e i camerieri, io invece ho semplicemente detto che “noi italiani siamo più famosi per il gel-ato” INNEGABILE …… e poi io preferisco la pizza e gli spaghetti … De gustibus et coloribus del gel-atibus et pizzas non est disputandum :-)