Valutazione

Come ridurre i danni della valutazione. Un commento a margine di Donald Gillies.

Non esistono evidenze forti che i meccanismi di finanziamento della ricerca basati esclusivamente sulla peer review dei progetti siano i più efficaci. Donald Gillies argomenta a favore di una modalità alternativa di finanziamento basata sull’estrazione a sorte. Nel sistema italiano i meccanismi automatici di finanziamento messi a punto da MIUR e ANVUR acuiscono i problemi rilevati da Gillies per il caso inglese. L’uso inappropriato della bibliometria, la automatizzazione delle procedure spinge a comportamenti indesiderabili. E ad una riduzione della biodiversità del panorama della ricerca. Si possono ridurre i danni probabili indotti della valutazione?

 

 

 

 

Questo post contiene il commento al seminario tenuto da Donald Gillies a Bergamo il 12 settembre 2014.  

Donald Gillies nel suo articolo pubblicato su RT [1] ha messo l’accento sugli effetti distorsivi derivanti dall’adozione generalizzata della peer review ex-ante per la selezione dei progetti di ricerca. Sintetizzerei dicendo che i principali sono:

  1. la riduzione della biodiversità della ricerca, accompagnata dal premio sistematico al mainstream e alla maggioranza.
  2. un effetto San Matteo per quanto riguarda la distribuzione delle risorse per la ricerca, con una progressiva concentrazione delle risorse su pochi gruppi. tale concentrazione è accentuata da prassi che prevedano a livello locale/istituzionale finanziamenti aggiuntivi che premino le risorse già disponibili.

Aggiungo a queste considerazioni la constatazione che tutto questo avviene nella completa assenza di evidenze empiriche che questa modalità di finanziamento sia migliore di altre possibili. Ioannidis in una articolo su Nature conclude addirittura che

è scandaloso che vengano adottate queste modalità di attribuzione dei fondi nella completa assenza di evidenza che ne mostri i benefici rispetto a metodi alternativi.

Vorrei estendere il ragionamento di Gillies alle procedure di valutazione ex-post. O meglio sul tema della valutazione istituzionale della ricerca del tipo RAE/REF – VQR. Introdotta da Margaret Thatcher nel 1984. Diffusasi nei paesi OECD. Ma non negli USA.

La valutazione della ricerca condotta a livello istituzionale risponde ad una esigenza reale: capire lo stato della ricerca di un paese/delle istituzioni che operano nella ricerca. Credo che sia generalmente condivisibile l’idea che ci sia un controllo da parte di chi paga le tasse sul modo in cui vengono impiegati i soldi pubblici per la ricerca. Credo anche che ci sia un limite intrinseco alla possibilità di rendere efficiente questo processo: la natura irriducibilmente incerta della ricerca determina inefficienze ineliminabili dell’impresa scientifica. Ne è un esempio il fenomeno delle scoperte multiple. Robert K. Merton sostiene che non è infrequente nella storia della scienza che più scienziati giungano contemporaneamente o quasi agli stessi risultati producendo una stessa scoperta. Dal punto di vista economico questo è del tutto inefficiente poiché sono state sprecate risorse: sarebbe infatti stato sufficiente che un solo scienziato giungesse alla scoperta per produrre il beneficio finale, risparmiando le risorse usate dal secondo scienziato.

Questi elementi possono giustificare l’adozione di ragionevoli pratiche di valutazione. Essi sono invece utilizzati per giustificare interventi premio-punitivi automatici a difesa dei quali si coagula una strana alleanza tra i difensori del libero mercato -che pensano che le procedure di valutazione associate alla distribuzione premiale delle risorse sostituiscano il mercato- e i difensori della pianificazione centrale -che ritengono che sia possibile controllare e dirigere in modo desiderabile la ricerca attraverso una opportuna valutazione e la conseguente distribuzione delle risorse. In Italia, sia detto tra parentesi, è questa strana alleanza ad aver prodotto il mostro istituzionale che non ha eguali nei paesi occidentali, rappresentato da ANVUR. Creato da pianificatori (Mussi) ed adottato entusiasticamente da liberisti (Gelmini-Giavazzi).

Gran parte dei problemi sollevati da Gillies in relazione alle procedure di valutazione ex-ante si ritrovano anche nelle procedure di valutazione ex-post. E vi si trovano amplificati. L’errore chiave non sta nel voler capire il posizionamento della ricerca italiana rispetto a quella internazionale. Esigenza legittima e condivisibile. L’errore chiave sta nel legare automaticamente la valutazione alla distribuzione delle risorse. Perché questo ha effetti diretti sui comportamenti individuali, sulle scelte di finanziamento locale, sul sistema della selezione e promozione dei ricercatori.

Provo ad argomentare sommariamente il tipo di distorsioni indotte dalle procedure di valutazione. Per questo c’è bisogno di operare una prima sommaria distinzione tra due grandi modelli di valutazione ex-post. Quello basato sulla peer review del tipo RAE/REF britannico. E quello bibliometrico del tipo ERA australiano.

Il modello con peer review è stato analizzato mirabilmente da Donald Gillies nel suo libro del 2008. Esistono ormai  evidenze forti che le procedure di valutazione vanno incontro a problemi di penalizzazione sistematica del non-mainstream. Penso per esempio ai lavori di Lee sugli economisti.  La peer review ex-post negli esercizi di valutazione soffre degli stessi problemi cui si va incontro nell’ex-ante.

Molti, sopratutto in Italia, sostengono che l’uso automatico della bibliometria nelle procedure di valutazione è un modo efficace per ridurre la possibilità che i gruppi accademici controllino la peer review. In relazione a questo si pongono due problemi. Il primo è: l’arbitrarietà cioè l’esercizio del potere accademico si sposta dal controllo della peer review al controllo del tipo di bibliometria da utilizzare.

Quando si usa la bibliometria, soprattutto quando la bibliometria è adottata in forma automatica negli esercizi di valutazione, e quando si privilegia l’uso di un numero estremamente ristretto di indicatori -possibilmente un solo indcatore: il sacro-graal della valutazione. allora la bibliometria genera problemi enormi. Ormai ben documentati in letteratura. Proviamo a passarli brevemente in

  1. peggioramento delle performance citazionali indotto dall’adozione di liste di riviste (australian case)
  2. riduzione della ricerca di interesse locale (ancora australian case)
  3. Effetto mainstreaming. I campi con strutture istituzionali più forti hanno performance citazionali migliori di campi meno integrati e più dispersi. Per esempio in area medica le ricerche di oncologia hanno risultati migliori di quelle epidemiologiche, che hanno risultati migliori delle ricerche sulle malattie rare e delle ricerche interdisciplinari. La ricerca clinica ha performance peggiori della ricerca di base (PLOS 2013) Nell’area matematica, la ricerca applicata ha risultati migliori della matematica pura e tutte surclassano le performance della storia della matematica. Questo genera distorsioni nel modo in cui si fa ricerca.
  4. Distorsioni sistematiche legate a 1) lingua 2) gender 3) ricerca interdisciplinare.

L’uso (non solo inappropriato) di metriche ha come conseguenza probabile la riduzione della bio-diversità della ricerca e forse anche della creatività. Questo può avere effetti negativi sull’impatto socio-economico della ricerca.

L’uso della bibliometria induce gli scienziati a comportamenti opportunistici. Anche questi sono ben documentati in letteratura sotto l’etichetta onnicomprensiva del gaming. Eccone una classificazione:

  1. Salami slicing
  2. Retraction
  3. Predatory publishing
  4. Ghost authorship
  5. IF boosting
  6. Coercive citation
  7. Plagiarism
  8. Self-plagiarism

Da questo punto di vista il caso italiano appare drammatico. La VQR è costruita in modo tale da sommare al problema della peer review quello della peggiore bibliometria automatica. La distribuzione premiale delle risorse è anch’essa automatica. Il meccanismo delle mediane è un potente strumento che favorisce il gaming.

Dubito che nel breve periodo siano messi in atto interventi tali da bloccare i meccanismi distorsivi messi in moto da MIUR e ANVUR.

Per tutto quanto detto sopra è auspicabile che i meccanismi di finanziamento siano scollegati dalla valutazione della ricerca.

Nel caso in cui questa opzione non sia politicamente perseguibile, è auspicabile che vengano messi in atto meccanismi complementari di finanziamento alla ricerca che a livello nazionale o locale premino la biodiversità ed incentivino il pluralismo. Due proposte molto semplici da implementare, ispirate dalle riflessioni di Gillies sono la attribuzione di fondi di ricerca distribuiti a pioggia o casualmente.

[1] GILLIES, Donald. Selecting applications for funding: why random choice is better than peer review. RT. A Journal on Research Policy and Evaluation, [S.l.], v. 2, n. 1, may. 2014. ISSN 2282-5398. Available at: <http://riviste.unimi.it/index.php/roars/article/view/3834>. Date accessed: 26 Oct. 2014. doi:10.13130/2282-5398/3834.

Send to Kindle
Tag: , , , , , , , , , , ,

15 Comments

  1. Una Nota informativa aggiuntiva: il Modello RAE/REF di valutazione retrospettiva comparativa della ricerca fra istituzioni non è granché diffuso. E’ più tradizionale un modello di valutazione *non* comparativa (o anche, beninteso, più modelli), si veda ad esempio il caso olandese
    https://www.knaw.nl/en/topics/kwaliteit/kwaliteitsbeoordeling-en-valorisatie/overzicht?set_language=en
    (in particolare lo Standard Evaluation Protocol).
    Il non ricorso a modelli comparativi è usualmente riconducibile alla *non* stretta correlazione fra valutazione e finanziamento delle istituzioni.

    • Alberto Baccini says:

      Appunto Renzo. Diciamo che noi abbiamo scelto una via simil-britannica. Con la differenza che la valutazione italica è realizzata nel modo che ormai sappiamo, adottando metodologie mai viste e bibliometria fai-da-te. Il che fa pensare che i meccanismi di distribuzione siano molto peggio che casuali. Purtroppo anche a livello locale (singole università), sulla spinta dei gruppi che alla VQR hanno avuto i risultati migliori, si tentano di utilizzare i risultati VQR (vedi modello CRUI) per la ripartizione locale delle (pochissime) risorse disponibili. Credo sia il caso di avviare una riflessione sulla necessità di sganciare il finanziamento dalla valutazione, in particolare dalle valutazioni come realizzate da ANVUR.

    • alessandro bellavista says:

      Negli atenei la situazione e’ drammatica. Si usa la vqr del settore per distribuire i rtd, la vqr individuale per la partecipazione ai dottorati di ricerca, la vqr di area per tante altre risorse. E v’e’ sempre qualche burlone che vuole andare oltre. E’ un meccanismo a cascata inarrestabile.

    • Alberto Baccini says:

      Infatti è così. I dati incredibili della VQR stanno diventando lo strumento per fare qualsiasi cosa. Senza che nessuno si opponga al loro utilizzo illegale. In alcune università viene richiesto di dichiararli per gli scatti stipendiali. I colleghi che strepitano perché la loro ricerca non è valorizzata dai criteri di Ateneo, di questo uso improprio di quei dati non si scandalizzano….

    • alessandro bellavista says:

      I rettori tendono a usare la vqr sia perche’ di fatto il governo centrale lo impone (vedi accreditamento dottorati) sia perche’ e’ apparentemente oggettiva ed evita scelte piu’ precise ma politicamente piu’ complicate. E’ una sorta di sistema orwelliano di cui nessuno contesta la legittimita’ ed e’ un paradosso, se l’universita’ e’ per definizione il regno del pensiero critico.

  2. Marco Bella says:

    E’ un articolo interessante alla fine del quale si arriva ad una sola verità sicura: non c’è alcuna certezza che esista un sistema di finanziamento ideale per la ricerca, e che la “ricerca” di questo sia un dibattito aperto.

    Aggiungendo dubbi, volevo commentare sull’aspetto che sia non ottimale finanziare due o più progetti di ricerca simili perché sarebbe uno spreco di denaro pubblico e alimenterebbe un’inutile competizione. In mia opinione, essendo la ricerca un’attività ad alto rischio di insuccesso, finanziare più progetti con gli stessi obiettivi potrebbe essere invece fruttuoso, perché in questo modo si riducono i rischi. Come esempio, nel 2004 quando la distanza tra Marte e la Terra era favorevole all’invio di sonde spaziali, furono lanciati ben quattro progetti simili: quello giapponese (che si perse nello spazio) Beagle (Il disco “low cost” di un’università del Regno Unito che doveva arrivare sulla superficie marziana) e ben due rover americani da parte della NASA, Spirit e Opportunity, molto simili tra loro. Solo i due Rover americani arrivarono su Marte, e la loro operatività fu estesa ben oltre i tre mesi inizialmente programmati. Non aveva senso in questo caso investire in più progetti apparentemente in competizione? Inoltre, la ricerca non produce sempre un “risultato finale” ma anche tanti risultati parziali. Poter avere più gruppi di ricerca che si confrontano sul raggiungimento degli obiettivi intermedi porta sicuramente al raggiungimento degli target finali in modo più rapido. Inoltre, non è detto esistano sempre soluzioni univoche valide per tutti: due scoperte apparentemente simili potrebbero invece essere applicate in campi distinti. Le scoperte multiple inoltre contribuiscono a validarsi a vicenda. Nel 1988 fu eseguita l’analisi del carbonio 14 sulla Sindone di Torino in tre laboratori distinti, e tutti e tre giunsero alle stesse conclusioni: il telo apparteneva all’epoca medioevale e non ai primi anni della cristianità. Questo non è stato uno “spreco di risorse” ma un modo per ottenere dei risultati molto più affidabili.

  3. Il giorno in cui si seguira’ il consiglio di Ioannidis, che e’ poi lo stesso di Gillies, sara’ troppo tardi. Purtroppo la gente non studia, non legge, non riflette, non sa e va dietro a slogans. E purtroppo gli accademici non sono da meno.

  4. indrani maitravaruni says:

    La collaborazione dell’accademia e delle sedicenti forze di sinistra sono state fondamentali per affossare la qualità di studio e ricerca negli ultimi quarant’anni. E non solo in Italia.

  5. Immagino che l’articolo di Ioannidis citato da Alberto Baccini sia:

    John P. A. Ioannidis
    More time for research: Fund people not projects
    Nature 477, 529–531 (29 September 2011)
    http://www.nature.com/nature/journal/v477/n7366/full/477529a.html

    e chiedo conferma.

    Mi permetto di segnalare un paio di articoli di Ioannidis correlati:

    Joshua M. Nicholson, John P. A. Ioannidis
    Research grants: Conform and be funded
    Nature 492, 34–36 (06 December 2012)
    http://www.nature.com/nature/journal/v492/n7427/full/492034a.html?WT.ec_id=NATURE-20121206
    (sul conformismo scientifico)

    Questo articolo ha dato origine a un dibattito piuttosto acceso: http://www.nature.com/nature/journal/v493/n7430/full/493026c.html

    C’e’ poi un interessante commento uscito ieri:

    John P. A. Ioannidis, Kevin W. Boyack, Henry Small, Aaron A. Sorensen, Richard Klavans
    Bibliometrics: Is your most cited work your best?
    http://www.nature.com/news/bibliometrics-is-your-most-cited-work-your-best-1.16217

    Temo purtroppo che per i vari link sopra indicati sia necessario un abbonamento a Nature, che pero’ dovrebbe essere abbastanza diffuso tra le lettrici e i lettori di ROARS.

    Cordiali saluti

    Enrico Scalas

  6. Visti i giornali di stamani, sembra che stiano per realizzare il loro supremo desiderio: farci fuori una volta per tutte.

  7. Simonetta Baraldo says:

    Ringrazio Alberto Baccini per questo intervento, che sottolinea i problemi insiti nella valutazione peer-reviewed (anche se come correttamente sottolineato il lavoro di Gillies va applicato alla valutazione ex-ante più che a quella ex post). Mi sembra molto importante collegarlo alla VQR, perchè se non ricordo male in molti interventi precedenti,nel criticare i criteri adottati nella valutazione italiana, si proponeva come alternativa l’utilizzo esteso della peer review (se non ricordo male qualcuno proponeva addirittura di usare un solo reviewer). Ogni metodo ha i suoi limiti, e la peer review non ne ha di meno della bibliometria… grazie ad Enrico Scalas per i link veloci agli articoli di Ioannidis, che fa riferimento persino alla valutazione italiana, ricordandoci (nel caso ce ne fosse stato bisogno)che il problema del nostro sistema non è proprio l’eccesso di valutazione, semmai il contrario.

    • Andrebbe tenuto diverso l’atteggiamento verso la peer-review dei progetti da finanziare e la peer-review dei lavori, dei risultati. La seconda è comunque ineliminabile, ed anzi va qualificata.

    • Alberto Baccini says:

      Grazie. Una chiosa sull’ultima frase. Il problema del nostro sistema non è un eccesso o difetto di valutazione. Ma il modo sgangherato in cui la valutazione è stata condotta ex-ante (per esempio le folli regole degli ultimi prin), ed ex-post da ANVUR con la VQR. Se si guarda alla didattica, là il problema è il delirio burocratico imposto prima dalle occhiute norme MIUR, ed adesso esasperato dalle anvuriane trovate di AVA. Siamo un paese gravemente in riatrdo su questi temi. Che si ostina a invenatre regole fai-da-te.

  8. Pingback: Come ridurre i danni della valutazione. (Un commento tornato di attualità) | alberto.baccini

Leave a Reply

Sostieni ROARS

Sostieni ROARS