Home Anvur Valutazione a due stadi, «l’Anvur non premierà i migliori»

Valutazione a due stadi, «l’Anvur non premierà i migliori»

16 Marzo 2012

Avere una valutazione mal fatta implica dare informazioni sbagliate ai ricercatori. A pensarla così è Alberto Baccini, professore ordinario di economia politica presso l’Università di Siena e autore del libro “Valutare la ricerca scientifica. Uso e abuso degli strumenti bibliometrici”. Baccini, anche redattore del sito www.roars.it, dà il benvenuto alla valutazione, un po’ meno all’Anvur che, secondo lui, dovrebbe essere disegnata in maniera diversa. L’Agenzia Nazionale di Valutazione del Sistema Universitario e della Ricerca sta rischiando di inciampare su alcuni errori metodologici, tra questi la valutazione a due stadi.

Insomma professore l’Anvur non le piace proprio?
L’Agenzia per come è stata disegnata nasce in una forma strana, nel senso che non è un’agenzia indipendente come quella australiana o quella inglese. In termini tecnici si dice che è una agenzia esecutiva, io la definirei una specie di braccio armato del ministro.
Sul sito del Roars ha parlato di una «sperimentazione di inediti (e poco fondati) strumenti».
Inedito è il modo in cui il ministro e l’Anvur hanno disegnato la Vqr. “L’originalità” nasce dal fatto che solo in parte ci riferiamo al modello inglese. Mi spiego meglio. Si è pensato di applicare la valutazione al singolo prodotto di ricerca (come fa l’Inghilterra), utilizzando però un sistema duale, che vede alternarsi la revisione dei testi alla bibliometria (non presente nel sistema anglosassone). “Poco fondati” perché sono stati messi in piedi una serie di strumenti bibliometrici completamente
nuovi, non presenti nella letteratura internazionale. E a mettere in piedi questa struttura sono state persone molto competenti nel loro settore, ma incompetenti in fatto di bibliometria. Essendo strumenti originali e mai stati usati è un poco rischioso applicarli all’intera università.

Ce ne dica uno.
Non si può applicare il parametro bibliometrico al singolo prodotto e dire se quel prodotto è buono in una scala di qualità. In giro per il mondo quando si usano questi parametri il singolo prodotto perde di importanza, nel senso che quel prodotto viene valutato non in quanto tale, ma in quanto
pubblicato su una certa rivista che è di una certa qualità sulla base di un parametro bibliometrico. Per esempio un prodotto molto buono è pubblicato su una rivista con elevato impact factor(*).

Lei quindi non contesta la bibliometria in assoluto.
No, anzi. La bibliometria può fare tante cose. Quello che io contesto è l’utilizzo che ne sta facendo l’Anvur.

Quale sarebbe la strada migliore da perseguire?

La peer rewier. L’unico modo per dire se un articolo è valido o meno è che qualcuno lo legga. Ovviamente già il fatto che l’articolo sia stato pubblicato su una rivista accettata internazionalmente
presuppone che qualcuno lo abbia analizzato. E in questa fase si potrebbe anche usare qualche indicatore bibliometrico. Ma ripeto, se uso la bibliometria devo fare un lavoro statistico e non sul singolo prodotto.

Perché in Italia la revisione paritaria non è considerata?
In Italia c’è un problema di mancanza di capitale sociale all’interno delle università per cui c’è molta diffidenza verso la peer review.
L’operazione che lei auspica è enorme?
I tempi ovviamente sarebbero molto lunghi. Ma che fretta c’è? Il modello inglese è il migliore al momento e fa proprio questo: analizza tanti prodotti di ricerca, fino a 4 per ogni ricercatore, e c’è qualcuno che legge tutto. In Inghilterra il processo di valutazione, partito nel 2011, si concluderà nel 2015. Ma nel nostro Paese si avverte una certa urgenza di attivare il sistema… Penso che alla base ci sia l’idea della Gelmini di punire i baroni. Si è guardato alla struttura della valutazione come ad
un meccanismo di punizione. La valutazione serve, invece, a disegnare l’università.

Ci sono stati Paesi che hanno dovuto rivedere i loro sistemi di valutazione?
L’Australia è uno di questi. E’ stato messo in piedi un sistema valutazione enorme e lo sa come è andata a finire? Hanno registrato un peggioramento della ricerca perché le strategie dei ricercatori erano cambiate. Molti professori hanno iniziato a pubblicare sulle riviste che avevano dato i maggiori risultati nella valutazione. Invece di pubblicare cose buone su riviste modeste hanno pubblicato cose meno buone su riviste con elevato impact factor.

Passiamo alla ricerca umanistica…

Il sistema pensato prevede l’utilizzo di un meccanismo simil bibliometrico, ovvero l’attribuzione di un valore di qualità ai prodotti sulla base della rivista in cui sono pubblicati o dell’editore del libro. Il problema nasce nel momento in cui le classificazioni delle riviste sono affidate ai Gev, ovvero ai
gruppi di valutazione nominati dall’Anvur.

Qual è il rischio?
Le classifiche delle riviste in genere sono realizzate dai valutatori o dalle agenzie specializzate. Il rischio dei Gev è che le classifiche vengano fatte a misura dei gusti scientifici dei Gev medesimi. E in tempi molto ristretti.

Per il resto il sistema potrebbe funzionare?
Bisogna considerare che a volte non c’è nessuna relazione tra il successo del singolo articolo e della rivista. Nella bibliometria si parla di “Belle addormentate”, ovvero articoli che sono pubblicati su una rivista e che poi diventano importanti dopo 10, 20 anni. Ripeto, la qualità del lavoro la giudicano gli uomini che dicono se un lavoro è stato scritto secondo gli standard prevalenti. Se poi questo è stato citato è un altro problema.
Cosa succederà con la Vqr 2004-2010?
Dipende da cosa se ne farà di questa valutazione. Se servirà a distribuire l’Ffo i danni saranno più o meno limitati. La parte ricerca pesa per una certa quota e ci saranno solo delle distorsioni nell’assegnazione dei fondi alle università. Ma ci sono altri due rischi: la chiusura delle università in base ai criteri Anvur (ma mi sembra che il presidente Fantoni abbia corretto il tiro su questo punto) e il cambiamento dei propri comportamenti in base alla valutazione.

Mi faccia un esempio.
Se mi dicono che se pubblicherò su quella rivista la mia valutazione sarà più elevata io inizierò a pubblicare su quella rivista.

Passiamo all’inglese. Il valore della ricerca può dipendere dalla lingua in cui uno si esprime?
Con la scusa della lingua si stanno difendendo alcune posizioni accademiche. E dietro queste posizioni ci sono settori scientifici che vogliono rimanere al riparo dalla scienza internazionale. Se in alcuni settori l’inglese è la lingua prevalente, non vedo perché i ricercatori italiani non dovrebbero pubblicare in tutte e due le lingue.
Intervista a cura di Anna Di Russo

(*) L’impact factor è un indice sintetico che misura il numero medio
di citazioni ricevute in un particolare anno da articoli pubblicati in
una rivista scientifica nei due anni precedenti.

(Intervista pubblicata su Corrire Universita’ Marzo 2012)

Share this on WhatsApp

13 Commenti

Renzo Rubele 16 Marzo 2012 At 11:58

Non la pensa così Fantoni, che, sempre sul CorriereUniv.it, dice che “Agli inizi del 2013 avremo così a disposizione una informazione quanto più completa e dettagliata possibile sul livello di qualità della ricerca del sistema universitario italiano. Il tutto ottenuto attraverso un processo di valutazione effettuato con criteri tra i più diffusi a livello internazionale e largamente condivisi dalle comunità universitarie italiane.”

http://www.corriereuniv.it/cms/2012/03/la-strategia-del-merito/

Entra per lasciare un commento
paolo bertoletti 16 Marzo 2012 At 12:27

Caro Baccini,
cosa pensa del fatto che il GEV dell’area 13 renderà nota la classificazione delle riviste al termine del processo di valutazione (decisione comunicata in data odierna dall’ANVUR agli uffici della mia Università)?
Coordialmente,
Paolo Bertoletti

Entra per lasciare un commento
- Alberto Baccini 17 Marzo 2012 At 08:07
  
  Caro Bertoletti, penso che è inammissibile. Che il consiglio direttivo dell’ANVUR ed in particolare i responsabili del VQR dovrebbero intervenire.
  Penso che è un ennesimo sintomo della sindrome del maestro con la penna rossa che è alla base del VQR tutto, che mi aspetto raggiungerà vette altissime proprio in Area 13.
  Mi aspetto di sentirmi dire: ma avete mai visto un professore che anticipa agli studenti le domande dell’esame?
  
  Ma c’è un’altra possibile spiegazione, forse da non trascurare. Una lista delle riviste in questa area non è lavoro da poco. Se ci si limita alle riviste di economia, e vado all’ingrosso, le riviste da considerare scientifiche (perché con referee etc.) saranno un migliaio (quelle incluse in EconLit). L’economista medio su questi temi ha letto poco più del famoso “ranking dei ciprioti”, per cui già le 300 circa riviste censite in WoS sembrano una montagna. Forse si sono accorti tardi che la montagna era molto più alta e che fare un ranking nei tempi previsti dal bando VQR è impresa che in giro per il mondo non è riuscita a nessuno. Se la seconda è vera. No comment.
- Bruna Bruno 18 Marzo 2012 At 11:39
  
  Mi corregga se sbaglio.
  La spiegazione della montagna troppo alta potrebbe dar conto anche della scelta, da parte dell’ormai ultracitato GEV dell’area 13, della banca dati WoS anzichè di Scopus?
  
  Mi dicono in giro:
  1) che Scopus contiene almeno il doppio dei dati contenuti in Wos
  2) che gli altri Gev hanno scelto, in media, di utilizzare entrambe le banche dati
  
  Se le informazioni sono corrette, mi chiedo:
  1) che conseguenze ha l’utilizzo di una banca dati più ristretta (da estendere secondo criteri non del tutto certi) in luogo di una più ampia?
  2) quale caratteristica peculiare hanno le scienze economiche e statistiche tale da giustificare una scelta diversa rispetto agli alle altre aree disciplinari?
Francesco Guala 16 Marzo 2012 At 12:57

Una domanda (assolutamente non polemica ma motivata da personale ignoranza): esistono degli studi che dimostrano che l’uso di ranking e/o bibliometria abbassa la qualità dei prodotti della ricerca, e promuove i comportamenti opportunistici (meglio pubblicare sulla rivista X un articolo mediocre che pubblicare su Y un buon articolo, se l’impact factor di X > Y)?
Lo chiedo perché l’argomento dell’opportunismo è citato talvolta come una possibilità (ma alquanto plausibile, secondo molti), altre volte come un dato di fatto (vedi questa intervista).
La prova empirica mi sembra difficile, onestamente – qualcuno ha rifatto la valutazione australiana con la peer review, per avere una controprova? Ma in assenza di dati l’argomento dell’opportunismo al sottoscritto sembra poco plausibile: fra VOLERE pubblicare un articolo mediocre sull’American Economic Review o Nature, e PUBBLICARLO DAVVERO ne passa. Io per esempio ho un sacco di articoli mediocri pubblicati su riviste mediocri — avrei senz’altro preferito pubblicarli sul Journal of Philosophy o Econometrica, se fosse così facile!!

Entra per lasciare un commento
- Renzo Rubele 16 Marzo 2012 At 13:11
  
  Consiglio di dare un’occhiata alla seguente letteratura Australiana:
  
  An evaluation of the Australian Research Council’s journal ranking
  Jerome K Vanclay
  http://arxiv.org/ftp/arxiv/papers/1009/1009.3359.pdf
  
  ERA: adverse consequences
  Brian Martin
  http://www.bmartin.cc/pubs/11aur2.pdf
  
  FoR Codes pendulum: Publishing choices within Australian research assessment.
  Bennett, Dawn and Genoni, Paul and Haddow, Gaby.
  http://espace.library.curtin.edu.au/R/?func=dbin-jump-full&object_id=164343&local_base=GEN01-ERA02
  
  What was wrong with Australia’s journal ranking?
  Jerome K Vanclay
  http://epubs.scu.edu.au/cgi/viewcontent.cgi?article=2275&context=esm_pubs
  
  e correlata.
  
  Sarà interessante conoscere l’opinione informata di un filosofo analitico.
Francesco Guala 16 Marzo 2012 At 15:38

Il filosofo continua ed essere poco informato: nessuno dei documenti australiani indicati contiene alcun dato riguardo all’impatto dei ranking sulla qualità della ricerca. Tutti contengono argomenti che suggeriscono che POTREBBE esserci un effetto negativo. L’unico argomento basato su un minimo di evidenza è questo:
“Science will suffer if the effort to improve research excellence in Australia motivates Australian researchers to publish their work in generic A*-ranked multidisciplinary journals instead of in disciplinary journals that constitute the mainstream of their science. There is some evidence that scientific contributions are best reviewed within their own discipline, where reviews may be the most stringent. Issues such as the Schön affair (Beasley et al 2002) beg the question whether prominent journals such as Nature and Science are more prone to inadequate review. The incidence of errata and retractions in these journals is higher than in disciplinary journals (Table 8): this is not necessarily indicative of inadequate reviewing, and may also reflect a stringent approach to errors and retractions. However, Table 8 does lend support the notion that within-discipline publication is rigorous, and thus that the ERA should provide A* journals within each 4-digit FOR group.” (Vanclay, “An evaluation of the Australian Research Council’s journal ranking”).
La mia esperienza personale è che in effetti riviste come Science e Nature pubblicano spesso articoli di economia di qualità inferiore a quelli che si trovano sulle migliori riviste economiche. Detto questo , non mi sembra che questo problema si ponga nel caso dei ranking italiani, dove tutte le discipline hanno riviste SPECIALISTICHE classificate in fascia A (l’anomalia australiana era che in alcune discipline c’erano pochissime riviste specialistiche A, in altre molte; da qui il timore di una tracimazione verso riviste generaliste con criteri di refereeing meno rigorose.) (Per inciso: pubblicare su Nature e Science (1) è comunque difficile; (2) ha molto senso se si vuole parlare a un pubblico vasto, e non mi sentirei di criticare un sistema che incentiva l’interdisciplinarità, cercando di evitare le distorsioni di cui sopra.)
Il filosofo dis- (o mis-)informato attende altri suggerimenti di lettura.

Entra per lasciare un commento
- Renzo Rubele 16 Marzo 2012 At 16:29
  
  Veramente il buon riassunto della ricerca pubblicata in “FoR codes pendulum” da già un quadro di fenomeni chiari – per quanto si chiarisce che sono solo all’inizio (e naturalmente) delle possibili indagini empiriche:
  
  “The evidence suggests that authors are only just beginning to fully comprehend the impact of the ERA mechanisms (both journal rankings and FoR codes) on their publishing choices and career progression. They are realising that both rankings and FoR codes will create pressure to publish in a small number of journals that are appropriately approved and categorised. Authors are also beginning to understand the downstream impacts that may result, not only for their community of authors, but for journals, readers and disciplines. The data reported here support the argument made by other commentators (Cooper & Poletti, 2011; Lamp, 2009) that there is the potential for the key ERA mechanisms to disrupt the healthy exchange of research publishing. Whereas disciplinary communication has previously depended on authors carefully selecting journals because of the desire to reach a particular audience within complex disciplinary and interdisciplinary networks, in future they may be impelled to choose certain journals by the imposition of a mechanistic formula that is insensitive to the needs of the authors, readers and disciplines.
  
  Research assessment in Australia is still in its infancy, and the evidence collected in this research suggests that authors will come to fully understand the impacts of the ERA progressively. In the initial stage this is likely to be a realisation of the personal impact, as authors are allocated or select their personal FoRs and review the results of the journal ranking process in their own fields of research. Irrespective of their personal opinopinions on the research assessment mechanisms, individuals will realise that—unless they are to take a cavalier approach to their career progression—the results will inevitably shape their future publishing choices.
  
  A second level of impact will be encountered as universities adjust their incentives and rewards to the ERA drivers. The effect of journal ranking will be to encourage institutions to target research funding in support of outputs destined for suitably ranked journals, and to apply the same measure in the recruitment and promotion of staff (Mather, 2011). The use of discipline-based assessment is highly likely to see institutions supporting research aligned with particular FoR codes that are believed to attract government funding, and research groups and individuals will in turn be required to focus publishing on those journals that have been allocated the ‘appropriate’ FoRs.
  
  A third level of impact will be felt by the disciplines as they strive to adjust their channels of formal communication to cope with the highly managed research environment. As has been noted the ranking of journals is likely to skew submissions in favour of highly ranked journals and in the process may well threaten the viability of journals that fall into the B and C tiers. Not only authors, but editors and referees will find little value in being associated with lower-ranked titles. And authors and editors alike will also feel the impact of the FoRs as journals that once encouraged and attracted multidisciplinary contributions find that contributed articles are increasingly tailored to the narrow range of the allocated FoRs.
  
  It is also likely that Australian journals with a regional focus will be particularly susceptible. As has been discussed elsewhere (Genoni & Haddow, 2009) the definitions given to each of the journal ranking tiers are expressed in such a way that they disadvantage national or regional journals. This occurs because whereas the definition for tier A emphasises ‘real engagement with the global research community’, the tier B definition focuses on ‘regional journals with high acceptance rates’. The likely effect of suggesting tier B as the ‘default’ rank for national and regional journals is supported by respondents’ comments on the Australian Journal of Music Education.”
  
  MA non per nulla stanno facendo il nuovo ERA 2012 senza più journal rankings, appena 2 anni dopo l’ERA 2010.
- Francesco Guala 16 Marzo 2012 At 17:05
  
  Tutto quello che si desume dal passo citato è che ne potrebbero soffrire le riviste classificate B o C, e che le riviste locali che potrebbero perdere ulteriori buoni articoli (oltre a quelli che già adesso NON pubblicano). Per il resto il passo citato dice solo che i ricercatori e le università stanno cominciando a modificare le loro strategie sulla base dei ranking. Il che, fra l’altro, è uno degli scopi dichiarati del VQR: per esempio incentivare l’internazionalizzazione della ricerca italiana.
  Non credo che il VQR sia perfetto (come spiega Baccini), ma bisogna stare un po’ attenti agli argomenti che si usano per criticarlo, se non si vuole fare il gioco di chi il VQR non vorrà farlo mai e poi mai.
- Renzo Rubele 16 Marzo 2012 At 20:46
  
  Non stiamo, infatti, parlando di “deduzione” – al limite di “abduzione”.
  
  Peccato, però, che gli stessi Australiani abbiano abdotto di seppellire in tutta fretta l’ERA 2010 con un frettoloso ERA 2012 (riferito, ricordo, a ben 6 – SEI – anni di produzione). Si vede che erano rincorsi da un canguro…
Alberto Baccini 17 Marzo 2012 At 08:31

Sull’Australia. Le evidenze degli effetti negativi sui comportamenti sono, diciamo così, scarne. Ciò che è stato invece evidenziato con una certa forza (anche se per settori limitati: forestry Vanclay ricordato da Rubele; management link in calce al commento) è la “distorsione” del ranking.
La mia impressione -ma è davvero solo un’impressione- è che malgrado ci abbiano messo due anni a farlo, il ranking australiano soffrisse degli stessi difetti di quelli che l’ANVUR produrrà/ha prodotto con il VQR. Aggiustamenti ad hoc, inserimento di riviste sulla base della capacità di lobbying delle società scientifiche e di interessi particolari di gruppi accademici. Qui http://www.iier.org.au/iier20/editorial20-3.html ci sono le evidenze aneddotiche al riguardo.
(Tra parentesi: in Australia le classifiche le hanno fatte 700 esperti 2 anni prima! della partenza dell’esercizio di valutazione. In Italia -soluzione a mia conoscenza inedita- sono i GEV a produrre le classifiche! Questo amplifica i problemi).

In UK il direttore del REF in una audizione alla Camera dei comuni ha esaltato la superiorità del modello inglese di valutazione basato sulla peer review, citando proprio il fallimento del modello australiano.
Il modo in cui l’ANVUR sta conducendo l’esercizio di valutazione fa sembrare il modello australiano un esercizio di raffinatezza irraggiungibile. Magari lo avessimo adottato.

http://onlinelibrary.wiley.com/doi/10.1111/j.1467-629X.2011.00432.x/abstract?systemMessage=Wiley+Online+Library+will+be+disrupted+17+March+from+10-14+GMT+%2806-10+EDT%29+for+essential+maintenance

Entra per lasciare un commento
- Francesco Guala 19 Marzo 2012 At 09:34
  
  Grazie – comincio a capirci qualcosa. L’argomento di Moosa è che siccome in alcune discipline si sono messe riviste mediocri in fascia A, le strategie di pubblicazione dei ricercatori potrebbero cambiare in peggio. (Notare come nell’abstract i behavioral changes sono presentati come un fatto, mentre nel corpo dell’articolo diventano un’ipotesi.)
  In ogni caso è chiaro che il danno principale è la distorsione dei ranking, rispetto alla quale i mutamenti comportamentali sono solo una (delle molte) conseguenze negative. Ovvero: se i ranking sono fatti decentemente non ci dovrebbero essere problemi di incentivi perversi.
  … e allora perché continuiamo a ripetere un argomento debole e sbagliato?
VQR: AnvurLeaks, il complotto australiano, la maledizione di Atuk e le classifiche di Pinocchio 31 Ottobre 2012 At 15:36

[…] rigore metodologico (la bibliometria fai-da-te) e la deontologia (la composizione dei GEV e i loro conflitti di interesse nella formulazione dei criteri di valutazione) destano il sospetto che la valutazione sia ostaggio di finalità ideologiche per la cui […]

Entra per lasciare un commento

LASCIA UN COMMENTO Cancella la risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.