«The key components of metric fixation are the belief that it is possible – and desirable – to replace professional judgment (acquired through personal experience and talent) with numerical indicators of comparative performance based upon standardised data (metrics); and that the best way to motivate people within these organisations is by attaching rewards and penalties to their measured performance. The most dramatic negative effect of metric fixation is its propensity to incentivise gaming: take the case of surgeons. Some surgeons will improve their metric scores by refusing to operate on patients with more complex problems, whose surgical outcomes are more likely to be negative. Who suffers? The patients who don’t get operated upon. But metric fixation also leads to a variety of more subtle unintended negative consequences. These include goal displacement, the best-known example is ‘teaching to the test’, a widespread phenomenon that has distorted primary and secondary education in the United States. Short-termism is another negative. The expenditure of employee time by those tasked with compiling and processing the metrics. Attempts to measure productivity through performance metrics discourage initiative, innovation and risk-taking. At the same time, rewarding individuals for measured performance diminishes the social relationships that motivate co-operation and effectiveness. Instead, such rewards promote competition. The question that ought to be asked next, then, is to what extent the culture of metrics – with its costs in employee time, morale and initiative, and its promotion of short-termism – has itself contributed to economic stagnation?»

Segnaliamo l’articolo Against metrics: how measuring performance by numbers backfires di Jerry Z. Muller, pubblicato su Aeon. Dello stesso autore, segnaliamo anche il saggio The Tyranny of Metrics, Princeton University Press 2018.

Send to Kindle

54 Commenti

  1. Prima dell’uso delle metriche era infatti possibile che in alcune situazioni, il barone di turno proclamasse “il sig. X (spesso un allievo) è un genio, poiché lo dico io!”, anche contro ogni evidenza. Adesso è un po’ più complicato.

    • Con l’uso delle metriche le commissioni proclamano, o non proclamano, ”perché lo dice questo numeretto!”, anche contro quella che sarebbe una evidenza se venisse osservata (se cioè le pubblicazioni venissero non dico lette e capite, ma anche solo appena sfogliate). Siamo così passati da una situazione, in cui qualcuno in carne e ossa si assumeva delle responsabilità, a una in cui si pretende di attribuire la responsabilità di certe scelte a fattori che sono solo apparentemente oggettivi, e che non solo non sono oggettivi, ma nascondono tutta una serie di insidie, già messe in evidenza tante volte in questo sito e altrove e nell’articolo in oggetto. Solitamente qualcuno risponde che ”i casi estremi [di comportamento vizioso in regime bibliometrico] solitamente vengono smascherati, e non vale ogni volta appellarsi a quei casi estremi”. Si potrebbe naturalmente rovesciare questa risposta, e affermare che anche nel vecchio sistema ”i casi estremi venivano solitamente smascherati”, e che di solito gli individui di valore riuscivano a emergere e vedere riconosciuto il loro genio, ma temo che questa risposta non toccherebbe il cuore del problema. Ad esempio, il valore matematico di H.G. Grassmann, se non erro, non è stato riconosciuto a pieno quando era in vita. Sono cose che capitano: noi uomini non siamo infallibili. Per contro, i dati bibliometrici non sono oggettivi, come si pretende, ma dipendono a monte da tutta una serie di scelte umane, che possono essere fallibili, per tutta una serie di ragioni. Ad esempio, la ”doubling condition”, attribuita comunemente a un lavoro degli anni Settanta di Coifman e Weiss, che l’hanno usata per capire a fondo certi spazi di funzioni nati nel contesto degli studi di analisi armonica, era già stata isolata in un lavoro di Hormander negli anni Sessanta, ma circa 5 anni prima di Hormander era già stata studiata da K. Smith. Di solito nella letteratura si possono trovare citati questi autori, attribuendo la priorità a questo invece che a quello. La verità è che era stato A.P. Morse (il maestro di H. Federer) a isolare quella condizione, in lavori pubblicati negli anni Cinquanta o forse Quaranta, non ricordo bene. In somma, un discorso serio su quale sia la scelta migliore deve essere ben articolato, e non ridursi a una battuta. A me sembra che la discussione svolta qui e altrove abbia già mostrato che la via intrapresa dovrebbe essere abbandonata. Una delle motivazioni più stringenti che ho visto è stata avanzata da A. Figà Talamanca: con questo sistema i giovani sono spinti a inseguire le mode invece che la loro curiosità, e così facendo sono spinti a comportamenti contrari all’etica scientifica, che vuole che lo scopo della scienza sia la comprensione della natura e non la costruzione di prodotti secondo la moda del momento.

    • Caro Di Biase, grazie della risposta. Essa contiene tutta una serie di nomi di matematici (Coifman, Weiss, Hörmander, Morse, Federer etc) che sono sia di eccezionale livello che citatissimi. Tutte conferme dell’alta correlazione tra le due cose.

    • il barone di una volta ha indossato l’abito di Sua Eccellenza.
      Non c’è molto da capire.
      Una volta la discriminazione avveniva per censo “il sig. X (spesso un allievo) è un genio, poiché lo dico io!” oggi avviene che “il sig. X (spesso un allievo) è un genio, poiché abbiamo fatto in modo che abbia i numerini magici giusti!”
      Ai sostenitor dell’eccellenza un tanto al chilo più non dimandare…
      Non mi pare ci sia un granché di oggettività nel nuovo sistema. Ma a quanto pare piace così.
      Tutto cambia perché nulla cambi.

    • Certo, adesso è un po’ più complicato far eleggere senatore il proprio ronzino. Anche sepellire la propria auto sotto una colata di cemento rende più complicato rubarla. Basta non vedere gli effetti collaterali della colata di cemento e ci si può illudere di vivere in un mondo migliore, grazie alle valutazioni “un tanto a citazione a prescindere dalla sostanza”.

      In questo entusiasmo per la metriche, ci si dimentica, stranamente, di tutta una serie di effetti collaterali simili alla colata di cemento.
      Per esempio, che anche in presenza delle migliori metriche possibili (su cui la prima domanda di un matematico dovrebbe essere :”esistono?”), c’e’ poi la questione di *quali* vengono effettivamente utilizzate. Da lungo tempo ho imparato che non ci sono strumenti “neutri”. E discutere in astratto può servire solo a nascondere le magagne del sistema reale. Invece di inchinarci davanti all’ “oggettività” delle metriche, vogliamo discutere del perché e quali effetti dà il pesare quasi solo la produzione più recente? o del perché se ne parla ma non si tocca mai realmente il problema delle collaborazioni (soprattutto le grandi collaborazioni)? E non e’ un problema che si puo’ liquidare con le bizzarre normalizzazioni anvur. E’ una questione che va al cuore del problema. Non toccarla equivale a dimostrare che l’entusiasmo metrico ha i suoi scheletri nell’armadio.

      Ultima osservazione: dubito che Jerry Z. Muller abbia scritto il suo articolo per difendere comportamenti caligoleschi dell’ accademia. Qualche volta uscire dalle logiche italiche aiuterebbe a mettere meglio in prospettiva problemi e soluzioni.

    • “Qualche volta uscire dalle logiche italiche aiuterebbe a mettere meglio in prospettiva problemi e soluzioni.” — Concordo Pastore. Infatti il problema è che quando in Italia si parla di metriche, si pensa sempre a VQR e ASN, dove le metriche sono usate, per come la vedo io, male.

  2. Caro Mingione, ti ringrazio per la tua attenzione. Volevo dire che a un certo punto tutti si sono dimenticati di quel contributo di A.P. Morse, che è stato riscoperto da altri più volte, ed è stato attribuito ad altri, secondo tendenze che erano più il riflesso dei rapporti di forza tra le varie scuole che della verità bibliografica (per dire: la scuola scandinava tende a citare Hormander, eccetera). Di conseguenza, i dati bibliometrici sono stati falsati, rispetto alla suddetta verità. Questo per dire che nemmeno il complesso dei dati bibliometrici è oggettivo, ma esprime, tra l’altro, più il risultato dei rapporti di forza tra varie scuole, che la priorità nelle scoperte (l’idea —viziosa, si capisce— è che coloro che, per una ragione o un’altra, non sono più influenti, si possono tranquillamente ignorare senza incorrere in difficoltà). Ora, si potrebbe sostenere che questo caso che ho citato è un caso particolare, singolare, che non fa testo. Io invece credo che sia esempio di un fenomeno molto diffuso e significativo.

  3. La domanda cui rispondere è se per l’Accademia italiana sia preferibile l’uso rigido delle metriche o la chimera di una piena responsabilità delle scelte. Con qualche inevitabile vittima meritevole e inevitabili casi opposti, l’applicazione diretta delle metriche, senza ulteriori valutazioni, avrebbe un immediato effetto purificatore, da cui ripartire per costruire un sistema più equilibrato e responsabile di reclutamento.

  4. Il fatto che tutte le metriche vengano calcolate prescindendo dal numero di autori aiuta molto le pratiche di chi vuole facilitare qualcuno: basta far mettere il suo nome in molti articoli, cosa che non comporta alcuno svantaggio per gli altri autori. Per non parlare della formazione di cordate di persone che si scambiano firme e citazioni. Credo che tutti noi ne conosciamo diversi esempi.

  5. Giuseppe Mingione, esattamente!!! Una selezione basata non certo sul raggiungimento delle mediane ma del 5-10% superiore. Senza ulteriori valutazioni, senza il carnevale delle commissioni di concorso.
    Marinella Lorinczi, eviterei questi riferimenti storici fuori contesto. Se non c’è niente da risolvere nè aggiustare, cosa risponde Lei ad un/a neo-laureato/a che Le chiede come fare per intraprendere la carriera universitaria? A me hanno raccomandato – circa 25 anni fa – di cercare un gruppo politicamente potente, non di fare del mio meglio. In 25 anni è cambiato poco o nulla, nella sostanza, tranne l’interferenza (ancora troppo timida, a mio avviso) dell’ANVUR.

    • Andrea CORNIA: “tranne l’interferenza (ancora troppo timida, a mio avviso) dell’ANVUR”
      _____________
      Sì, sì, di più, di più. Dateci 50 anzi 100 sfumature di Anvur! Vogliamo anche i frustini con stampigliato VQR sul manico. Ci sono colleghi la cui ironia è spiazzante.

    • La generalizzazione del suo caso personale non aiuta e non porta da nessuna parte, nel ragionamento. Per conto mio, mi sarei allontanata soprattutto da chi dava questi consigli. Mi sembra che vengano equiparati o sovrapposti indebitamente il ruolo politico, istituzionale e scientifico. È ovvio che ci saranno intersecazioni, ma i rapporti umani sono complessi, e che dall’importanza politica derivi semplicement e automaticamente anche l’importanza o eccellenza scientifica è un modo di concepire le cose che a lungo o medio termine si paga, come è successo nel caso di Elena Ceausescu. Ho semplificato il caso, ma sta di fatto che c’ è stata una commistione eticamente scorretta.

  6. Marinella Lorinczi, non ha risposto alla domanda e ha anche frainteso. Chi ha detto che dall’importanza politica discende l’importanza scientifica? Ciò che contesto è un politicismo sterile, demolitivo di ogni riferimento scientifico e culturale. Ritiene che le qualità scientifiche in Italia vengano riconosciute come un valore in sé? O è più importante sapersi inserire in un sistema di relazioni e di consenso, cui gli attuali meccanismi di (blanda) selezione e reclutamento non impediscono di riprodursi ed estendersi? Altro che caso personale. Si tratta di spiegare che in tutto il mondo un ragazzo che compare come primo autore sul un lavoro pubblicato da Nature suscita interesse. In Italia, è

  7. Marinella Lorinczi, non ha risposto alla domanda e ha anche frainteso. Chi ha detto che dall’importanza politica discende l’importanza scientifica? Ciò che contesto è un politicismo sterile, demolitivo di ogni riferimento scientifico e culturale. Ritiene che le qualità scientifiche in Italia vengano riconosciute come un valore in sé? O è più importante sapersi inserire in un sistema di relazioni e di consenso, cui gli attuali meccanismi di (blanda) selezione e reclutamento non impediscono di riprodursi ed estendersi? Altro che caso personale. Sono casi quotidiani.

    • Me ne scuso, lei ha ragione, non le ho risposto. Non conosco il suo percorso di studi, mentre conosco il mio e quello della mia generazione. Tenga anche in conto che mi sono laureata all’estero, e che ho iniziato la carriera universitaria in Italia. A un neolaureato (maschio o femmina) non direi niente senza aver visto la sua tesi magistrale o specialistica che sia, anzi senza averne anche discusso prima e dopo la laurea, magari in presenza di altri esperti. Dopo, eventualmente, gli/le consiglierei il dottorato, e poi si vedrebbe. Certo, il peso accademico del tutore importa eccome, ma nella società non esistono comparti stagni, oppure pochissimi possono permettersi di occuparne uno, quelli eccezionali, in negativo o in positivo. La libertà assoluta normalmente non esiste. Se le metriche anvuresche, dico dell’Anvur e non di altre agenzia, hanno la pretesa folle di quantificare la qualità, introducendo continuamente nuovi vincoli retroattivi, questo sembra essere una modalità , che riflette una volontà, di destrutturazione dell’università anzi che di risanamento. Vi è alla base una ideologia di psuedoscientismo, come quando la misurazione cranica o cefalica, nell’Ottocento , era ricompresa nel razzismo ‘scientifico’. Tutti vogliono entrare nell’immortalità attraverso la propria opera, ma non sarà l’Anvur a garantirlo, anzi, ché promuove il conformismo, la ricerca a chilo e a pagine.

    • A proposito di “blanda selezione” che invece è stata insensata e feroce. Non ho fatto statistiche, non è il mio mestiere, ma nella tornata del 2012 della ASN, guardandomi intorno ho visto le 4 possibilità realizzate (che non potevo ovviamente quantificare con precisione e estendere a livello nazionale): meritevoli respinti, non meritevoli promossi, meritevoli promossi, e non meritevoli respinti (ragionando per conoscenza diretta del loro operato). E poi iniziava il calvario del concorso locale, dove ho visto vere e proprie ingiustizie: persone promosse che sono state scartate o messe in attesa eterna, altre invece, per ragioni non trasparenti, portate subito a concorso, mentre non c’era nessuna speciale ragione né di urgenza didattica né di supereccellenza scientifica. Ad altre ancora hanno fatto fare un percorso amaro di rallentamento strategico. Blanda selezione?

  8. Grazie del commento. Proprio per questo auspico una selezione più rigida da parte di un organismo esterno agli Atenei. Dubito che nel 10% superiore della distribuzione si trovino candidati non meritevoli. Certo, se il requisito invece è superare la mediana allora può verificarsi di tutto. Compresa la farsa dei concorsi locali.

  9. Chi mi conosce sa che ho sempre avuto un’unica idea su queste cose. Abolizione totale delle mediane per i candidati all’ASN e istituzione di mediane, altissime, esclusivamente per i commissari. I vantaggi mi paiono evidenti. Prima di tutto, si smetterebbe di tentare di gonfiarsi i parametri: i candidati per ovvi motivi, i candidati commissari perché truccare i dati fino a raggiungere soglie altissime è assai difficile se non impossibile. Non solo, questo comporterebbe un miglior uso della bibliometria, che diventa significativa solo per valori estremali. Al momento invece le mediane, sia per i candidati che per i commissari, sono abbastanza intaccabili da eventuali manipolazioni, e, inutile dirlo, questo favorisce chi si organizza in consorterie, lasciando fuori qualcuno perché magari non ha fatto in tempo ad organizzarsi. Perché non si è proceduto in questa direzione? Forse, come scriveva qualcuno su, per lasciare le cose invariate, con un po’ di burocrazia in più, ovviamente, che non ci fa mai male.

    • Sì, ma le soglie altissime per i commissari nel giro di neanche una tornata bloccherebbero tutti i concorsi in eterno. E’ un po’ la storia del tipo che voleva far dispetto alla moglie.

    • Nel senso che, realisticamente, soglie troppo alte impedirebberero la formazione delle commissioni. No commissioni no concorsi. No concorsi no carriera (per i candidati: per i mancati commissari, alla fine della fiera, la vita va avanti).

  10. Grazie a tutti, forse dovremmo cambiare mestiere e trasformarci in umoristi.
    L’automobile non rubabile perchè coperta dalla colata di cemento e le 100 sfumature di ANVUR mi sembrano trovate decisamente originali e profonde.

    (Un commento molto marginale e fuori tema. Per quel che ne so, il valore di Grassmann non è stato riconosciuto al suo tempo non solo perchè era tremendamente avanti rispetto appunto ai suoi tempi, ma anche perchè scriveva in maniera quasi incomprensibile. )

    Per quel che riguarda le metriche non riesco proprio a capire come si possa dare loro un qualunque valore senza prescindere dal motivo per cui si cita. Ci sono articoli citatissimi perchè sbagliati (e ovviamente, anche qui ci possono essere differenze sostanziali: “guardate che lì sta scritto così ma è sbagliato perchè l’autore è un incompetente totale”; oppure “quello è un lavoro importantissimo pieno di risultati eccellenti, peccato che l’autore si è distratto e purtroppo quel singolo teorema è sbagliato”), articoli citati normalmente come uno dei tanti autori che hanno contribuito allo studio dell’argomento, e autori citati perchè hanno scritto un lavoro fondamentale. Ma allora, se deve essere così, datemi la possibilità di dividere la sezione “references” in sottosezioni!

    Se io dimostro un risultato parziale, poi vengo citato da chi lo migliora e così via. Se trovo la soluzione definitiva a un problema, ovviamente il mio lavoro vale molto di più di tutti i risultati parziali. Ma spesso questo chiude il campo di ricerca, per cui non verrò mai più citato. Guarda Balogh https://en.wikipedia.org/wiki/Zolt%C3%A1n_Tibor_Balogh che ha risolto problemi di topologia che erano rimasti aperti per decenni e che ha ricevuto per questo una miseria di citazioni https://scholar.google.it/scholar?hl=it&as_sdt=0%2C5&q=morita+balogh&btnG= Ma nemmeno chi dimostra un teorema di unicità per qualche equazione differenziale, che spesso non è niente di più che un esercizio, ma anche lui becca più citazioni.

  11. Chiedo scusa a tutti, sono 10 anni che faccio ricerca, ma non capisco di cosa si stia parlando.
    Le citazioni sono un indice di quanta diffusione abbia un certo lavoro. Ovvio.
    Ma non riesco ad accettare che ricevere una citazione sia uno dei fini del mio lavoro.

    Emanuele Martelli.

    • Concordo perfettamente con Martelli. Le citazioni misurano l’impatto di un lavoro, non sono necessariamente sintomo di qualità, ma tra le due cose esiste sicuramente una forte correlazione. Su di esse si è diffusa una confusa aneddottica di tipo leggendario, fatta di casi particolari, citazioni ricevute per lavori sbagliati (casi veramente ipersingolari che vengono richiamati costantemente come se fossero all’ordine del giorno), casi anacronistici che provengono da altri tempi, etc. Per non parlare di chi le critica senza aver mai capito come funziona una banca dati. Se venissero usate bene sarebbero molto utili. Certamente i primi ad aver paura delle citazioni sono i baroni (locali e internazionali) e chi detiene potere accademico. Persone abituate a prendere decisioni importanti in ambiti particolarmente ristretti e a non dover dar conto a nessuno se non a se stessi. Eviteremmo, o almeno limiteremmo, fenomeni di premi internazionali che si passano da un vincitore all’altro secondo un rapporto di affiliazione diretto etc, fenomeni simili legati a grant etc. Le citazioni sono un parametro che fa riferimento ad una comunità generale e come tale viene temuto da chi è abituato a gestire tutto in modo esoterico e autarchico, in nome della famosa “qualità”, concetto che poi spesso cambia da gruppetto a gruppetto. Certamente, molte delle persone che vi si oppongono si riferiscono all’uso particolare che se ne fa per la valutazioni e le abilitazioni, che è un uso discutibile, ma non dovrebbe essere quella la discriminante.

    • Tra l’altro delle analisi recenti mostrano che, analizzando le code, cioè le persone con citazioni particolarmente alte, la correlazioni che scienziati molto citati e scienziati che vengono ritenuto molto bravi per altri motivi (classica fama scientifica, premi, riconoscimenti, posizioni etc) diventa altissima.

  12. Il problema cruciale è se e quanto sia necessaria la valutazione e a quali scopi. La bibliometria è indubbiamente pessima per i motivi riportati nell’articolo e per altri ancora, ma di fatto non ha alternative. In una VQR vengono richiesti 2-3 articoli per addetto che, con oltre 55.000 addetti fa un totale di oltre 160.000 articoli. Servirebbero migliaia di valutatori per leggerli tutti. E non è garantito che la valutazione fatta leggendo gli articoli sarebbe migliore di quella bibliometrica, perché la qualità e la competenza dei valutatori sarebbero molto variabili. Quando l’obiettivo, in questo caso la valutazione della ricerca, è palesemente così difficile e costoso da raggiungere occorre chiedersi se valga davvero la pena di perseguirlo. Alla fine noi sappiamo che la ricerca italiana è complessivamente buona, soprattutto in relazione alle scarse risorse pubbliche investite: cosa dobbiamo scoprire di più?

    • Concordo con la conclusione: la valutazione massiva è al minimo del tutto inutile, più probabilmente dannosa (speriamo in modo non irreversibile). Non è invece fattualmente vero che un esercizio massivo richieda per forza l’uso della bibliometria. Il REF britannico valuta un numero di prodotti superiore a quello della VQR, e lo fa con peer review e un numero limitato di revisori (la valutazione viene svolta prevalentemente dai membri dei panel).

    • Che si possa fare una valutazione massiva “leggendo i lavori” è più che altro una leggenda ad uso retorico. Se a qualcuno fa piacere crederci, padronissimo. Nel migliore dei casi i lavori vengono soltanto sfogliati e d’altra parte non potrebbe essere altrimenti. Basta stare nel comitato editoriale di una rivista internazionale per capire quanto sia difficile trovare un referee competente e, a volte, quanto sia difficile trovarne semplicemente uno. Figuriamoci trovarne centinaia… tutti competenti e uniformati allo stesso standard. A quel punto, su grandi numeri, persino la bibliometria versione ANVUR diventa più affidabile, perché uniforme, come diceva giustamente Bellelli. Che la ricerca italiana sia complessivamente buona mi pare un dato di fatto, ma la sua qualità è distribuita in modo estremamente variabile. Un divario tra Centro-Nord e Sud mi pare per esempio evidente, e quindi la valutazione mi pare cosa utile per identificare dove magari intervenire. Certo andrebbe aggiustata perché i metodi attuali della VQR sono, almeno a mio parere, ma non solo, non adatti a rilevare la qualità scientifica.

    • Vorrei ricordare che la VQR, rispetto alle c.d. aree ‘non bibliometriche’ (10, 11a, 12, 14), già prevede l’uso della peer review nel 100% dei casi. Il risultato è che il valore medio dei prodotti di quelle aree è risultato il più basso. Perché effettivamente lo è, o perché i revisori non sono stati all’altezza? Propendo per questa seconda ipotesi. Ma credo anche che un sostituto alla peer review non ci sia; l’unica via per rendere la VQR minimamente sensata è appoggiarla al 100% sulla peer review. Ma è anche vero che, se si vuole rafforzare la cultura della revisione tra pari, il modo migliore non è quello di distribuire (poche) risorse ‘premiali’, non aggiuntive bensì sottratte al finanziamento complessivo, sulla base di valutazioni nelle quali il valutatore conosce il nome del valutato, ma non viceversa.

    • Sarebbe il caso di capire una buona volta per tutte dove sono tutti questi pari, e all’altezza, in grado di revisionare tutti quei lavori e in modo uniforme. Per una valutazione della ricerca massiva quella bibliometrica rimane l’unica strada, ma da percorrere in modo più professionale. Per esempio: non chiedere a tutti gli stessi lavori, allungare i tempi (che 4 anni non sono indicativi).

    • @Giuseppe De Nicolao: ovviamente non sappiamo cosa sarebbe successo se tutta la valutazione fosse stata affidata ai fantomatici “pari” (che in questi casi escludono sistematicamente le persone più qualificate, che normalmente hanno meglio da fare e si rifiutano di perdere tempo).

    • E dove sono, secondo questa logica, tutti i pari ‘all’altezza’ di valutare, nei prossimi mesi, i 4500 progetti PRIN presentati quest’anno? Bisognerà trovarli, in qualche modo. L’alternativa è sorteggiare i vincitori.

    • Proietti, mi pare un paragone improprio. C’è una piccola differenza tra un lavoro e un prin. In questo caso i progetti sono ovviamente molti meno – di varie scale – e i “pari si trovano nel resto dell’europa.

  13. Va anche chiarito, ovviamente, che i “pari” spesso tali non sono, data l’iperspecializzazione dei vari settori scientifici bibliometrici. Ne segue una pseduovalutazione ancora peggiore di quella già pessima e bibliometrica, e che inoltre viene inevitabilmente viziata da fattori di appartenenza politica (in certi settori molti sono ansiosi di prendersi qualche piccola rivincita sul collega più bravo, vedi anche sopra i peggiori risultati delle valutazioni interamente operate via peer-review). Come accennavo sopra, sarebbe ora di finirla con le leggende e di cominciare a guardare la realtà in faccia. Le valutazioni massive si possono fare in due modi: valutazione bibliometrica o site visit di una commissione di esperti (cosa che avviene in vari paesi europei). Tutte e due hanno i loro difetti. La prima, se operata su larga scala e in modo corretto, riesce ad essere più fredda. La seconda può avere dei bias pesanti. Ma per favore finiamola con le leggenda del “bisogna leggere i lavori”, che tutti questi lavori nessuno li legge.

  14. I RAF inglesi e la VTR italiana hanno utilizzato una metodologia diversa da quella usata dalla VQR. Si chiedeva infatti alle sedi (e indirettamente ai singoli) di scegliere un numero limitato di lavori scientifici da presentare. Questo consentiva ai “panel” di prendere in considerazione un numero limitato di lavori. “Bibliometria” e referees erano quindi usati solo sotto la responsabilità del “panel”. Probabilmente erano utilizzati anche altri metodi non confessabili ufficialmente. Ad esempio è possibile che il “panel” abbia classificato eccellente il lavoro di Wiles che dimostra il cosiddetto ultimo teorema di Fermat, senza leggerlo. Immagino anche che una pubblicazione sulla rivista “Annals of mathematics” possa essere stata dichiarata eccellente senza che nessuno del “panel” la leggesse, e senza interpellare le banche dati. Il problema della VQR era che si proponeva di “snidare i fannulloni” e non di premiare i più bravi. Questo ha reso necessario l’esame di una moltitudine di lavori di basso livello, rendendo a questo punto la “bibliometria” uno strumento che appariva indispensabile. Una volta assegnata la responsabilità delle scelte ad un “panel”, diventa irrilevante se si usano criteri numerici o referees, o sentito dire, o la notorietà dell’autore, o, caso estremo ed improbabile, la lettura del lavoro. Il problema naturalmente si riduce a come fare a nominare un “panel” di persone serie e preparate.

    • Figà Talamanca, lascerei perdere i casi ipersingolari, che si tirano troppo spesso in ballo come se fossero cosa quotidiana e non eccezioni. Giudicare un lavoro dalla rivista su cui è pubblicato rappresenta l’uso peggiore possibile della bibliometria, come chiarito in più occasioni da varie commissioni di società scientifiche. Questo ha negli anni portato a distorsioni che sono costate carissime. (Per rimanere nel nostro campo, penso solo ai danni che ha portato una certa iperesterofilia italiana che ha consistito per anni nell’affidarsi ciecamente, via pubblicazione su rivista o opinione diretta, al giudizio di qualche santone estero. Che certo è i suoi allievi migliori non è interessato a mandarli da noi….). Personalmente credo che un lavoro non dovrebbe mai essere dichiarato “eccellente” solo in base alla rivista su cui è pubblicato. È infatti completamente distorsivo lasciare nelle mani di un board di poche persone il potere di condizionare le valutazioni in tutto il mondo (per non parlare del fatto che, come noto, ogni rivista, nessuna esclusa, ha ovviamente le sue corsie preferenziali). Il vero problema della VQR è stato appunto fare una valutazione di facciata con l’intento invece di dimostrare che c’erano tanti fannulloni. Intento non riuscito, poiché tutti questi fannulloni non c’erano. Ne è seguita appunto la pseudovalutazione di una montagna di carta, valutata secondo criteri bibliometrici traballanti. Fare una valutazione migliore non era difficile; bastava però volerla fare. Non farne una con altri intenti (bastava chiedere per esempio a ogni dipartimento un numero rappresentativo di lavori, e non lavori a tutti).

    • “Il problema della VQR era che si proponeva di “snidare i fannulloni” e non di premiare i più bravi”: eehh?!? La VQR ci è stata narrata come meccanismo per snidare i fannulloni, allo scopo di carpirci un po’ di consenso, ma la completa assenza di provvedimenti verso i supposti fannulloni ed il contemporaneo incremento delle idiozie da fare per svolgere il proprio lavoro (cfr “Io non uso il mepa” o altro intervento su roars di N. Casagli), inclusa la classifica “a rumore prevalente” di tutti noi, dei nostri dipartimenti confrontando le mele con le ragnatele, etc. etc., dovrebbe aver convinto tutti che si trattava solo fumo negli occhi.

  15. Mi hanno raccontato di riviste in fascia A che sono rimaste lì anche se non escono regolarmente o non escono da molto tempo, di riviste che siccome hanno pubblicato numeri doppi (probabilmente a causa della corsa alla maggiore quantità), ne sono state rimosse, di informazioni non comunicate per anni dall’Anvur a chi le chiedeva su certe caratteristiche formali che le riviste online dovrebbero avere. Ma si sta giocando a poker? Oppure i grandi numeri mettono semplicemente in difficoltà, laddove ogni unità ha qualità diverse? Oppure, più semplicemente ancora, hanno realizzato che il mondo è grande e vario?

  16. Confesso di non capire. Si sostiene che l’uso della peer review per la valutazione della ricerca è troppo oneroso (in senso di tempo, energie etc)? E quindi la valutazione bibliometrica sarebbe l’unica soluzione?

    A me pare che la bibliometria si basi interamente sulla peer review, io definirei la bibliometria un simulacro della peer review. Per essere citato, prima devo essere pubblicato, e questo viene deciso tramite peer review. Poi chi è che mi cita, se non i miei “pari”? Quindi, pianamente e semplicemente, senza la peer review, manco esisterebbe la valutazione bibliometrica. Punto.

    Cos’è che non va? Generalmente il processo di peer review funziona, quindi la quantità di materiale pubblicato ha un suo valore grossolano, magari misurato in pagine e non in numero di lavori. D’altro canto, io cito un lavoro per vari motivi, per aiutare il lettore, per riconoscere un contributo, o semplicemente, metti, cito una survey per comodità (il chè concettualmente equivarrebbe a citare gran parte dei lavori citati nella survey, cosa che sarebbe impraticabile per un articolo corto). Quello che è insensato è supporre che io, mentre preparo una bibliografia, sto in contemporanea preparando una classifica della letteratura esistente; cioè i filobibliometrici sottintendono che io nel preparare la bibliografia sto effettuando una peer review della letteratura scientifica sull’argomento. Invece i motivi per le citazioni in bibliografia sono semplicemente quelle di aiutare e facilitare la lettura dell’articolo, più, indubbiamente, a volte, alcune citazioni che costituiscono un riconoscimento, e che potrebbero in teoria essere tolte dall’articolo senza comprometterne la leggibilità.

    Quindi, con la bibliometria, si sta utilizzando in maniera assolutamente impropria uno strumento, la bibliografia, deputato a scopo completamente diverso. Sui grandi numeri tutto questo può avere comunque un senso? Una valutazione della ricerca a livello nazionale? Ad un livello indicativo probabilmente sì. Invece già sarei molto scettico sulla valutazione di un singolo dipartimento. Per quel che riguarda una valutazione individuale, sicuramente l’analisi bibliometrica è fallimentare. Un singolo non è che debba essere valutato in continuazione, gli eventi fondamentali dell’assunzione o di una promozione giustificano una accurata valutazione analizzando i suoi contributi. Da parte di una commissione il cui giudizio non sarebbe oggettivo? Beh, in un certo senso sì. Il fatto è che nemmeno una valutazione bibliometrica avrebbe niente di oggettivo. Intanto perchè frutto di una somma di giudizi soggettivi analoghi… Ma soprattutto perchè frutto di valutazioni effettuate con fini completamente diversi.

    Il punto mi sembra questo: se non si riconosce alcun valore alla revisione fra pari, beh, nemmeno la valutazione bibliometrica ha alcun valore, perchè discende inevitabilmente dalla revisione fra pari. Gli articoli sono accettati tramite revisone fra pari, e citati da “pari”. Altrimenti, se si riconosce valore alla revisione tra pari, allora, per decisioni importanti quali assunzioni o avanzamenti di carriera etc, non si possono usare surrogati mal congegnati.

    Non posso che sottoscrivere il commento sopra di Andrea Belleli. Si parte dal postulato che bisogna valutare tutto sempre e comunque a tutti i costi. I costi di una valutazion seria sono immensi. Quindi si procede ad una valutazione con criteri insensati. Questo dimostra solo che il postulato è falso. Le valutazioni serie sono possibili, lo dimostra il fatto che la peer review sostanzialmente funziona. Quando c’è assolutamente bisogno di valutazione, si proceda allo stesso modo.

    • –> “A me pare che la bibliometria si basi interamente sulla peer review…”. “…se non si riconosce alcun valore alla revisione fra pari, beh, nemmeno la valutazione bibliometrica ha alcun valore”. Ovviamente no, anzi, il contrario. Il referee è uno solo, la bibliometria si basa sul contributo di un’intera comunità. Poi oggi, con l’abbondare di riviste e il fatto che hanno queste ultime hanno aumentato la mole di quanto pubblicano, tutto il processo di peer review è diventato più morbido. Trovare referee qualificati e meticolosi è cosa praticamente impossibile.

      –> “Generalmente il processo di peer review funziona”. Non ne sarei così sicuro. Ovviamente la compilazione di una singola bibliografia non vuol dire fare una classifica di qualità. Ma ovviamente se applicato a tanti autori la cosa dà una misura dell’impatto.

      –> “…i filobibliometrici sottintendono che io nel preparare la bibliografia sto effettuando una peer review della letteratura scientifica sull’argomento”. Non m pare di aver mai sentito queste cose. L’idea di base è che se un articolo viene citato molte volte è perché contribuisce alla conoscenza della letteratura e quindi contiene qualcosa di interessante.

      –> “Per quel che riguarda una valutazione individuale, sicuramente l’analisi bibliometrica è fallimentare”. Ovvio. Le citazioni possono diventare significative solo se prese sulle code, soprattutto per sfatare miti. Non certo nelle medie. Prese nelle code, invece, danno informazioni significative. Hanno per esempio contribuito a ridimensionare l’imagine di numerosi baroni. Anche per questo non piacciono.

    • Sì, ma allora siamo daccapo, come valutiamo chi non sta sulle code?

      Se ha un senso sostenere che chi è molto citato è “bravo”, io non credo affatto che questo sia un se e solo se, cioè che tutti gli studiosi bravi siano moltissimo citati. Certo, citato zero vuol dire sicuramente scarso (o il caso ipersingolare di genio incompreso, che qui non ci interessa), ma nel “mediamente citato” ci sono molti casi completamente diversi e non paragonabili. Senza contare che comunque dovremmo fissare un ambito di riferimento, e questo sembra non si riesca a fare in maniera sufficientemente neutra. Il miglior gruppista finito è sicuramente citato meno di un analista funzionale mediamente bravo. Appena scrivo un articolo in collaborazione con un biologo le citazioni che ricevo decuplicano, o anche più.

      Sui grandi numeri, certo, i risultati sono più affidabili che sui piccoli numeri, ma solo se non ci sono distorsioni sistematiche, e queste continuo a sostenere che ci siano nelle citazioni sugli articoli di ricerca. Chi chiude completamente il campo perchè risolve definitivamente un problema viene raramente citato (a meno che non sorgano altri problemi collegati, effettivamente questo succede spesso, ma non sempre).

      Se tu mi parlassi di citazioni su libri e su rassegne, sarei d”accordo che si tratta di un indice discretamente affidabile. Essere citato su articoli di ricerca è un criterio troppo debole, risente delle mode, dipende da tendenze volubili e, ripeto, si citano in contemporanea contributi fondamentali da un lato e minimi progressi dall’altro. E il bello è che, almeno fino apoco tempo fa, le citazioni su libri manco venivano contate!

      Probabilmente sarebbe interessante fare un’analisi statistica confrontando citazioni su libri e su articoli. E anche, se permetti, confrontare “quante volte” vieni citato, rispetto al “da quanti lavori” vieni citato. Siamo all’assurdo che se un articolo viene diviso in due (magari anche solo per ragioni editoriali, una volta succedeva), tu vieni citato il doppio. Tu dici che statisticamente è insignificante? Forse sì… Ma io direi che il “numero di citazioni” versus il “numero di citazioni rispetto a lunghezza dell’articolo che cita e al numero totale di citazioni ivi presenti” darebbe risultati significativamente diversi anche sui grandi numeri. Chissà se qualcuno ha fatto qualche analisi.

      Ma il punto è, anche dando per buono tutto quello che dici, cosa facciamo per quello che non sta sulle code?

    • Io penso cha la bibliometria vada usata solo sulle code. Nei valori medi è poco indicativa. Tutto qui. Questo se stiamo valutando singoli. Se invece valutiamo strutture, allora il discorso è diverso e possiamo prendere dati aggregati dove certe singolarità si riomogennizzano. Certo, la VQR, come è fatta adesso non ha senso. Andrebbe però fatta su un periodo di almeno dieci anni e le mediane per concorrenti nell’ASN andrebbero cancellate. Ma sulle code diventa la bibliometria diventa significativa. Difficile sdoganare un genio con pochissime citazioni, difficile truccare. La distinzione tra citazioni su libri e articoli mi pare un pochino vaga.

  17. A proposito di grandi numeri e di piccoli numeri. Alcuni colleghi che si sono assunti l’onere, per spirito di servizio e per rassegnazione, di gestire l’improvvisato iter selettivo e formativo della FIT, oltre a dover valutare migliaia di domande, hanno dovuto anche tenere corsi accelerati per ben oltre mille studenti, coi relativi esami. Il tutto deciso e gestito negli ultimi sei mesi all’incirca. A Parma (o altrove, non importa), recentemente si sono presentati cca 3000 candidati infermieri per UN posto, con la speranza di entrare per lo meno in una graduatoria. Tutto si è svolto perfettamente come su una catena di montaggio collaudata. L’esito non conta.
    Piccoli numeri. Una volta un premier, oramai ex da tempo, aveva come suo avvocato personale un parlamentare, per cui a pagare il lavoro di quest’ultimo, per lo meno in parte, era lo stato. Ora è un personaggio filmico, sulle cui disavventure sentimentali tutti piangono. Un’altra volta, un ex premier decise che mentre era senatore avrebbe fatto dei tours di conferenze pagate, dove avrebbe raccontato, tiriamo ad indovinare, dell’altro premier dei tempi andati nonché delle proprie competenze plurilingui (non dell’altro che sapeva anche il francese) e delle sue frequentazioni di capi di stato o di altri capi di governo, dove a differenza del primo premier, non giocava a cucù.

  18. […] Il misologo antico trovava il suo mestiere nella retorica, cioè nel discorso finalizzato a convincere utilmente e non a cercare inutilmente. Il misologo e misantropo contemporaneo, invece, ha pace nella quantificazione offertagli dai modelli matematici: se i giudizi dei singoli sono soggettivi, la loro aggregazione bibliometrica è invece, come per magia, oggettiva. […]

This site uses Akismet to reduce spam. Learn how your comment data is processed.