Alcune incongruenze – a partire dalle discipline psicologiche – sull’uso di indici bibliometrici per la valutazione nelle abilitazioni per professore di prima e seconda fascia, uso previsto (in termini generici: criteri e parametri differenziati per funzioni e per area disciplinare”) dalla legge 240 e che l’ANVUR si sta sforzando di precisare in dettaglio, anche se con esiti finora discutibili.

Parto da un esempio derivante dal mio ambito disciplinare, che include – spesso nello stesso settore, a seconda degli interessi del singolo ricercatore – sia ambiti di studio sperimentale e con forte valenza laboratoriale, con target di pubblicazione su riviste con alto indice d’impatto, sia campi in cui prevalgono studi storico-epistemologici, oppure applicativi, qualitativi o clinici, il cui target sono sedi editoriali del tutto diverse e con differenti criteri di valutazione e di impatto. Consapevole di tale differenza l’ANVUR, nel suo documento del giugno 2011, aveva proposto di smembrare i diversi settori psicologici dell’area 11/F, collocandone parte nelle aree 1-9 (“scientifiche”), e parte nelle aree 10-14 (“non-so-come-definirle”), ipotizzando l’adozione di criteri diversi. Le associazioni scientifiche di area psicologica si sono fortemente opposte a questa forzata spaccatura – prevista anche per l’area 13 di economia – che creerebbe due tipologie di accademici e sposterebbe su alcuni settori un certo tipo di ricerca e di destinazione dei prodotti, su altri settori un tipo diverso: quanto di peggio potremmo desiderare per il progresso complessivo della disciplina.

Ma al di là della peculiare – e davvero particolare – situazione che così si verrebbe a creare in quest’area disciplinare, è possibile svolgere alcune riflessioni che possono essere estese anche ad altre aree, assumendo come dato ormai imprescindibile l’inevitabilità di criteri che finalmente introducano dei punti fermi nella valutazione dei prodotti scientifici, validi non solo per i candidati ma anche per chi vuole fare il commissario-valutatore. Si tratta in sostanza di proporre un criterio di cut-off ­– mediana di indici di impatto o di citazione, numero ponderato di pubblicazioni, o altro limite, stabilito a priori e divulgato, si spera, con largo anticipo – non superando il quale non si può essere dichiarati scientificamente idonei né per acquisire l’abilitazione né per fare da commissario.

A questo punto entra però in gioco la considerazione differenziale delle aree scientifico-disciplinari proposta dall’ANVUR: mentre i criteri per le aree 10-14 sono abbastanza univoci, quindi chiari da applicare e da prevedere, e possono peraltro essere migliorati e ulteriormente qualificati come auspica l’ANVUR stessa, quelli per le aree 1-9 sembrano aleatori e tutti da verificare; siamo infatti ormai tutti ben consapevoli delle polemiche sull’Impact factor e sui Citation Indicese sulle discrepanze che i calcoli bibliometrici di questo tipo comportano quando si usano motori e banche dati diverse. Ad un recente concorso di ricercatore ho calcolato quattro indici diversi, di impatto e di citazione, ricavandone per gli stessi candidati quattro graduatorie discrepanti, ben difficili da “integrare” tra loro (tab. 1).

Abbiamo anche ipotizzato di usare – anziché i criteri per le aree 1-9 nel quale M-PSI/01 rientrerebbe – quelli per le aree 10-14, calcolando un indice quantitativo derivato dal numero delle pubblicazioni ponderato come suggerito dall’ANVUR. Il risultato è più univoco, ma la correlazione con gli altri indici bibliometrici risulta addirittura di segno negativo! Possiamo accettare che, a seconda della categoria parametrica nella quale arbitrariamente verrà imposto di rientrare, e a seconda di quale indice si scelga di usare, cambi la valenza comparativa del pregio scientifico degli stessi candidati?

Vero è che l’ANVUR più avanti (!?) ci dirà cosa scegliere, magari creando una improbabile combinazione di diversi indicatori, ma intanto un giovane ricercatore che aspira ad una futura idoneità su cosa deve basarsi per programmare la sua produzione e la relativa collocazione editoriale? Su criteri aleatori adesso, e che cambieranno nel tempo?

I criteri ANVUR, tra i quali pare si stia definendo la scelta come lotta per la sopravvivenza (o per il potere accademico?), mi pare abbiano una lacuna di fondo quando pretendono di definire con indici quantitativi chi e bravo e chi non lo è. Da antico cultore di psicometria, capisco che nelle valutazioni si misura – o si presume di misurare – quando non si hanno altri criteri migliori, però il merito scientifico non può dipendere solo da uno score, comunque sia assegnato. Altrimenti converrebbe ai nostri giovani non badare più tanto al contenuto del loro prodotto, ma a come aumentare questo score, ad esempio entrando in un giro in cui ci si cita a vicenda, a prescindere dal valore di ciò che si scrive.

O paradossalmente, in base al principio “parlate di me, anche male, purché’ ne parliate” – si potrebbe essere indotti a stampare assurdità e provocazioni: ricordiamo un recente famoso / famigerato articolo pubblicato da un certo Lynn sul QI geneticamente inferiore nei meridionali rispetto ai settentrionali [1], basato su scempiaggini teoriche e metodologiche, ma accettato – forse in una pausa di sonno della ragione – dai referees in una rivista con alto Impact Factor. Tenendo conto del fatto che gli indici relativi – a quanto mi risulta – non distinguono tra citazioni positive e negative (e di queste ultime le idiozie pubblicate ne hanno tante, come si vede negli esempi citati in nota!), potrebbe iniziare la corsa dei giovani ad attirarsene quante più possibili, indipendentemente dalla loro valenza, nella convinzione che si può diventare grandi e accreditati scienziati pur scrivendo grandi e altrettanto accreditate sciocchezze, purché qualcuno le citi. A questo riguardo ricordiamo tutti il gustoso The experts speak. The Definitive Compendium of Authoritative Misinformation, di Christopher Cerf e Victor S. Navasky (Villard 1998) e altri pamphlet simili che dimostrano quanto la scienza sia citata (non solo nei giornali ma anche dagli altri scienziati, pur se criticamente) proprio quando dice le assurdità più grosse.

Un altro metodo per incrementare i punteggi aumentando la produzione è inserirsi in cordate a tanti nomi, dove anche chi lava le provette del laboratorio o mette i dati in Excel, o acquisisce altre tipologie di meriti non proprio scientifici, viene inserito tra i coautori e assomma punteggio. E non ho trovato traccia nel documento ANVUR di ponderazioni per numero di autori – che sono invece previste nella valutazione delle strutture – né di collocazione nell’ordine fra gli autori, né tanto meno di verifiche di congruità (non solo continuità) nel percorso scientifico di un autore: aspetti che solo una commissione può valutare analiticamente.

C’è poi il problema della  pertinenza delle pubblicazioni con il settore in cui un candidato chiede di essere giudicato: per una adeguata valutazione bibliometrica bisognerebbe depurare i conteggi dalle singole pubblicazioni riconosciute non pertinenti al settore, calcolando ciascun indice solo sulle altre. Conteggio lungo e complicato, che richiede a monte un accordo tra valutatori su quale pubblicazione è pertinente e quale non lo è, e dunque non può essere lasciato ad automatismi di alcun tipo.

I metodi ipotizzati dall’ANVUR, seppur diversi, corrono gli stessi rischi: lasciare agli scoresla responsabilità di valutazioni del merito che invece dovrebbero assumersi le commissioni, forse perché – nonostante le nuove norme prevedano che i commissari siano selezionati per merito e poi sorteggiati – il “fumus delicti” del valutatore resta sempre attivo. Ma immaginiamo una commissione di sapienti, peraltro scelti dalla dea bendata, trasformati in contabili di punteggi vari (ognuno magari con idee diverse, tutte plausibili, su come si fanno questi conteggi); e immaginiamo i ricorsi di chi si vedrà escluso dalla selezione perché sta di poco sotto un cut-off rigidamente applicato e verbalizzato, magari a maggioranza dei commissari, mentre con altri calcoli si ottiene un punteggio diverso.

So bene che in certi casi agli scores non esistono alternative plausibili, per cui il problema è analogo a quello della misurazione dell’intelligenza: tutti sanno che il QI è una fiction, a volte ridicola a volte tragica, ma tutti sanno che non se ne può fare a meno nella prassi. Pur riconoscendo l’utilità dei punteggi di IF, CI, GS, H, H-IF ecc. come premessa, evitare automatismi basati solo su di essi nel sancire chi è scienziato e chi no, è altrettanto saggio che evitarlo nelle diagnosi psicometriche non usando solo il QI per definire chi è intelligente e chi stupido. L’ANVUR stesso ha ammesso implicitamente tutto ciò quando ha dedicato l’appendice del documento del 22-6-11 a criteri qualitativi, altamente condivisibli, e che vanno integrati con quelli quantitativi responsabilizzando la commissione a non fare solo da contabili degli scores.

Aggiungo un’ulteriore considerazione, che in tanti giudicheranno di bieca politica accademica. Nelle strutture dipartimentali dove si lotterà per ottenere qualche (sporadico, visti i tempi) concorso interno per pochi idonei, e dove i concorrenti per i bandi d’Ateneo appartengono ad aree disciplinari limitrofe, se alcune di queste aree usano criteri più larghi per l’abilitazione (“tutti abilitati purché superino la mediana, secondo i criteri ANVUR”) e altre aree usano invece criteri più restrittivi (selezione rigorosa tra quelli che superano il criterio quantitativo), si creeranno disuguaglianze di opportunità fra colleghi, che accentueranno i conflitti interni fra i settori e faranno prevalere localmente “giochi di prestigio” di natura extra-scientifica. Molte sedi universitarie questo problema del confronto-scontro con le categorie limitrofe lo vivono già, e lo vivranno ancora più drammaticamente in tempi di crescente carestia, se i criteri saranno basati su cut-off quantitativi interpretabili diversamente, o come soglia per essere abilitati o solo come base di ammissione per procedere poi ad una valutazione qualitativa.
Concludendo (era ora!), mi dichiaro insoddisfatto dei diversi criteri proposti dall’ANVUR, e mi appassiona poco la diatriba se per valutare i candidati l’uno sia meglio dell’altro. Mi rendo conto che di diverso si può fare poco, se non responsabilizzare le commissioni ad una valutazione che tenga conto dei punteggi come base su cui innestare una reale valutazione di merito, come peraltro la legge richiede: credo che un gruppo di competenti – sorteggiati (per i commissari il criterio del superamento della mediana ci sta benissimo), può ben valutare le specificità e parametrare anche comparativamente in base ai candidati di quella tornata il profilo qualitativo peraltro proposto dallo stesso ANVUR. Per evitare che la valutazione si trasformi in un conteggio da ragionieri o in una lotteria di numeri scarsamente correlata con la effettiva qualità scientifica di ciascun ricercatore.

 


[1] Lynn, R. (2010) “In Italy, north–south differences in IQ predict differences in income, education, infant mortality, stature, and literacy”. Intelligence, 38, pp.  93–100. Riporto anche qualche altro esempio. Uno studio molto citato, condotto da Maria Iacovou della Oxford University e dall’Istituto di ricerche economiche e sociali della Università dell’Essex, “dimostra” che i bambini allattati al seno, per almeno le prime 4 settimane di vita, sviluppano un quoziente intellettivo più alto di 3-5 punti rispetto ai loro coetanei. I ricercatori hanno analizzato i risultati delle prove di matematica, lettura e scrittura di 10.000 bambini di 5, 7, 11 e 14 della zona di Bristol, di cui conoscevano le modalità di allattamento, scoprendo che i bambini allattati al seno hanno un Q.I. migliore dei loro coetanei. Sulla correttezza della metodologia di derivare il QI da prove di apprendimento, anziché da un test di intelligenza (come se fosse la stessa cosa), lascio al lettore – anche di altra disciplina – giudicare: e infatti le contestazioni non sono mancate, col risultato di alzare il Citation Index dell’autrice. Sempre a proposito di incursioni sul tema dell’intelligenza, da parte stavolta di fantasiosi biologi, cito uno studio dell’Università del New Mexico, pubblicato dalla prestigiosa rivista Proceedings of the Royal Society – Biological Sciences, n. 277 (2010), in cui analizzando i dati provenienti da 192 paesi in tutto il mondo è emerso che le malattie infettive, specie quelle intestinali, “sono risultate più strettamente legate al quoziente intellettivo rispetto a ogni altra variabile, come il PIL, l’istruzione, la nutrizione”. La cosa strabiliante è che viene usato un “QI nazionale medio” (!), sempre dedotto da prove di apprendimento (!!), e che per i paesi di cui questo strano QI medio non e’ noto (ben 72), esso e’ stato stimato “facendo la media dei QI delle nazioni vicine con QI conosciuto” (!!!). L’unica deduzione seria sarebbe che il tema del QI degli altri interessa i ricercatori in misura inversamente proporzionale al proprio. Eppure questi “scienziati”, che ignorano palesemente non solo i principi elementari della psicometria, ma persino l’esistenza di interazioni e sovra-ordinazione fra variabili, ottengono elevatissimi valori di impact factor e di citazioni, quando nessun valutatore serio dovrebbe prendere in considerazione simili oltraggi al buon senso, oltre che alla scienza.

Send to Kindle

1 commento

  1. La psicologia è disciplina di confine che adotta metodi e paradigmi molto differenti tra loro. La psicologia insieme ad altre potrebbe risentire negativamente di una valutazione solo bibliometrica ma, aggiungo io, anche di una valutazione solo qualitativa. E’ quindi necessario vincolare i commissari a regole per la valutazione molto stringenti e soprattutto ad adottare un modello di valutazione che sia comune ai diversi settori concorsuali vicini in modo da evitare fortissime sperequazioni tra settori “permissivi” e settori “severi”. Nelle more dell’edizione di linee guida per la valutazione qualitativa, adotterei procedure di valutazione basate su indici internazionali non manipolabili Scopus, ISI non in mano ad “esperti” nazionali.

    Prima di tutto è necessario restituire credibilità alle procedure di concorso, credibilità del tutto smarrita in passato per effetto delle, troppo spesso spregiudicate, procedure di valutazione comparativa.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.