In un recente documento, l’Agenzia nazionale di valutazione (ANVUR) ha risposto alle osservazioni apparse su questo sito rilevando fra l’altro che gli autori non erano animati da sufficiente spirito di collaborazione. Sperando di rimediare, offriamo ad ANVUR alcune osservazioni critiche relative alla valutazione nelle scienze umane e sociali, nell’auspicio che possano contribuire a un miglior esercizio di valutazione. Le osservazioni che seguono sono relative (i) alla peer review, (ii) alla costruzione di classifiche di riviste e all’internazionalizzazione, (iii) ai criteri in via di elaborazione per i futuri esercizi e infine (iv) all’uso della bibliometria nelle HSS.


Take up the White man’s burden —
Send forth the best ye breed —
Go bind your sons to exile
To serve your captives’ need;
To wait in heavy harness
On fluttered folk and wild —
Your new-caught, sullen peoples,
Half devil and half child.

(R. Kipling)

1. Un inizio difficile per la VQR 2004-2010.

Ormai, chiunque si interessi del sistema universitario e segua con attenzione il processo di attuazione della l. 240/2010, si è reso conto di due fenomeni speculari: da un canto si è imbrigliata l’università italiana in una gabbia regolatoria assai rigida, che ha limitato drasticamente l’autonomia universitaria.

A fronte dell’iper-regolazione su questo versante, l’Agenzia nazionale di valutazione gode di ampia autonomia, tanto che paiono non esserne neppure chiaramente delimitati i compiti: la legge “Gelmini” e i provvedimenti attuativi le assegnano una varietà di attribuzioni che sembrano basarsi su di una interpretazione estensiva del concetto di valutazione. In questa fase si assiste anche al moltiplicarsi di anomalie che stanno facendo della valutazione italiana un caso per più di un verso singolare nel panorama internazionale: una executive agency cumula su di sé il compito di definire i criteri di valutazione, di applicarli, di definire politiche della ricerca.

Anche l’esercizio di valutazione ora in fase di avvio (VQR) sembra sconfinare nell’ambito della definizione delle policies, come lasciano intendere, fra l’altro, le dichiarazioni del responsabile VQR, almeno per come esse sono state riportate (e non smentite) sul quotidiano La Repubblica.[1]

Qualcuno potrebbe dire che a somiglianza dell’uomo bianco di Kipling l’ANVUR si è fatta carico del fardello di civilizzare un’accademia italiana percepita come arretrata, provinciale e poco produttiva. Sorvolando su questo giudizio, in larga parte ingiustificato, va in ogni caso rilevato come l’esercizio di valutazione, funzionale all’assegnazione di una quota non irrilevante di un FFO (fondo di finanziamento ordinario) già decrescente e comunque al di sotto degli standard europei, stia mostrando al suo avvio problemi piuttosto seri.

In un suo documento di risposta alle critiche sollevate dal sito ROARS, l’ANVUR ha affermato che le obiezioni rivolte all’Agenzia non sono animate da spirito costruttivo. Le righe che seguono, scritte senza alcuna pretesa di completezza, hanno l’intento di sollevare alcuni dubbi e suggerire modifiche o integrazioni ai criteri adottati dall’Agenzia, nella speranza che una valutazione ben fatta giovi davvero all’intero sistema universitario e della ricerca.

2. Quale peer review?

Alcune aree disciplinari (quelle, per intenderci, delle “scienze dure”) saranno in larga parte oggetto di valutazione attraverso il ricorso a strumenti di carattere bibliometrico. L’ANVUR, va detto, non mostra di fidarsi particolarmente della revisione dei pari:[2]

Tuttavia, le scienze umane e parte di quelle sociali (aree 10,11,12,14, salvo settori specifici), in assenza di dati bibliometrici attendibili e sufficientemente ampi, dovranno essere valutate essenzialmente proprio attraverso il giudizio dei pari, reso da esperti anonimi e ove possibile stranieri. Tale giudizio si formerà sulla base di una scheda di valutazione predisposta dai singoli GEV. Questo è un punto particolarmente delicato che è bene chiarire.

Vediamo la scheda-tipo, come risulta da un documento preliminare ANVUR:

Come si può vedere il revisore rispondendo alle domande consentirà di determinare un punteggio complessivo per il prodotto. E’ importante notare che questo punteggio sarà comunque normalizzato secondo i criteri indicati nella parte inferiore della slide successiva:

In sostanza, ogni revisore si troverà davanti tre domande a risposta multipla, variamente formulate a seconda dei GEV. A ogni risposta corrisponde un punteggio compreso fra 0 e 3. Ne deriva che il “massimo dei voti” complessivi sarà dunque 9 (3*3) e il minimo 0 (3*0). Questo punteggio sarà successivamente normalizzato dando luogo alla classe finale dei prodotti, costruita secondo quanto previsto dal bando VQR. In sostanza i punteggi fra 0 e 9 daranno luogo a una valutazione finale in 4 fasce.

Sicché otteniamo questa corrispondenza, in termini numerici:

punteggio del revisore Classe finale in termini numerici e di giudizio
8-9 1 eccellente
6-7 0.8 buono
5-4 0.5 accettabile
3-0 0 limitato

 

Ciò implica, ad esempio, che un prodotto che ha ottenuto un punteggio cumulativo di 3, alla fine del processo sia riportato a zero.

Va detto che se i revisori non saranno adeguatamente informati della seconda parte della procedura, si presenterà il rischio concreto di distorsioni; un revisore non correttamente informato non sarà infatti in grado di “pesare” correttamente i voti che assegnerà ai singoli prodotti. E’ lecito dunque chiedersi se davvero saranno i singoli GEV a effettuare il calcolo finale senza informare i revisori, con il rischio che questi ultimi indichino dei punteggi senza essere pienamente consapevoli del loro valore o “peso” effettivo alla fine della procedura.

Inoltre sembra lecito attendersi che un processo così disegnato non consentirà di raggiungere una distribuzione analoga a quella prevista dal bando VQR per i settori bibliometrici (20%-20%-10%-50% rispettivamente per eccellente, buono, accettabile e limitato sul totale dei prodotti valutati). Il che – probabilmente- si verificherà in modo più marcato proprio nella fascia più elevata:

Per chiarire il punto, faccio ricorso a un esempio basato sul gioco dei dadi. Con un solo dado la probabilità di ottenere un punteggio superiore a 4 è pari ad 1/3. Infatti è la somma della probabilità di ottenere 5 e di quella di ottenere 6 che valgono entrambe 1/6. Se però uso due dadi e sommo i risultati la probabilità di ottenere un punteggio superiore a 8 non è uguale a 1/3. Infatti, posso ottenere un punteggio superiore a 8 nei seguenti 6 modi: (6,6), (6,5), (5,6), (5,5), (5,4), (4,5). Lanciando due dadi ci sono 6*6 = 36 esiti possibili, e dunque la probabilità di ottenere un punteggio superiore a 8 è pari a 6/36 = 1/6. Ciò significa che usare la somma dei voti tende a rendere più difficile l’ottenimento del voto massimo rispetto all’uso di un voto singolo. Nel caso della scheda per la peer review dell’Anvur, il gioco non è condotto con dadi di sei lati, ma con tre “dadi” di quattro facce (tetraedri), corrispondenti alle tre domande destinate ai revisori, per ciascuna delle quali possono esservi risultati compresi fra 0 e 3. Applicando il ragionamento di cui sopra, gli esiti possibili sono 4*4*4= 64. Posso ottenere un punteggio pari o superiore a 8 nei seguenti quattro casi: (3,3,3), (3,3,2), (3,2,3), (2,3,3). Ne segue che la probabilità di ottenere un punteggio pari o superiore a 8 (eccellente) è pari a 4/64 = 1/16 (0.0625, o 6,25%), che è ben lontana dalla soglia di 0,2 (20%) fissata per l’analisi bibliometrica. Va detto che i revisori non attribuiscono i giudizi in modo puramente casuale, ma rimane ferma la difficoltà particolarmente accentuata di raggiungere un giudizio di eccellenza. Ammesso che il punteggio massimo debba essere assegnato solo al “top 20%” dei prodotti, sarebbe sicuramente meglio basarsi su di un singolo giudizio complessivo piuttosto che su tre giudizi parziali da sommare e normalizzare. Non informare i revisori di come saranno aggregati i voti parziali per definire le classi di qualità introduce una penalizzazione potenzialmente significativa che, tra l’altro, compromette l’equità della valutazione in quelle aree dove convivono valutazione “peer” e valutazione bibliometrica, a causa della non comparabilità del metro di giudizio usato per suddividere le classi di qualità.

Da ultimo, va sottolineata la grande importanza del modo in cui saranno definiti, da ogni GEV, i quesiti da sottoporre ai reviewers, dato che essi orienteranno in modo determinante l’azione dei revisori: un punto sul quale i GEV dovranno esercitare la massima cautela.

3. Le classifiche di riviste.

Un altro aspetto della peer review meritevole di attenzione, è dato dal fatto che si tratta di informed peer review: una peer review nella quale al valutatore sono resi noti altri elementi. E’ dunque opportuno interrogarsi brevemente sulla natura di questi “altri elementi”.

Un elemento centrale della informed peer review è costituito dall’invio ai revisori delle classifiche di riviste. Ho già scritto in precedenza sul tema dei rankings: si tratta di questione controversa, sulla quale è intervenuto di recente anche Guido Abbattista, con argomentazioni diverse dalle mie.

In ogni caso, vorrei segnalare ancora una volta alcuni aspetti problematici. Nelle aree “bibliometriche” le classifiche sono variamente costruite utilizzando indici bibliometrici.

Al contrario, nel caso delle scienze umane e di parte delle scienze sociali non si può che ricorrere a  una analisi qualitativa su criteri prestabiliti. Ad esempio: la presenza di comitati scientifici o redazioni autorevoli e internazionalizzati, l’uso del doppio peer review cieco, diffusione, regolarità, presenza in data base e repertori, presenza di contributi in lingua straniera o di autori esteri, e così via.

Come si vede, non si tratta di impact factor della rivista, che potrebbe variare secondo il settore scientifico per il quale è misurato. La classifica delle riviste, invece, dovrebbe essere basata su elementi che indicano la qualità editoriale – a vari livelli – del contenitore, dandosi per presupposto che contenitori “di qualità” accolgano tendenzialmente contenuti dello stesso livello, qualunque sia il settore di appartenenza.

Lascia quindi un po’ perplessi il fatto che, accertati questi parametri, una stessa rivista possa mutare classe a seconda del settore disciplinare al quale si riferisce il contributo pubblicato, perfino all’interno della stessa area e anche per settori assai vicini fra loro. Nelle liste di area 11 e 12 vi sono numerose riviste che subiscono questo mutamento di classe. Una, fra le tante, cambia di classe a seconda che il contributo sia ascrivibile a diritto costituzionale oppure a diritto amministrativo. Eppure il comitato scientifico, la peer review adottata, la regolarità, diffusione e così via rimangono le stesse, qualsiasi sia il settore scientifico disciplinare del contributo pubblicato su di una data rivista.[3]

Un fatto che potrebbe indurre a chiedersi su quali basi siano state compiute scelte di questo tipo.

A questo proposito, i documenti dei vari GEV ribadiscono, se ben capisco, che i rankings di riviste sono stati costruiti attraverso la consultazione delle società disciplinari, la sottoposizione del parere delle società a revisori anonimi e un secondo esame presso le società medesime, fatta salva la responsabilità dei GEV nella definizione delle classificazioni finali. E’ certo opportuno avvalersi del parere delle società disciplinari e di esperti qualificati: sarebbe però stato altrettanto opportuno rendere noti con la massima esattezza i criteri di giudizio, sempre che essi siano stati previamente elaborati, sulla base dei quali è stato chiesto di formulare i pareri.[4]

Ciò avrebbe consentito di verificare la effettiva rispondenza dell’esito finale del processo di classificazione ai criteri fissati dai GEV.

D’altro canto, chi legga i documenti delle aree non bibliometriche noterà che all’interno di uno stesso GEV (e dunque di un’area disciplinare), diversi settori disciplinari adottano classi di merito differenti. Alcuni valutano le riviste come di tipo A, B, C, mentre altri indicano solo riviste di tipo A e B. Una discrepanza che pare difficile da spiegare, tanto più che i documenti pubblicati da ANVUR non aiutano a trovare una risposta su questo punto. Eppure pare difficile immaginare che alcuni settori di una stessa area abbiano di per sé riviste di migliore qualità degli altri.

Ancora, in alcuni GEV (vedi ad es. il 12) e solo per alcuni settori sono indicate le “principali riviste straniere rilevanti” senza che esse siano dotate di classificazione. Ciò pone due ordini di problemi: quale sia il significato di questa indicazione, e come debbano essere considerate le innumerevoli riviste estere non menzionate. Una domanda che pare ancor più pertinente visto quanto ANVUR afferma riguardo ai criteri di valutazione nelle aree umanistiche:

Gli estensori dei documenti pubblicati da ANVUR non hanno chiarito il punto, ed è un peccato; infatti, una rapida indagine consente di verificare che, ad esempio, nella lista di area 12 la Harvard Law Review è assente nonostante sia al primo posto assoluto secondo Eigenfactor. E così pure sono assenti le successive riviste top-ranked.

Parimenti, non è chiarito come debbano essere considerate le riviste, italiane e straniere, non incluse nelle liste: eppure qualche indicazione in merito avrebbe potuto essere davvero utile, sia per gli autori dei prodotti da valutare che per i revisori, visto il peso che si dichiara di voler attribuire all’internazionalizzazione.

4. Procedure sperimentali.

Spesso gli estensori dei documenti delle diverse aree ricordano che occorre grande cautela nell’applicazione dei criteri e insistono sul valore “sperimentale” delle classifiche di riviste. Non è però del tutto chiaro cosa si intenda con il termine sperimentale. Se i reviewers si troveranno con circa 20 prodotti a testa da valutare, mi pare assai probabile che – vista la mole del lavoro – si possa produrre un trasferimento più o meno automatico della valutazione dal contenitore al contenuto.

Inoltre, anche se è più volte ribadito che non vi è alcun automatismo di questo tipo, mi pare molto significativo quanto afferma, ad esempio, il GEV 11: “i saggi pubblicati su riviste internazionali di fascia A” saranno inviati a un solo revisore “per tener conto del fatto che essi sono già passati attraverso filtri molto rigorosi e premiare […] lo sforzo di internazionalizzazione”.

Il criterio può anche essere ragionevole, ma rende evidente che i rankings, non sono “sperimentali”,  dato che si riconosce un livello di merito superiore, da premiare, per i prodotti collocati in certe sedi. Del resto, l’uso dei termini “sperimentale” o “sperimentazione valutativa” sembra per certi versi voler tranquillizzare i lettori; basti vedere la disciplina del conflitto fra valutazioni (GEV 11), secondo la quale “in caso di divergenza fra il giudizio dei revisori […] e la classificazione delle riviste […] il primo prevarrà se concorde; se uno solo dei revisori produce una valutazione che si discosta dalla classificazione […] la divergenza viene trattata come una fra revisori”.

In determinate circostanze, dunque, la classe della rivista è equiparabile al giudizio di un peer.

Infine, un’ultima osservazione: il GEV 14 prevede che sia onere dell’autore dei prodotti, e specie delle monografie, di rendere noti altri elementi qualificanti, come ad esempio l’esistenza di recensioni su riviste internazionali o nazionali, premi e traduzioni. Peraltro, nonostante diversi GEV in questione (ad es. l’ 11 e il 12) ritengano le recensioni et similia un importante elemento di valutazione, solo il GEV 14 chiede agli autori di segnalarle. Risulta un po’ difficile per l’esegeta dei documenti ANVUR spiegare questa disomogeneità fra GEV, che lascia aperta la questione se per le aree diverse dalla 14 saranno gli stessi referees a dover cercare le recensioni e altri elementi rilevanti per la valutazione dei prodotti o se invece la valutazione debba vertere soltanto sui prodotti.

5. Criteri per le valutazioni future.

Stando alla documentazione prodotta, i GEV sono anche chiamati a costituire gruppi di ricerca per stabilire nuovi criteri e best practices da proporre ai ricercatori per il futuro. E’ questo un compito davvero delicato riguardo il quale vale la pena di segnalare alcuni aspetti critici.

I GEV mirano a introdurre e rafforzare le migliori pratiche di livello internazionale per quanto riguarda monografie e raccolte di saggi, anche attraverso una trattativa con gli editori. Non solo. Dovendosi favorire lo sviluppo dell’analisi bibliometrica anche nell’area delle scienze umane e sociali, risulta che i GEV (p. es. di area 11) opereranno ai fini “della revisione dei contratti già stipulati con gli enti che forniscono banche dati e della stipulazione di contratti con altri enti”.[5] Questo è un compito davvero delicato e pieno di rilevanti implicazioni di carattere economico, che non è dato individuare nel bando VQR,  sul quale è intervenuta di recente Paola Galimberti. Vale la pena di ricordare la parte finale dell’articolo di Galimberti: potendo e dovendo partire da zero (per una volta tanto un vantaggio) l’Accademia italiana dovrebbe evitare di consegnarsi nelle mani di operatori commerciali rinunciando così al controllo sui propri dati. Cosa è più provinciale? Seguire il mainstream perché così fanno i colleghi delle scienze dure o creare uno strumento ad hoc (magari interoperabile con gli strumenti utilizzati da altri paesi europei) che renda e tenga conto delle specificità della HSS e le rispetti nel tracciare l’uso della comunità scientifica internazionale? In questo, almeno per una volta, ci auguriamo che gli esperti dei GEV ascoltino i suggerimenti degli specialisti delle scienze dell’informazione. Utilizzare un database non è la stessa cosa che costruirlo.

Ancora, per quanto riguarda i criteri in gestazione il GEV 11 propone di introdurre in futuro come indicatore di qualità il rejection index, unitamente all’indicazione della percentuale di “articoli invitati” (ossia richiesti dalla redazione della rivista in questione).[6] Ora, il rejection index (basato sul numero di articoli rifiutati) è un dato assolutamente non verificabile, non a caso oggetto da tempo di interventi critici più o meno beffardi. Gli strumenti per valutare il livello di una rivista abbondano e non vi è necessità alcuna di utilizzare proprio i più screditati:

Come si vede, ogni GEV si è fatto dunque portatore di obiettivi da sviluppare per gli esercizi di valutazione successivi all’attuale. Così il GEV 12 inserisce tra gli indicatori da sviluppare, non solo la diffusione nelle biblioteche di un determinato periodico, ma anche il numero di “abbonamenti certificati dall’editore e verificati da enti o istituzioni autonomi”.[7]  L’idea di enti certificatori di abbonamenti pare proprio singolare; oltre a ciò sarebbe bene domandarsi in che senso il numero di abbonamenti (magari per una rivista professionale) possa essere indicativa della qualità di una pubblicazione. Neppure risulta chiaro come si possa misurare in modo attendibile e verificabile in assenza di dati bibliometrici “il prestigio di una rivista a livello nazionale o internazionale”, altro parametro in fieri richiamato dal GEV 12. Indicazioni di questo genere dovrebbero essere trattate con grande cautela per evitare che possano dare l’impressione di poter essere funzionali alla collocazione nelle opportune posizioni di periodici che stiano eventualmente a cuore a questo o a quel valutatore.

Ancora, i GEV auspicano generalmente una revisione triennale dei criteri e dei rankings di riviste. Il lasso di tempo pare davvero troppo lungo: le revisioni dovrebbero essere condotte con maggior frequenza soprattutto al fine di non “ingessare” il mercato editoriale rendendolo troppo dipendente dagli esiti delle successive VQR. Mentre è interesse di tutti favorire l’adozione delle migliori pratiche, non è interesse di nessuno soffocare l’editoria scientifica, ostacolando di fatto l’emergere di nuove sedi editoriali.

5. Revisori e bibliometria.

Infine alcune sparse osservazioni conclusive.

Per quanto riguarda i revisori, che saranno largamente utilizzati ai fini della VQR, a quanto pare è esclusa la rimozione ex post dell’anonimato, che pure avrebbe costituito un importante elemento di trasparenza nell’ambito dell’esercizio di valutazione e che avrebbe consentito un’effettiva verifica, ad esempio, relativamente al numero di revisori stranieri coinvolti. E’ un peccato, perché una scelta di questo genere può contribuire a sollevare dubbi sull’esercizio di valutazione, mettendone in dubbio l’imparzialità. Gli stessi criteri con cui saranno selezionati i revisori avrebbero forse meritato maggiore attenzione nella loro definizione (alcuni GEV, come ad esempio l’11, parlano in proposito della necessità che essi siano “contraddistinti da imparzialità, rigore, equilibrio e senso dei propri limiti”,[8] caratteristiche senz’altro opportune, ma la cui verificabilità appare assai difficile).

Sarà in ogni caso oltremodo interessante osservare gli esiti della valutazione bibliometrica “sperimentale” (questa volta il termine è usato in senso stretto) e confrontarla con quanto emergerà dalla peer review. Solo due caveat: sarà bene non farsi scappare sviste come quella del documento del GEV 12, nel quale l’impact factor è confuso con l’h-index.[9] Così pure, sarà bene essere cauti nell’utilizzo, preannunciato dai GEV, di Google Scholar.[10] E’ sufficiente leggersi la voce di Wikipedia relativa a questa fonte per farsi un’idea della praticabilità di una indagine bibliometrica basata su di essa. Inoltre l’esperienza del falso scienziato Ike Antkare, costruito ad hoc su Google Scholar, dovrebbe aver insegnato qualcosa. P. Jacso è intervenuto sulla questione qualche tempo fa con un giudizio tutt’altro che lusinghiero: While GS developers have fixed some of the most egregious problems that I reported in several reviews, columns and conference/workshop presentations since 2004—such as the 910,000 papers attributed to an author named “Password”—other large-scale nonsense remains and new absurdities are produced every day.[11]

Sarebbe dunque opportuna alquanta prudenza nell’uso di una base dati di questa natura.

L’esercizio di valutazione dovrebbe essere un’occasione di avanzamento per l’università e per la ricerca italiane; un momento di confronto e riflessione sulle proprie qualità e sui propri difetti. E’ importante che scelte affrettate non portino a screditare i sistemi di valutazione per gli anni a venire nel nostro Paese, arrecando un danno assai più grave dei benefici che eventualmente potranno derivarne.

 

I documenti dei GEV delle varie aree citati in questo testo sono disponibili in questa pagina.



[1] Una diversa versione dell’intervista è disponibile sul sito del Senato, fra i documenti relativi all’atto 437 ora in discussione.

[2] Detto per inciso, la frase di Horton citata nella slide ANVUR qui sotto riportata sembra essere stata ricavata dalla voce “peer review” di Wikipedia.

[3] La scelta delle classifiche variabili è resa ancor più paradossale da quanto afferma, ad esempio, il GEV 12 nel Documento di lavoro sulla classificazione delle riviste di area giuridica, p. 4: nel rispetto del principio di specialità dei saperi, si è ritenuto che una rivista posta in fascia A dagli specialisti del settore X debba essere considerata tale per chiunque vi pubblichi. Se, insomma, il lavoro di uno studioso di diritto amministrativo o commerciale è accettato da una delle migliori riviste di diritto processuale, è lecito pensare che quello studioso abbia saputo superare il suo specialismo e dare un contributo significativo ad un’altra comunità, che tale lo ha giudicato. L’obiettivo, insomma, è stato quello di ridurre gli steccati, ma di farlo rispettando gli specialisti.

[4] Quanto riportato nel documento di area 12, Gli indicatori utilizzati per definire i rating delle riviste scientifiche pare nel complesso assai vago. Lo stesso vale per il documento di area 11, Per una classificazione delle Riviste scientifiche dell’Area 11, pp. 2-3 e così pure per lo scritto di A. Bonaccorsi, Potenzialità e limiti dell’analisi bibliometrica nelle aree umanistiche e sociali, punto 2.6. I documenti GEV, come ad esempio quello di area 11, si concentrano sui criteri da sviluppare per il futuro, ma nulla dicono su quelli utilizzati per l’esercizio di valutazione corrente.

[5] Criteri di valutazione dei prodotti di ricerca, GEV 11, pp. 10-11.

[6] Per una classificazione delle riviste scientifiche dell’area 11, pp. 4-5

[7] Proposte per una (prima) classificazione delle riviste scientifiche dell’area giuridica, p. 6.

[8] Criteri di valutazione dei prodotti di ricerca, GEV 10, p. 8. Criteri di valutazione dei prodotti di ricerca, GEV 11, p. 10.

[9] Proposte per una (prima) classificazione delle riviste scientifiche dell’area giuridica, p. 3.

[10] Criteri per la valutazione dei prodotti di ricerca Gruppo di Esperti della Valutazione dell’area 12, p. 7;

[11] Numerosi papers di Jacso relativi a Google Scholar sono disponibili a questo indirizzo: http://www2.hawaii.edu/~jacso/savvy-mcb.htm

Send to Kindle

12 Commenti

  1. Noto incidentalmente che tutti i difetti del “sistema di peer-review” menzionati da Horton e così fortemente sostenuti da Benedetto possono essere attribuiti anche al “sistema delle citazioni”, con in più l’aggravante che una citazione non è in radice una “valutazione di qualità”, mentre almeno una valutazione dei pari lo è.

  2. Sull’attribuzione delle classi di merito da parte dei referees e dei GEV, ricordo che non vi è alcun vincolo sulla distribuzione finale dei prodotti presentati per la VQR (ed è giusto che non vi sia): la distribuzione 20-20-10-50 riguarda il “background” mondiale della produzione, che ciascuno deve solamente aver “interiorizzato” come metro di giudizio per i singoli prodotti che sono sottoposti alla propria attenzione in questo esercizio.

    Come si “interiorizza” al meglio un metro di giudizio? Proprio con gli “schemi guidati” predisposti dall’ANVUR: il punto è quindi la “qualità” di codesti schemi guidati (i criteri, i descrittori dei livelli di giudizio, la metodologia, ecc.).
    E’ proprio su **questi** schemi che ci deve essere condivisione nella comunità scientifica, e che pertanto per esercizi RAE/REF-like costituiscono elementi decisivi delle consultazioni pubbliche preliminari.
    A prima vista gli schemi proposti (mi) paiono piuttosto acerbi…

  3. Sulle classifiche di riviste, e sulla collocazione “ballerina” delle singole riviste a secondo del settore/sotto-settore: non posso che ribadire la mia opinione di fondo che la filosofia dell’ANVUR sulla materia sia completamente sbagliata, e sotto molteplici aspetti (ci vorebbe ben altro che un commento o un articoletto per comincaire l’analisi).

    Uno degli aspetti più fastidiosi è l’imposizione di codesta griglia di classificazione norm-referenced 20-20-10-50, riferita al singolo sottosettore, indice di una ideologia obsoleta e comunque inadatta ad una procedura di valutazione comparativa dalla portata generale, come quella istituita da questo esercizio. E’ proprio il timore di frammentazioni metodologiche è stato il fattore più rilevante nella opposizione della comunità accademica britannica all’eventuale abbandono del metodo generale della “peer-review”.

  4. E’ suggestiva l’ipotesi del lancio di “dadi” di quattro facce (tetraedri) per descrivere i valori probabilistici associati alle diverse combinazioni di giudizi. Ed è certamente efficace nel mostrare come la probabilità di ottenere un punteggio pari o superiore a 8 – probabilità statistica del 6,25% – sia molto inferiore al 20% indicata dall’Anvur per i prodotti della fascia A. In verità, dovrebbe fare ancora più riflettere il fatto che dal lancio dei dadi la probabilità di ottenere un punteggio da fascia D sia anch’essa molto, ma molto inferiore a quella stabilita dall’Anvur (se non ho fatto male i calcoli, circa il 20% contro il 50%).
    Da questa contraddizione ho preso lo spunto per questo ragionamento, forse campato per aria.
    La probabilità di ottenere, in ciascuno dei tre quesiti Q1, Q2 e Q£, i diversi punteggi non è la stessa. La probabilità reale di avere un punteggio 0 nel quesito Q3 relativo all’internazionalizzazione è maggiore del punteggio 3, perché è oggettivamente più difficile riuscire nell’obiettivo di un articolo con grande risonanza internazionale. Questo vuol dire che i “dadi” non dovrebbero essere a quattro facce, ma almeno a dieci: quattro facce con valore 0, tre con valore 1, due con valore 2 e una con valore 3. La probabilità statistica del punteggio di ciascun quesito è inversamente correlata al punteggio stesso, per tradurre statisticamente il fatto che al maggior punteggio corrispondono “stati” (maggiore rilevanza, maggiore originalità o maggior internazionalizzazione) più difficili da raggiungere.
    Questo argomento, se avesse un minimo di fondamento, darebbe ulteriore sostegno alla tesi di Banfi; perché la discordanza tra la probabilità statistica del punteggio da classe A (8-9) sarebbe ancora maggiore rispetto alla percentuale del 20% indicata dal ministero. D’altra parte permetterebbe di avere una probabilità statistica effettivamente maggiore per i prodotti con minor punteggio cumulato.
    Ragionamento forse campato per aria, come le percentuali del ministero. Ma per quanto esercizio puramente scolastico, sarebbe comunque interessante sapere quali dovrebbero essere effettivamente i punteggi che secondo la logica dei dadi (a quattro o a dieci facce) corrispondono alle soglie indicate dal ministero per le diverse fasce (0.5, 0.1, 0.2, 0.2).

  5. Caro Banfi,
    a proposito della possibilità “di osservare gli esiti della valutazione”, come commenta il fatto che l’Anvur ha annunciato che “l’esito delle singole valutazioni sarà unicamente inserito nella pagina personale di ciascun ricercatore autore del prodotto e degli eventuali co-autori afferenti alla stessa struttura.”?
    Mi sa per caso dire se questa è stata la prassi anche nelle altre esperienze internazionali?
    Grazie.

  6. Banfi grazie del lavoro. L’ho letto con molta attenzione.

    Anche se in ritardo rispetto all’uscita dell’articolo, ma abbastanza recente per la tempistica di svolgimento dei fatti, riporto una mia nota a riguardo. Dirigo dal 2008 una rivista c.d. pedagogica che si colloca in area 11 (notizie sul progetto editoriali e i numeri pubblicati fino adesso si trovano qui: http://www.erickson.it/Riviste/Pagine/Scheda-Rivista.aspx?ItemId=38538).

    A proposito delle fasce di merito, nel documento ANVUR del 29/02/12 (http://www.siped.net/index_html/allegato_i_criteri_di_valutazione_delle_pubblicazioni_pedagogiche_20101.doc) la rivista è stata inserita in una sotto-categoria definita “Riviste professionali di rilevante interesse per la disciplina”.

    Prima problema: non è chiaro se la sotto-categoria è da intendersi collegata alla Fascia B oppure fa classificazione a sé.

    Secondo problema: né chi scrive, in qualità di direttore responsabile, né l’Editore sono stati mai chiamato a presentare una richiesta di valutazione del prodotto, e ovviamente non sono stati informati di una procedura valutativa in atto.

    terzo problema: per chi è specialista del settore equiparare la rivista in parola all’“Educatore”, “Scuola materna”, “Vita dell’infanzia”, “Nido 0-3 anni”, “La vita scolastica”, ecc. con tutto rispetto per i direttori responsabili e le rispettive case editrice denota un giudizio “totalmente errato” circa i contenuti degli articoli e il progetto editoriale, che se espresso dalle Società Pedagogiche di Riferimento in stretto accordo con ANVUR denota una doppia responsabilità nel gestire in modo opaco il sistema delle fasce di merito. Non mi risulta che le riviste citate abbiamo peer-review, comitato scientifico internazionale, siano bilingue, dedichino un numero all’anno ad un tema monografico, pubblichino lavori empirici, ecc.; o che abbiano pubblicato studi provenienti da: OECD, Columbia University, UNICEF, Boston College, Statistics Canada, INVALSI, Fondazione Carlo Cattaneo, Macao University, NFER, IRVAPP, Università di Milano, ecc.

    Vorremmo essere valutati per ciò che abbiamo fatto in questi quattro anni e non per sentito dire o per un’interpretazione superficiale del nome della rivista.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.