Dati

Analisi preliminare dei dati ASN 2012

Omnia in mensura et numero et pondere disposuisti
[Tu hai tutto disposto con misura, calcolo e peso]

Sapienza, 11,20

Dopo un lungo e travagliato periodo di gestazione sta giungendo a conclusione in questi giorni la prima tornata della Abilitazione Scientifica Nazionale (ASN). I risultati sono in fase di pubblicazione (col contagocce) sul sito del MIUR. Questi risultati costituiscono una vera miniera d’oro per chi voglia farsi un’idea precisa di come stanno andando le cose. Ad esempio, è lecito chiedersi: quanti candidati hanno presentato domanda nei vari settori? quanti di loro sono stati abilitati? quali settori hanno avuto il maggior/minor numero di abilitati?

Purtroppo, dare delle risposte a queste e altre domande è più difficile di quanto si pensi. Come per il prezioso metallo, i dati della ASN devono essere estratti a suon di piccone e olio di gomito dalle pagine del sito Web del MIUR, allo scopo di essere messi in una forma adeguata all’analisi statistica automatica. Ho deciso di accettare la sfida e rimboccarmi le maniche per raccogliere e analizzare i dati dei risultati della ASN, sebbene al momento siano limitati ai pochi settori concorsuali che hanno concluso le procedure. I risultati di questo lavoro sono presentati in questa pagina, e spero che possano essere utili per fare un po’ il punto della situazione, e magari individuare eventuali criticità al di la’ di quelle ben note e ampiamente dibattute negli ultimi mesi.

Devo tuttavia mettere in guardia i lettori sui limiti di utilizzo delle informazioni mostrate nel seguito. Sarebbe facile cadere nella tentazione di disporre tutto con misura, calcolo e peso, ossia di usare i dati per stilare improbabili graduatorie di “buoni” e “cattivi”—siano essi commissioni, candidati, settori disciplinari o quant’altro. I numeri non devono mai sostituire il giudizio informato operato dalla mente umana. Ad esempio,
il fatto che la commissione del settore XX abbia abilitato in percentuale più candidati della commissione del settore YY non significa necessariamente che la commissione XX sia stata “di manica più larga” della commissione YY, né che i candidati XX siano mediamente “più bravi” dei candidati YY. Disporre ogni cosa con misura, calcolo e peso dovrebbe essere il punto iniziale di ogni processo di valutazione, non il punto finale. Per tale ragione mi limiterò a mostrare i dati, evitando ogni tentativo di analisi che necessariamente richiederebbe di entrare nel merito dei singoli casi.

Prima di proseguire vorrei esprimere un ulteriore monito ai lettori. Le elaborazioni riportate in questa pagina sono state condotte in tempi strettissimi e senza avere la possibilità di svolgere i controlli approfonditi che la pratica scientifica richiede. Lo straordinario interesse suscitato dai primi risultati della ASN mi ha spinto ad accantonare temporaneamente la doverosa prudenza, mettendo a disposizione della discussione generale i risultati prodotti fino a qui. Detto questo, ho cercato di svolgere il mio compito nel modo più accurato possibile, confidando nelle segnalazioni dei lettori per correggere eventuali errori. Poiché solo una minima parte dei settori concorsuali ha concluso la propria attività i dati disponibili sono incompleti e offrono uno spaccato parziale della ASN.

Recupero dei dati

Come già detto, i dati della ASN sono pubblicamente disponibili, ma non sono in un formato adatto all’elaborazione statistica. Gli indicatori bibliometrici individuali e gli esiti della valutazione sono inclusi in pagine HTML, mentre per una analisi statistica sarebbe preferibile avere le stesse informazioni in forma tabellare. È stata necessaria una fase laboriosa di recupero e trasformazione delle informazioni. È auspicabile che il Ministero renda disponibili i risultati anche in una forma tabellare simile a quella descritta a breve.

Nota tecnica. I risultati ASN sono ospitati sul server che risponde al nome abilitazione.miur.it. Il file abilitazione.miur.it/robots.txt,
normalmente utilizzato per segnalare ai motori di ricerca come visitare il sito, ha il contenuto seguente alla data odierna (domenica 15 dicembre 2013):

User-agent: Googlebot Crawl-Delay: 10
Disallow: /

User-agent: bingbot Crawl-Delay: 10
Disallow: /

Le direttive Disallow: / indicano ai crawler di Google e di Bing (il motore di ricerca di Microsoft) di NON visitare (e quindi NON indicizzare) alcuna parte del sito. Non mi è chiara la ragione di ciò, tanto più che le direttive vengono applicate solo a Google e Bing, e non a tutti gli altri motori di ricerca.

I dati estratti sono disponibili in questo archivio. Per ciascun settore concorsuale, i parametri dei candidati sono raccolti in un file in formato CSV. I nomi dei file hanno tutti la struttura XXYY-f.csv, dove XX e YY indicano l’area e il settore concorsuale, e f rappresenta la fascia (quindi il file 09H1-1.csv contiene i dati per il settore 09/H1 prima fascia, mentre 09H1-2.csv contiene i dati per lo stesso settore, seconda fascia).

Ciascun file contiene i campi seguenti:

  1. ID univoco del candidato (ottenuto mediante hash SHA-1 della concatenazione del cognome e nome, senza spazio intermedio, esattamente come compaiono nell’elenco dei candidati);
  2. fascia per la quale si chiede l’abilitazione (1 = prima fascia, 2 = seconda fascia)
  3. settore concorsuale (es., “09/H1”)
  4. SSD, se presente (altrimenti stringa vuota)
  5. valore del primo indicatore bibliometrico;
  6. valore del secondo indicatore bibliometrico;
  7. valore del terzo indicatore bibliometrico;
  8. esito della abilitazione (1 = abilitato, 0 = non abilitato)

È infine incluso un file mediane.csv che contiene i dati delle mediane per ciascun settore concorsuale e per ciascun settore scientifico-disciplinare. Il file mediane.csv contiene i campi seguenti:

  1. Settore concorsuale (es., “09/H1”);
  2. Settore Scientifico-Disciplinare, se presente (es., “FIS/06”);
  3. Fascia (1 = prima fascia, 2 = seconda fascia);
  4. 0 se si tratta di settore non bibliometrico, 1 se si tratta di settore bibliometrico;
  5. Valore della prima mediana;
  6. Valore della seconda mediana;
  7. Valore della terza mediana (questo campo è vuoto nel caso dell’area 12, per la quale sono definite solo due mediane).

Il formato CSV è universalmente supportato da tutti i programmi di elaborazione numerica e statistica, nonché dai fogli elettronici più diffuso quali Libreoffice Calc e Microsoft Excel.

Analisi generale

Al momento sono disponibili i dati di 25 settori distribuiti su 11
aree. Sono state presentate 7588 domande da parte di 6618 candidati;
pertanto, un numero cospicuo di candidati ha presentato domande per più fasce e/o più settori concorsuali diversi.

Il candidato che ha presentato il maggior numero di domande ne ha presentate 14; la tabella seguente mostra il numero C(d) di candidati che hanno presentato d domande distinte.

d 1 2 3 4 5 6 7 8 9 10 11 12 13 14
C(d) 5772 764 0 48 0 30 0 2 0 1 0 0 0 1

È interessante osservare che fino ad ora nessun candidato abbia presentato un numero dispari maggiore di due di domande. 764
candidati hanno presentato due domande, 48 ne hanno presentate 4, 30
ne hanno presentate 6.

Quante domande sono state presentate su ciascun settore? Quanti candidati hanno presentato domanda su ciascun settore?

Per prima cosa ci chiediamo quante domande siano state presentate per ciascun settore concorsuale, e quanti candidati abbiano presentato domanda di abilitazione per ciascun settore concorsuale. È importante osservare che queste quantità non sono necessariamente identiche: ciascun candidato infatti poteva decidere di concorrere per entrambe le fasce; di conseguenza, il numero complessivo di domande presentate per ogni settore settore sarà
sempre maggiore o uguale al numero di candidati che hanno richiesto l’abilitazione per almeno una delle fasce di quel settore.

Il grafico seguente mostra il numero di domande presentate per ciascuno dei settori concorsuali. Per ogni settore vengono indicate separatamente il numero di domande per l’abilitazione a prima fascia e a seconda fascia. I settori sono ordinati in senso decrescente in base al numero totale di domande presentate.

Numero di domande per l'abilitazione, raggruppate per settori

Il grafico successivo mostra invece il numero di candidati che hanno presentato domanda per l’abilitazione su ciascun settore concorsuale. Distinguiamo tra coloro che hanno presentato domanda per la sola abilitazione a prima fascia, per la sola abilitazione a seconda fascia, e per entrambe le fasce. Dato che i candidati vengono distinti esclusivamente in base al nome e cognome (o meglio, al valore hash del nome e cognome), potrebbero essere presenti errori dovuti a casi di omonimia (oppure casi assai più improbabili in cui nomi diversi vengono associati allo stesso valore hash). I settori sono ordinati in senso decrescente in base al numero di candidati.

Numero di candidati per l'abilitazione, raggruppate per settori

Quanti candidati hanno ottenuto l’abilitazione?

I grafici seguenti mostrano la frazione dei candidati che hanno ottenuto l’abilitazione. Poiché i dati sono separati per fascia, uno stesso candidato idoneo a entrambe è (correttamente) conteggiato in entrambi i grafici. I settori concorsuali sono ordinati in senso decrescente in base alla percentuale di abilitati.

Percentuali di abilitati a prima fascia, per settore concorsuale

Percentuali di abilitati a seconda fascia, per settore concorsuale

Quali sono le percentuali di candidati che superano mediane?

Combinando gli indicatori bibliometrici dei singoli candidati con le mediane dei settori concorsuali, possiamo determinare le percentuali dei candidati che superano zero, una, due o tre mediane per ciascuno dei settori concorsuali.

Prima di proseguire dobbiamo precisare che cosa si intenda con “superare una mediana”. Salvo diversamente indicato, faremo sempre uso della definizione prevalente, in base alla quale un indicatore bibliometrico di valore ind supera la corrispondente mediana med se e solo se ind > med, cioè se il valore dell’indicatore è strettamente maggiore del valore della mediana.

I due grafici seguenti mostrano il risultato; dai grafici è esclusa l’area 12, per la quale sono definite due sole mediane. I settori concorsuali sono ordinati in senso decrescente in base alla percentuale di candidati che superano due o tre mediane.

Frazioni di candidati a prima fascia che superano zero, una, due o tre mediane; sono esclusi i dati dell'area 12

Frazioni di candidati a seconda fascia che superano zero, una, due o tre mediane; sono esclusi i dati dell'area 12

Quali sono le percentuali degli abilitati che superano mediane?

Possiamo ripetere l’analisi considerando i soli abilitati di ciascuna area, anziché tutti i candidati. Vogliamo quindi sapere, per ogni settore concorsuale, quali sono le frazioni di abilitati che superano 0, 1, 2 o 3 mediane.

I due grafici che seguono mostrano la risposta; i settori concorsuali sono ordinati in senso decrescente in base alla percentuale di abilitati che superano due oppure tre mediane. Al solito, È esclusa l’area 12, per la quale sono definite solo due mediane.

Grafico delle frazioni di abilitati a prima fascia che superano zero, una, due o tre mediane; sono esclusi i dati dell'area 12

Grafico delle frazioni di abilitati a seconda fascia che superano zero, una, due o tre mediane; sono esclusi i dati dell'area 12

Prima di trarre qualsiasi conclusione è necessario rimarcare il modo in cui abbiamo definito il concetto di “superamento delle mediane”: i candidati e gli abilitati che non superano una o più mediane potrebbero semplicemente avere i corrispondenti indicatori bibliometrici allo stesso valore o leggermente sotto la mediana. Il problema è particolarmente evidente nel caso di indicatori bibliometrici che assumono valori interi (es., numero di riviste in classe A).

A titolo di esempio, proviamo a ripetere il calcolo definendo in modo diverso (e non conforme con la normativa) il superamento della mediana. Dato un indicatore bibliometrico di valore val, diciamo che l’indicatore supera in modo lasco la mediana med se val > 0.95 × med. In altre parole, un indicatore supera in modo lasco la mediana se il suo valore supera il 95 per cento del valore della mediana. In tal modo un indicatore bibliometrico avente valore 9.6 supera in modo lasco una mediana avente valore 10.

Con la nuova definizione otteniamo i grafici seguenti.

Grafico delle frazioni di abilitati a prima fascia che superano zero, una, due o tre mediane in modo lasco; sono esclusi i dati dell'area 12

Grafico delle frazioni di abilitati a seconda fascia che superano zero, una, due o tre mediane in modo lasco; sono esclusi i dati dell'area 12

Come ci si aspetta, la definizione più “morbida” porta ad un generale innalzamento della percentuale di abilitati che superano due o tre mediane; inoltre, la nuova definizione rende nulle le frazioni di abilitati che superano zero mediane in alcuni settori concorsuali.

Rimanendo fedele ai miei propositi, lascio ai lettori la discussione di questo punto. Vorrei però offrire uno spunto di riflessione. Nelle cosiddette “scienze dure” è ben noto il concetto di “errore di misura”: tutte le misure, per quanto precise esse siano, sono sempre affette da errori. È ragionevole supporre che ciò sia vero anche per le stime delle mediane e degli indicatori bibliometrici dei candidati. Per alcuni settori, è ben noto che gli indicatori calcolati mediante ISI o Scopus forniscono un limite inferiore ai “veri” valori degli indicatori bibliometrici, in quanto la copertura delle banche dati commerciali è spesso limitata. In tale ottica, introdurre una tolleranza durante il confronto tra gli indicatori bibliometrici potrebbe avere un senso (…anche se questa storia un senso non ce l’ha, citando Vasco).

Quali sono le percentuali dei non abilitati che superano M mediane?

Esaminiamo ora la frazione di candidati non abilitati in ciascuna area e fascia che superano 0, 1, 2 o 3 mediane (assumendo la nozione originale di superamento stretto della mediana). I due grafici seguenti mostrano la risposta; i settori concorsuali sono ordinati in senso decrescente in base alla percentuale di non abilitati che superano due oppure tre mediane. L’area 12 non è inclusa.

Grafico delle frazioni di non abilitati a prima fascia che superano zero, una, due o tre mediane; sono esclusi i dati dell'area 12

Grafico delle frazioni di non abilitati a seconda fascia che superano zero, una, due o tre mediane; sono esclusi i dati dell'area 12

Come è suddivisa la popolazione dei candidati?

I dati a disposizione consentono di partizionare la popolazione dei candidati di ciascun settore e di ciascuna fascia nei seguenti sottoinsiemi disgiunti:

  1. Coloro che hanno ottenuto l’abilitazione e superano almeno due mediane su tre;
  2. Coloro che hanno ottenuto l’abilitazione e NON superano almeno due mediane su tre;
  3. Coloro che NON hanno ottenuto l’abilitazione e superano almeno due mediane su tre;
  4. Coloro che NON hanno ottenuto l’abilitazione e NON superano almeno due mediane su tre;

La frazione di candidati in ciascuno di questi sottoinsiemi è illustrata nei grafici seguenti, in cui i settori sono ordinati in base alla percentuale di candidati abilitati (cioè alla somma delle frazioni di candidati delle classi 1 e 2).

Grafico delle frazioni di candidati a prima fascia che appartengono alle quattro classi ottenute combinando i predicati Abilitato/Non abilitato e supero almeno 2 mediane/non supero almeno due mediane

Grafico delle frazioni di candidati a seconda fascia che appartengono alle quattro classi ottenute combinando i predicati Abilitato/Non abilitato e supero almeno 2 mediane/non supero almeno due mediane

Ulteriori analisi

Informazioni estremamente interessanti si possono ottenere anche da analisi un po’ “fuori dagli schemi”. Ad esempio, dato che i testi di tutti i verbali delle valutazioni dei singoli candidati sono disponibili, è possibile analizzare automaticamente la similitudine tra i testi. Una analisi del genere puo’ essere utile per supportare o refutare una lamentela che si legge in molti commenti sparsi per la rete, secondo la quale i verbali delle valutazioni di molti settori concorsuali sembrano un po’ un copia e incolla l’uno dell’altro.

Per esaminare la questione in dettaglio è stato estratto il testo dai verbali PDF utilizzando il comando pdftotext, parte del software Xpdf; dal testo così ottenuto sono stati rimossi tutti i caratteri non alfanumerici e gli spazi, trasformando quindi il contenuto di ciascun verbale in una stringa di caratteri. Mediante un semplice programma scritto per l’occasione, sono state calcolate le distanze di Levenshtein tra tutte le coppie di verbali, normalizzando i risultati nell’intervallo [0,1]. Due stringhe hanno distanza 0 se e solo se coincidono; la distanza 1 si ottiene, ad esempio, quando una delle due include solo caratteri non presenti nell’altra. Giusto per avere un termine di paragone, la distanza di Levenshtein tra i primi venti versi della Divina Commedia e una parte di simile lunghezza tratta dalla Dichiarazione di Indipendenza degli Stati Uniti d’America risulta circa 0.81.

Prendendo come esempio i 413 verbali per l’abilitazione a seconda fascia nel settore 09/H1, è possibile costruire una matrice simmetrica di 413 × 413 elementi, in cui il valore dell’elemento (i, j) corrisponde alla distanza di Levenshtein tra il testo del verbale i-esimo e il testo del verbale j-esimo. Rappresentiamo il valore di ciascun elemento della matrice con un punto colorato con una tonalità di grigio proporzionale al valore (bianco = 0, nero = 1), ottenendo la figura seguente:

Distanza di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

Come si puo’ vedere, il colore predominante è un grigio piuttosto chiaro, sintomo che i testi risultano simili tra di loro in base alla metrica adottata. Possiamo esaminare in dettaglio la distribuzione delle 413 × 412 / 2 = 85078 distanze situate della parte triangolare superiore della matrice, che corrispondono alle distanze tra tutte le coppie di verbali, ottenendo il grafico seguente:

Istogramma delle distanze di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

La distanza media risulta di circa 0.15.

Ripetendo l’esperimento con i verbali di un altro settore, ad esempio il settore 08/A2 seconda fascia, si ottiene il seguente grafico e il corrispondente istogramma delle frequenze:

Distanza di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

Distanza di Levenshtein tra tutte le coppie di verbali per il settore 09/H1, seconda fascia

Dall’esame delle frequenze si nota come i testi dei verbali abbiano distanza di Levenshtein mediamente inferiore a 0.1; la distribuzione delle distanze evidenzia inoltre due picchi, il che potrebbe suggerire l’esistenza di due “cluster” di testi.

La distanza di Levenshtein è certamente una metrica molto grossolana, ma lo scopo di questo esempio è di segnalare le potenzialità derivanti dall’enorme massa di informazioni pubblicate sul sito del Ministero. Gli esperti in linguistica computazionale potranno certamente eseguire valutazioni molto più approfondite, basandosi magari sul contenuto semantico dei testi anziché sulla semplice sequenza dei caratteri che li compongono.

Conclusioni

Abbiamo illustrato alcune analisi preliminari dei primi risultati della prima tornata della Abilitazione Scientifica Nazionale 2012.

Pur con i limiti di una analisi non esaustiva, e considerando che gli atti fin qui pubblicati coprono solo una piccola parte di tutti i settori concorsuali, ritengo che quanto emerso fino ad ora consenta di evidenziare fenomeni interessanti che sicuramente dovranno essere oggetto di discussione. Nel frattempo, attendiamo fiduciosamente i dati relativi ai settori concorsuali mancanti; farò il possibile per tenere aggiornata la mia pagina Web per seguire gli sviluppi.

Send to Kindle
Tag: , , , , , , , ,

34 Comments

  1. Concordo anch’io sul fatto che il lavoro sia interessante, le mie scarse competenze statistiche mi impediscono di individuarne eventuali debolezze o aree di miglioramento; forse distinguere settori bibliometrici e non è corretto. Vorrei un parere sulle valutazioni di tipo qualitativo: io non sono stata abilitata e ne ho avuto una piuttosto impietosa, ma per me arbitraria o per lo meno molto opinabile. Grazie

  2. Segnalo che:
    1- A parità di candidato, per settori diversi il MIUR ha segnalato indicatori diversi. Assurdità.
    2- Ieri era comparsa la seguente dicitura sotto gli indicatori sparita stamattina:
    “** Tale valore deve comunque ritenersi superiore alla mediana in quanto il candidato riporta nell’ultimo decennio un’eta’ accademica pari a 0”

Sostieni ROARS

Sostieni ROARS