I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive e spiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra angolare dei test INVALSI. Meno di un anno fa, un analogo problema di solidità scientifica, riferito però ai test OCSE-PISA,  era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici di David Spiegelhalter, il quale, oltre ad essere professore a Cambridge, è uno dei più rinomati statistici a livello mondiale. Lo scorso maggio è stata indirizzata all’OCSE una richiesta di moratoria sottoscritta da un’ottantina di accademici che denunciavano gli effetti distorsivi dei test PISA nei confronti delle politiche nazionali sull’istruzione In risposta a questa lettera aperta, un altro gruppo di studiosi ha scritto una lettera di sostegno all’OCSE in cui viene ripresa una metafora già usata anche per i test INVALSI: i test standardizzati sarebbero come un termometro a cui non è saggio rinunciare. Tuttavia, alla luce della letteratura scientifica internazionale ed anche del presente articolo, ci sono ragioni per nutrire dubbi sul corretto funzionamento del “termometro di Rasch”. Ed anche sulla facilità di aggiustarlo.

BrokenThermoneterINVALSI

Nota introduttiva

Per la quasi totalità dell’opinione pubblica, ma anche degli insegnanti e degli accademici, l’elaborazione dei risultati dei test standardizzati è una “scatola nera” il cui corretto funzionamento viene assunto sulla fiducia. Chi d’altronde avrebbe le competenze per entrare nel merito dei marchingegni statistici utilizzati? Anche chi ne contesta l’uso a causa delle distorsioni che provoca nelle politiche educative raramente ne mette in dubbio la correttezza.

La metafora del termometro usata dai sostenitori dei test è chiara: per un medico la misura della temperatura fornisce un’informazione rudimentale sulla salute del paziente, ma è una misura tutto sommato affidabile:

Hospitals use a thermometer, which allows doctors to get useful, albeit partial and imperfect, information based on a standardized measure that is comparable over time and across patients.

Una metafora che però si rivela a doppio taglio: cosa succederebbe se i medici fossero talmente focalizzati sulle misure di temperatura da curare qualsiasi forma di malattia ricorrendo agli antipiretici? La metafora del termometro dà ancor più da pensare quando si prende atto di alcuni recenti sviluppi del dibattito internazionale sui test standardizzati. Alla luce della letteratura scientifica, infatti, è tutt’altro che certo questi “termometri” siano capaci di fornire “a standardized measure that is comparable over time and across patients”.

Ma dove sta il problema? Niente sembra più facile che elaborare  i risultati di un test standardizzato. Dopo tutto, basta contare il numero delle risposte esatte e di quelle sbagliate. O no?

No, non è così facile. Prima di tutto, bisogna considerare che non tutti i quesiti hanno la stessa difficoltà. Poca cosa si dirà: basta assegnare un punteggio via via più alto alle domande più difficili. Ma come si fa a stabilire se e quanto una domanda è più facile di un’altra? Beh, basta verificare quanti esaminati riescono a dare la risposta giusta.

Un attimo, così non funziona, perché non tutti gli esaminati hanno la stessa “abilità” (qualsiasi cosa possa voler dire) e la distribuzione dei diversi gradi di abilità cambia da un campione di esaminati all’altro. Potrei tentare di misurare l’abilità degli esaminati confrontando i punti che ottengono nel test, ma così tornerei al punto di partenza, proprio come un cane che si morde la coda.

Estrarre delle informazioni dai test standardizzati non è così semplice come leggere la temperatura sulla scala graduata di un termometro.

Per calibrare questo particolare “termometro” bisogna contemporaneamente ricostruire il grado di difficoltà delle domande e l’abilità degli esaminati. Bisogna passare attraverso la risoluzione di un particolare problema matematico-statistico. Come facciamo a sapere se questo problema ammette soluzione e se questa soluzione ha senso? Dipende dalle ipotesi che facciamo e, dopo che le abbiamo fatte, dall’avere dei dati che non le contraddicano.

Ora, i termometri dei test PISA e dei test INVALSI si servono dello stesso principio di misurazione della “temperatura”, ovvero del cosiddetto “modello di Rasch”, che specifica appunto le ipotesi matematico-statistiche utilizzate nella procedura di calibrazione.

Riguardo alle ipotesi del Modello di Rasch, due sono i problemi da affrontare:

  1. non sembrano essere le uniche possibil;
  2. non c’è garanzia che siano soddisfatte dai dati.

Venendo al primo punto, le ipotesi appaiono tutt’altro che di validità universale, tanto è vero che nella fase di caibrazione vengono scartate sia le domande sia gli esaminati che non sono conformi al modello. Insomma, appare difficile parlare di “oggettività” dei risultati. Piuttosto, facendo ricorso ad un ossimoro, verrebbe da dire con Rogora che l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI. Come spiegato più sotto, una conseguenza dell’adozione di un modello soggetto a ipotesi così restrittive è la sostanziale immodificabilità del syllabus, almeno fino a quando si vuole preservare la consistenza e le comparabilità con le precedenti rilevazioni.

Riguardo al secondo punto, in che misura le ipotesi del Modello di Rasch trovano conferma nei dati? Nel caso dei test OCSE-PISA, David Spiegelhalter, in un suo post apparso sul blog della Royal Statistical Society, ha sottolineato che il modello di Rasch è «demonstrably inadequate» e «over-simplified», confermando quanto sostenuto da Svend Kreiner in un suo articolo scientifico apparso sulla rivista Psychometrika[a]. Lo stesso Ray Adams, capo dell’OECD analysis team, non ha potuto negare che, si se effettua un test statistico di ipotesi sui dati PISA analizzati da Kreiner, il modello di Rasch risulta respinto (Comments on Kreiner 2011).


TheProblemWithPISAIn un articolo apparso sul blog della Royal Statistical Society, lo statistico di fama mondiale David Spiegelhalter, spiega le ragioni della sua perplessità nei confronti della metodologia statistica su cui poggiano i test OCSE-PISA. In particolare, Spiegelhalter concorda con le riserve sollevate da S. Kreiner, secondo il quale per i dati PISA «le prove contro il modello di Rasch sono schiaccianti» (The evidence against the Rasch model is overwhelming).


E i test INVALSI? Gnaldi et al, hanno sottoposto a verifica le ipotesi di applicabilità del modello di Rasch sui test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., Joint Assessment of the Differential Item Functioning and Latent Trait Dimensionality of Students’ National Tests, submitted). Se si dà fede alla loro analisi, le ipotesi di applicabilità del modello di Rasch risultano respinte. In particolare, l’analisi mostrerebbe una

dependance of students’ scores on attributes other than those the scale is intended to measure, that is students’ gender and geographical area.

Il test di italiano soffre inoltre di un altro problema, in quanto

a single score cannot be sensibly used to describe students’ attainment on the Italian Test (especially on the Grammar section), as the difference among students’ does not depend univocally on a single ability level.

Ma che pignoli questi statistici, penserà qualcuno. Si è scomodato persino il Financial Times per ricordare a Spiegelhalter che «i confronti accademici sono sempre imperfetti, ma questo non significa che non li si possa mai fare». In effetti, sarebbe inutile turbarsi per sbavature scientifiche che modificano solo marginalmente gli esiti finali.

Kreiner ha provato a fare dei calcoli per quantificare gli effetti di queste “sbavature”: la posizione del Regno Unito nel “Reading Test” 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quella del Canada tra 2 e 25 e quella del Giappone tra 8 e 40. Se si trattasse di un termometro, ci sarebbe il rischio di confondere una febbre da cavallo con un congelamento. “The best we can say about Pisa rankings is that they are uselessconclude Kreiner.

Spiegelhalter ha anche confrontato gli esiti di due diverse edizioni dei test PISA di matematica ed ha osservato una “stranezza”: la maggior parte delle nazioni che nel 2003 avevano ottenuto risultati sopra le media sono poi peggiorate nel 2013. Spiegelhalter osserva che è esattamente il comportamento che ci si aspetta di vedere quando una classifica è in gran parte influenzata dal caso:

This is exactly the pattern expected when much of the influence on the ranking is due to random variation, and is known as ‘regression-to-the-mean’, which reinforces my feeling that the precision of the estimates is not as great as claimed. When this pattern is observed, one should be very cautious about ascribing reasons for changes.

È un po’ come lanciare un dado due volte. Se il primo lancio ha dato “5″, con il secondo lancio è più probabile scendere che salire. Ecco perchè, secondo Spiegelhalter, “learning lessons from PISA is as hard as predicting who will win a football match“.

Ma è giunto il momento di chiudere questa nota introduttiva e di cedere la parola ad Enrico Rogora che nel seguito ci illustra funzionamento e limiti del modello di Rasch applicato ai test INVALSI.

Giuseppe De Nicolao  (Redattore Roars)

[a] S. Kreiner mostra che, relativamente ai test PISA 2006 di “Reading skills”, la validità del modello viene respinta (“rejected”) per tutte le nazioni tranne il Lichtenstein; inoltre, nella quasi totalità dei casi i pvalues  sono inferiori a 10^-4, vedi Table A.1 in (S.Kreiner, Psycometrika 2013).


 

Il modello di Rasch

Enrico Rogora

 

Introduzione

Ormai numerosi, anche in Italia, sono gli ambiti in cui si utilizzano test basati su domande a risposta multipla a fini valutativi. L’Istituto Nazionale per la Valutazione del sistema Educativo di Istruzione e di Educazione, INVALSI, prepara test che utilizzano sia domande a risposta multipla sia domande a risposta aperta, con griglia di correzione predeterminata. Questi test sono al centro da anni di innumerevoli discussioni e polemiche[1].

Scopo di queste riflessioni è quello di contribuire alla comprensione di un aspetto particolare, ma a mio avviso rilevante, di questa discussione: il modello statistico utilizzato dall’INVALSI per l’analisi dei risultati, cioè il cosiddetto modello di Rasch.

Credo che una discussione organica sui test debba essere fatta sul piano più elevato dei rapporti tra strumenti valutativi e processi di insegnamento/apprendimento, ma credo anche che sia utile avviare una discussione su alcuni aspetti tecnici, talvolta utilizzati come dogmi assoluti, dietro cui trincerarsi per evitare il confronto. Inoltre, la scelta del modello di Rasch come strumento di analisi dei dati porta necessariamente a conseguenze non irrilevanti sui contenuti dei test, come spero di chiarire alla fine di questo articolo e mi sembra utile conoscere in anticipo gli effetti di tali scelte.

Indici e misure

Prendiamo la frase: questo test misura le abilità matematiche degli studenti che ci è molto probabilmente già capitato di sentire. La parola misura fa pensare a un’operazione analoga alla misura dell’altezza di una persona. Ma se per l’altezza si tratta di una grandezza ben determinata e dal significato condiviso, che tutti sanno come misurare, nel caso delle abilità matematiche si può intendere invece semplicemente[2] che si è assegnato un qualche punteggio (per esempio il numero delle risposte esatte) ad un test costituito da un certo numero di domande di matematica. La misura dell’altezza gode di proprietà che il punteggio ottenuto da uno studente in un test non ha. Innanzitutto, nel caso dei test, la proprietà che si vuole misurare è tutt’altro che chiara. Non esiste una nozione univoca e condivisa di abilità matematica e domande diverse testano, in generale, abilità diverse[3]. Inoltre, il punteggio assegnato in un test non è in generale confrontabile con quello assegnato in un’altro test: per esempio un primo individuo può ottenere in un certo test A un punteggio superiore a quello ottenuto da un secondo individuo in un certo test B perché “il primo individuo è più bravo del secondo” o perché “il test A è più facile del test B”, cioè la supposta misurazione verrebbe a dipendere dallo strumento di misura.

In questa differenza del significato del termine misura si annidano pericolosi fraintendimenti. Chiamare misurazione una qualunque assegnazione di un punteggio ad un test ci fa pensare ad una oggettività comparabile con quella che si può ottenere misurando le grandezze fisiche che invece è ben lungi dall’essere giustificata.

Il modello di Rasch è un modello probabilistico, sviluppato dallo statistico danese Georg Rasch (1901-1980), con l’intento di definire operativamente un modo per stimare, dai risultati di un test, misure di abilità degli individui e di difficoltà delle domande del test o item.

La domanda intorno a cui ruotano le mie riflessioni è la seguente: possiamo affermare che utilizzando il modello di Rasch riusciamo ad ottenere misure di abilità paragonabili alle misure fisiche?

La mia opinione, che spero di motivare nel resto dell’articolo, è che le misure psicometriche o misure indirette dedotte dall’applicazione del modello di Rasch, pur costituendo un sostanziale passo avanti rispetto a meri indici numerici, non sono comparabili alle misure della fisica. Inoltre, tanto più si prende sul serio il modello di Rasch e si cerca di rendere queste misure indirette comparabili alle misure della fisica, tanto più è necessario delegare a un gruppo chiuso di esperti la definizione della variabile che si vuole misurare. In altre parole, parafrasando una famosa legge fisica propongo scherzosamente il seguente principio di indeterminazione per le misure di Rasch: detta q la distanza di una misura di Rasch da una misura oggettiva di una proprietà ben determinata e detta d la distanza tra il processo di stima dei parametri del modello di Rasch da un processo di misurazione trasparente e democratico

q*d>!H!

dove !H! (da leggere “H imbavagliato”) è una costante (costante di Plank psicometrica).

Spero di riuscire a spiegare nel seguito e in maniera comprensibile ai non specialisti, perché questa parafrasi scherzosa abbia un fondamento serio. Per fare ciò è necessario esporre sinteticamente alcune idee su cui si fonda il modello di Rasch.

Il modello di Rasch

I risultati della correzione di un test vengono organizzati in una tabella, o matrice in cui ogni riga rappresenta una persona e ogni colonna un item. Nei test composti di sole domande a risposta multipla standard[4], la correzione assegna il punteggio 1 ad ogni risposta esatta e 0 ad ogni risposta sbagliata o non data. Per esempio, si consideri un test composto di due sole domande, cui partecipano quattro persone. La matrice delle risposte sia

1 0
1 0
0 1
1 1

In questo test la prima e la seconda persona hanno risposto correttamente alla prima domanda e non hanno risposto correttamente alla seconda, la terza non ha risposto correttamente alla prima domanda ma ha risposto correttamente alla seconda, la quarta ha risposto correttamente a entrambe.

Il modello di Rasch ipotizza un modello di generazione stocastica di siffatte tabelle, in conseguenza del quale si possono implementare algoritmi per stimare dalla matrice delle risposte un parametro per ogni persona e un parametro per ogni item, che prendono il nome di parametri di abilità e parametri di difficoltà rispettivamente. La giustificazione e i limiti di tali denominazioni verranno discusse più avanti.

Il modello di Rasch è quindi un modello probabilistico per la stima di parametri nascosti a partire da dati osservabili. Questo genere di modelli si presenta in molte situazioni che hanno applicazioni anche alla vita di tutti i giorni: per esempio nel problema del riconoscimento vocale si usa il modello delle catene di Markov a stati nascosti e in quello della ricostruzioni del moto tridimensionali a partire da dati accelerometrici, utile per esempio nella conduzione degli aeroplani, si usa il modello dei filtri di Kalman.

Per modellare un processo stocastico che generi tabelle di zeri e uno, la prima cosa che può venire in mente è quella di lanciare ripetutamente una moneta. Se viene testa segnerò uno nella corrispondente casella, se viene croce segnerò zero. Questo primo modello è assolutamente inadeguato in quanto produrrà dati simili a quelli raccolti in test troppo particolari: quelli in cui ogni domanda ha solo due possibili risposte e ogni persona risponde a caso. Riflettendo sui limiti di questo modello, ci rendiamo conto che esso appiattisce completamente le persone. Quelle che sono più preparate devono avere una probabilità maggiore di rispondere correttamente di quelle meno preparate. Possiamo immaginare allora un modello in cui per ogni persona si scelga una diversa moneta e che si tratti di una moneta truccata. Tanto più preparata è la persona tanto più la sua moneta sarà truccata in modo da aumentare la probabilità che esca testa. Anche così però il modello non può funzionare bene. La probabilità di rispondere correttamente deve anche diminuire all’aumentare della difficoltà della domanda. Per affinare il modello possiamo associare ad ogni persona un parametro a, ad ogni item un parametro d e specificare una funzione di risposta p(a,d) che fornisce la probabilità che uno studente di abilità a risponda correttamente a un item di difficoltà d cioè scegliamo una moneta diversa per ogni interazione studente/item e truccata in accordo con la funzione p(a,d).

Si noti che per denotare il parametro a ho usato una volta il termine abilità un’altra il termine preparazione. Con questa ambiguità ho voluto sottolineare l’arbitrarietà del nome. In effetti i parametri a e d sono definiti in maniera puramente formale. Quanto questa definizione sia correlata con l’abilità, con la preparazione o quant’altro non ce lo può (e non ce lo deve) dire il modello.

Torniamo alla funzione di risposta, che abbiamo lasciato ancora indeterminata, e per la quale è ragionevole richiedere che assuma valori compresi tra zero e uno (per rappresentare una probabilità), che cresca al crescere di a (che è un parametro che vorremmo correlare all’abilità) e che decresca al crescere di d (che è un parametro che vorremmo correlare alla difficoltà).

Per specificare il suo modello, Rasch[5] si domanda a questo punto se è possibile scegliere la funzione p in maniera tale che i parametri a e d siano misure e non semplici numeri e propone la seguente condizione necessaria:

quando una persona ha abilità doppia di un’altra, e un item ha difficoltà doppia di un altro, la prima persona dovrà poter risolvere il primo problema con la stessa facilità con cui la seconda persona risolve il secondo[6].

Con riferimento alla funzione di risposta, questa condizione si può formalizzare richiedendo p(2a,2d)=p(a,d) e più in generale,

p(ka,kd)=p(a,d) per ogni a,d e k numeri positivi     (+).

La proprietà (+) viene definita da Rasch conformità. Tra le funzioni che verificano la condizione di conformità, Rasch sceglie quella che considera più semplice e propone un modello in cui[7]:

Ogni persona ha una certa probabilità di risolvere correttamente ogni problema di un dato genere e la sua probabilità, indipendentemente dalle risposte ai precedenti problemi, è data dalla formula[8]

FormulaRogora1bisdove a è una caratteristica della persona e d una caratteristica del problema.

 

A partire dal modello di Rasch è possibile valutare la verosimiglianza di ogni matrice di dati in funzione dei parametri del modello. Se abbiamo N persone di abilità a1,…,aN che rispondono a domande di difficoltà d1,…,dn, la verosimiglianza della matrice delle risposte si ottiene, in virtù della condizione di indipendenza formulata da Rasch, moltiplicando le probabilità delle osservazioni in ogni cella della matrice, ovvero p(ai, dj) se sulla i-esima riga e j-esima colonna c’è 1 oppure 1- p(ai, dj) se sulla i-esima riga e j-esima colonna c’è 0. Uno dei metodi per stimare i parametri consiste semplicemente nello scegliere quelli che massimizzano la verosimiglianza dei dati. Il problema conduce alla ricerca delle soluzioni di un sistema di equazioni non lineari, per cui esistono metodi efficienti di soluzione numerica.

Ovviamente la funzione (*) non è l’unica che verifica la condizione di conformità ma con questa scelta valgono ulteriori proprietà molto interessanti, sia dal punto di vista teorico che pratico, per esempio la proprietà che Rasch chiama di oggettività specifica.

Oggettività specifica

La discussione di questa proprietà è a mio avviso esemplare delle discussione relative al modello di Rasch. Il significato sostanziale della proprietà non è chiaro in quanto non è facile separare quello che si nasconde dietro la sua definizione formale da quello che ci si vuol vedere ma che in effetti non c’è. La discussione è tecnica e mi limiterò ad esporre alcune considerazioni non tecniche e a suggerire alcuni approfondimenti.

Dice Rasch[9]:

Agli inizi degli anni 60 ho introdotto un nuovo – o piuttosto una più definita versione di un vecchio – concetto epistemologico. Ho mantenuto per esso il nome di oggettività, ma siccome il significato di questa parola è passato attraverso numerose modificazioni sin dalla sua origine ellenica e viene ancora utilizzato, nei discorsi di ogni giorno e in quelli scientifici, in molti contesti diversi, ho aggiunto un predicato restrittivo: specifica[10].

Secondo Stenner[11],

Georg Rasch ha utilizzato il termine “oggettività specifica” per descrivere quel caso essenziale nelle misurazioni in cui il confronto tra individui diventa indipendente dagli strumenti particolari — test o item o altro genere di stimoli — che vengono utilizzati. Simmetricamente dovrebbe essere possibile confrontare stimoli che appartengono alla stessa classe — misurando la medesima cosa — indipendentemente da quale particolare individuo, all’interno della classe considerata, fosse strumentale per il confronto[12].

Da queste citazioni, e ancor di più dal titolo del lavoro di Rasch da cui è stata tratta la prima: On specific objectivity: An attempt at formalizing the request for generality and validity of scientific statements, si trae l’impressione che la specifica oggettività sia un principio fondamentale e imprescindibile per dare un senso alle misure. Ma se si scava più profondamente si scopre che le cose non sono affatto così nette.

Secondo Van Linden[13] il principio di oggettività specifica introdotto da Rasch si compone in realtà di due diversi principi, uno di carattere matematico e uno di carattere statistico.

Dal punto di vista matematico, si tratta di una proprietà formale di una equazione funzionale, già considerata da diversi matematici prima di Rasch[14]. Una delle conseguenze di questa proprietà è che, nel modello di Rasch, è possibile definire una funzione matematica per confrontare la prestazione tra individui diversi che non dipende dai parametri di difficoltà degli item. L’interpretazione di questa proprietà da parte di molti, e secondo van der Linden anche di Rasch[15], è che si tratti di una condizione necessaria perché i parametri siano delle misure. Sempre secondo van der Linden invece questa separazione dei parametri nelle operazioni di confronto, pur essendo utile, non è affatto necessaria. È superfluo aggiungere che, in ogni caso, la condizione formale di oggettività specifica, necessaria o non necessaria che sia, è ben lungi dall’essere sufficiente a garantire che le stime dei parametri dei modelli di Rasch siano misure utili e chiaramente determinate.

Dal punto di vista statistico, dice sempre van der Linden:

sotto la condizione che valga il modello di Rasch, se la lunghezza di due test diversi tende all’infinito, gli stimatori di massima verosimiglianza condizionale dell’abilità della stessa persona hanno lo stesso valore atteso, ma, di norma, varianza diversa. In altre parole, il significato corretto è che la presenza di statistiche sufficienti permette l’uso di stimatori consistenti dei parametri del modello di Rasch. “Oggettività specifica” non ha altro significato oltre a questo![16]

 

I tentativi di leggere oltre questo ha portato a numerosi fraintendimenti[17]

È la generalità degli enunciati di Rasch e il suo confondere i concetti di statistiche sufficienti e di oggettività specifica che porta ad ascrivere proprietà non realistiche al modello di Rasch. Per esempio è molto diffusa la credenza che a causa della presenza di statistiche sufficienti, la stima di massima verosimiglianza condizionale nel modello di Rasch permetta la stima degli stessi parametri di abilità da campioni diversi di item dello stesso test. Questa affermazione è dal punto di vista statistico troppo semplicistica per essere vera[18].

 

La discussione sul significato della proprietà di oggettività specifica mostra in maniera esemplare quanto sia facile creare confusione quando si trasmette un contenuto scientifico. Usare le parole del linguaggio comune porta facilmente a estendere il senso di un contenuto scientifico, per esempio una proprietà formale di un modello matematico, oltre al suo ristretto dominio di validità. È un compito difficile, e a mio avviso troppo spesso trascurato da chi si occupa professionalmente di scienza, quello di trasmettere, oltre a un contenuto scientifico, anche il senso dei limiti della sua applicabilità.

Osservazioni sul modello di Rasch

Il modello di Rasch non è molto flessibile. Per descrivere una matrice N*n di dati (le risposte di N persone a n item) ha a disposizione N + n parametri e quindi impone una limitazione sulla struttura dei dati, che deve essere attentamente vagliata prima di trarne qualsiasi conseguenza. Non deve trarre in inganno il fatto che è sempre possibile dare una stima dei parametri del modello, qualsiasi sia l’insieme dei dati raccolti. Una stima fornisce i parametri ottimali rispetto ad un dato criterio (per esempio il criterio di massima verosimiglianza) ma il fatto di individuare i parametri ottimali non implica che il modello sia adeguato alla descrizione dei dati.

Non entro in questa sede nella discussione dei problemi relativi alla valutazione della bontà dell’adattamento del modello di Rasch con i dati, salvo rinviare ad alcune critiche sull’adeguatezza dei test di aggiustamento per il modello di Rasch[19].

Per applicare il modello di Rasch è necessario controllare la qualità degli item. Qualità significa, in questo contesto, conformità dell’item con il modello. In particolare si richiede che sia un item al quale gli studenti non rispondano a caso e che la sua discriminazione sia uguale a uno.

La prima ipotesi sembra in contrasto con il vincolo che la risposta sbagliata sia valutata come la risposta non data, ma se le domande non sono troppo difficili e i distrattori (cioè le risposte errate) sono plausibili si osserva nella pratica che le deviazioni da questa ipotesi non sono solitamente statisticamente significative. È sempre necessario però fare un’analisi accurata dei dati per confermarlo.

La seconda assunzione è, a mio avviso, di carattere esclusivamente formale.

Gli utilizzatori del modello di Rasch, in presenza di significative deviazioni da queste ipotesi, eliminano l’item. A tal fine organizzano dei pretest necessari alla verifica della conformità degli item al modello di Rasch. La scelta di imporre a priori il modello sui dati e di modificare i dati eliminando item e individui che non sono conformi al modello, è fonte di una diatriba infinita tra i sostenitori e gli avversari del modello di Rasch[20]. La motivazione dei sostenitori del modello è sostanzialmente che il modello di Rasch è l’unico che fornisce misure psicometriche valide e quindi ciò che non è conforme al modello di Rasch non è misurabile. Un item che non verifica le ipotesi del modello di Rasch è come un metro rotto[21].

La mia opinione è che le ragioni per cui i sostenitori del modello di Rasch affermano che questo modello sia l’unico in grado di fornire misure psicometriche valide non sono convincenti, come ho cercato di spiegare nel paragrafo sulla proprietà di specificità oggettiva. Si tratta di voler vedere in proprietà matematiche o statistiche del modello di Rasch, alle volte neanche ben formulate, più di quanto ci sia in realtà. Credo anche però che aggiungere parametri per rendere il modello più aderente ai dati non faccia compiere sostanziali passi avanti nella direzione di ottenere una misura oggettiva di una proprietà ben determinata per le ragioni che cercherò di spiegare nel prossimo paragrafo.

Critiche alle misure indirette

Le misure stimate con il modello di Rasch sono misure indirette[22]. Anche se le misure indirette costituiscono un passo avanti significativo in confronto ai meri indici numerici, esistono differenze, secondo me sostanziali, tra le misure indirette e le misure della fisica: innanzitutto, la precisione delle stime di una misura indiretta, oltre a essere molto inferiore, è molto meno controllabile e poi le proprietà che si cerca di misurare non sono ben definite.

La mia opinione sulle misure indirette è che si tratti di misure imprecise di proprietà non ben definite in condizioni critiche. L’immagine intuitiva che mi sono fatto di una misura indiretta è la seguente: è come misurare il peso di una persona con una riga storta mentre la persona corre. Nell’immagine ho scritto: misurare il peso con una riga. Non è un errore, ma il tentativo di mettere a fuoco un problema sostanziale. In una misurazione indiretta non abbiamo accesso diretto alla proprietà che vogliamo misurare. Per esempio, quando diciamo abilità matematica misurata da un test, intendiamo abilità di svolgere il test che è stato proposto. Ci immaginiamo che questa abilità sia correlata con l’abilità matematica che vorremmo misurare e ci troviamo quindi in una situazione analoga a quella in cui ci troveremmo misurando il peso invece dell’altezza[23].

Le misure indirette infine vengono effettuate in condizioni critiche perché le condizioni al contorno non sono controllabili, come al contrario avviene per le misure fisiche. Le misure fisiche si fanno in laboratorio su una realtà artificiale e questa è una loro caratteristica fondamentale. Il fatto di misurare in laboratorio è uno dei tratti fondamentali della rivoluzione galileiana. La fisica moderna non è la scienza di Aristotele che si limita ad osservare il fenomeno ma sostituisce il fenomeno reale con un fenomeno artificiale più controllabile, e solo a questo punto procede con le misurazioni. Questo controllo del fenomeno prima di misurare non può essere fatto con le misure indirette. Ci sono autori che dicono che questo ostacolo epistemologico impedisce la possibilità stessa di definire misure indirette.

Io credo che possa essere comunque utile considerare misure indirette, purché ci si renda conto che l’oggettività della misura, se di misura si tratta, è discutibile.

Le misure indirette sono comunque utili? Dipende! È come il risultato di un’analisi clinica. Messo in mano a un bravo medico può essere utile a confermare una diagnosi o a far suonare in anticipo un campanello d’allarme. Messo in mano a un cattivo medico, o peggio al paziente stesso, può produrre esiti catastrofici.

Un’ultima osservazione riguarda la trasparenza delle misure indirette. Quando si stima una misura indiretta con un modello probabilistico è fondamentale verificare che il modello utilizzato sia in buon accordo con i dati, altrimenti le misure indirette perdono completamente di senso. Questo introduce un grave rischio per la trasparenza delle misure indirette, per esempio nelle valutazioni, perché il controllo della loro qualità e della loro significatività è delegata, nella migliore delle ipotesi a un gruppo di esperti, e nella peggiore alla fiducia cieca in procedure automatiche.

Critiche all’applicazione del modello di Rasch ai risultati dei test INVALSI

Dopo aver mosso alcune critiche generali alle misure indirette e in particolare a quelle dedotte dal modello di Rasch, vorrei concludere le mie riflessioni sollevando due ulteriori critiche specifiche alle applicazioni del modello di Rasch all’analisi dei risultati dei test INVALSI.

Le misure indirette di abilità, stimate nelle rilevazioni INVALSI, introducono un elemento quantitativo che, invece di aiutare a chiarire i termini del dibattito e sulla valutazione dei sistemi educativi, rischia di mascherare i problemi reali spostando la discussione su un piano sbagliato. A una classe politica, che conosce poco i problemi che deve affrontare e che non sa o non riesce ad assumere le proprie responsabilità di riformare il sistema educativo nazionale, risulta estremamente comodo cercare un criterio semplice che guidi automaticamente o giustifichi le proprie scelte. Credo che sia utile e doveroso sottolineare con forza che questi criteri non sono affatto oggettivi e indiscutibili.

In secondo luogo, il modello di Rasch prescrive una interazione piuttosto rigida tra item e individui. Per dare senso alla stima dei parametri di abilità e difficoltà è necessario che gli item siano strettamente conformi alle ipotesi del modello e quindi è necessario seguire un protocollo lungo, faticoso e costoso per la preparazione e per la selezione degli item. Il protocollo utilizzato dall’INVALSI per costruire un test definisce la variabile che si intende misurare. In altre parole, e questo è necessaria conseguenza del modello di Rasch, l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI. Non voglio entrare nel merito se questo sia giusto o sbagliato, voglio solo osservare che necessariamente questo non è modificabile. In altre parole, se vogliamo modificare in maniera sostanziale il syllabus sulla base del quale l’INVALSI ha preparato finora le proprie prove, il principio di misurazione basato sul modello di Rasch prevede che dobbiamo rifare tutto il lavoro di verifica della coerenza degli item e ricontrollare e probabilmente eliminare buona parte dei risultati delle rilevazioni precedenti. In conseguenza del modello di Rasch, in altre parole, è tassativamente vietato variare la sostanza del syllabus INVALSI, perché questo equivale a modificare la variabile che si sta misurando.

Prendere sul serio il modello di Rasch pone anche dei vincoli al processo di rinnovamento dei preparatori delle domande, chiesto a gran voce da molti. Poiché per poter continuare a misurare la stessa variabile è necessario che ogni item sia statisticamente omogeneo ai precedenti, se prendiamo sul serio il modello di Rasch è tassativamente vietato aggiungere nuove dimensioni alle modalità di valutazione dei contenuti del syllabus INVALSI.

In conseguenza, per avvicinare le misure di abilità e difficoltà all’ideale (secondo me comunque irraggiungibile) di oggettività delle misure della fisica bisogna necessariamente sacrificare le possibilità di sottoporre a un controllo esterno e di modificare le procedure, i syllabi e in definitiva la visione della matematica di chi gestisce le prove INVALSI. È questo il senso del principio di indeterminazione per le misure di Rasch che ho enunciato nel secondo paragrafo.

 

[1] cfr. Intervista di G. Israel a Orizzonte scuola. http://www.orizzontescuola.it/news/giorgio-israel-invalsi-istituto-fuori-controllo-prof-state-guardia-potreste-diventare-semplici-

e l’interessante sito in cui vengono raccolti autorevoli pareri pro e contro i test standardizzati

http://standardizedtests.procon.org/

[2] Non è il caso dei test INVALSI, come vedremo.

[3] Cfr. per esempio le considerazioni nell’articolo già citato di Giorgio Israel.

[4] Mi limiterò a discutere questa tipologia di test perché il modello per l’analisi statistica è sostanzialmente lo stesso anche per test più complicati che ammettono griglie di correzione standardizzate più complicate.

[5] G. Rasch, Probabilistic models for some Intelligence and attainment tests, Chicago, the University of Chicago Press, 1980.

[6] G. Rasch, op. cit.

[7] G. Rasch, op. cit.

[8] Il modello di Rasch viene oggi specificato con riferimento alla funzione

FormulaRogora2L’equivalenza con la formulazione precedente, utile per confrontare il modello di Rasch con gli altri modelli della Item Response Theory (IRT), si ottiene ponendo

FormulaRogora3[9] G. Rasch, On specific objectivity: An attempt at formlizing the request for generality and validity of scientific statements. Danish Yearbook of Philosophy, 14, pp. 58-94, 1977. disponibile on line: http://www.rasch.org/memo18.htm

[10] Traduzione dell’originale:

In the beginning of the 60’es I introduced a new – or rather a more definite version of an old – epistemological concept. I preserved the name of objectivity for it, but since the meaning of that word has undergone many changes since its Hellenic origin and is still, in everyday speech as well as in scientific discourse, used with many different contents, I added a restricting predicate: specific.

[11] A. J. Stenner, Specific objectivity – local and general.Rasch Measurement Transactions, 1994, 8:3 p.374 – disponibile on line: http://www.rasch.org/rmt/rmt83e.htm

[12] Traduzione dell’originale:

Georg Rasch used the term “specific objectivity” to describe that case essential to measurement in which “comparisons between individuals become independent of which particular instruments — tests or items or other stimuli — have been used. Symmetrically, it ought to be possible to compare stimuli belonging to the same class — measuring the same thing — independent of which particular individuals, within a class considered, were instrumental for comparison.”

[13] W. J. van der Linden, Fundamental Measurement and the Fundamentals of Rasch Measurement, in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 3-25.

[14] G. Fischer, Applying the principles of specific objectivity and of generalizability to the measurement of change, Psychometrika, v. 52 (4), pp. 565-587, 1987.

[15] van der Linden, op. cit., p. 18.

[16] Traduzione dell’originale:

under the condition that the Rasch model holds, if the lengths of two different tests go to infinity, the conditional maximum likelihood estimators of the ability of the same person have the same expected value but are likely to have different variances. In other words, the correct inference is that the presence of sufficient statistics paves the way for the use of consistent estimators of the parameters in the Rasch model. “Specific objectivity” has no meaning beyond this!

[17] Van der Linden, op. cit.

[18] Traduzione dell’originale:

It is the generality of Rasch’s claims and his mixing up of the concepts of specific objectivity and sufficient statistics that could lead to ascribing unrealistic properties to the Rasch model. For example, the belief is widespread that due to the presence of sufficient statistics, conditional maximum likelihood estimation in the Rasch model allows estimation of the same ability parameters from different samples of test items. This statement is statistically too simple to be true.

[19] Per esempio: Wood ha mostrato come si possano rendere conformi al modello di Rasch anche dati casuali in Wood R., Fitting ther Rasch model: a heady tale. British Journal of Mathematical and StatisticalPsychology, 31, pp. 27-32, 1978; Goldstein e Blinkhorn hanno criticato le procedure utilizzate per l’analisi di adeguatezza del modello di Rasch in Goldstein H., Blinkhorn S. The Rasch model still does not fit, British educational research journal, Vol. 8, n. 2, pp. 167-1701982

[20] Cfr. per esempio, W. Fisher, The Rasch debate, in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 36-73, Goldstein, H. Dimensionality, bias, independence and measurement scale problems in latent trait test score models. British Journal of Mathematical and Statistical Psychology, 1980 33: 234-246.

[21] W. Fisher, The Rasch debate.

[22] E. Rogora, Valutare e scegliere, il ruolo della matematica, Lettera matematica PRISTEM, 87 (4), pp. 4-7. Disponible on line, http://matematica.unibocconi.it/sites/default/files/LM87_Rogora.pdf.

[23] In realtà la situazione in cui ci troviamo è ancora più intricata in quanto non è affatto chiaro che la proprietà che ci interessa sia definibile, unodimensionale e misurabile. Cfr. la discussione nell’intervista citata di Giorgio Israel.

Send to Kindle

37 Commenti

  1. Per i lettori interessati ad approfondire, vi sono altri due articoli pubblicati su Roars lo scorso maggio, di cui il secondo discute proprio i dubbi relativi all’uso del modello di Rasch nei test PISA:
    ====================
    I test OCSE-Pisa danneggiano l’istruzione a livello mondiale? Un appello firmato da docenti universitari di tutto il mondo
    ____________________
    https://www.roars.it/online/i-test-ocse-pisa-danneggiano-listruzione-a-livello-mondiale-un-appello-firmato-da-docenti-universitari-di-tutto-il-mondo/
    ====================
    Fondamentalmente errati? I dubbi della BBC sui test OCSE-PISA
    ____________________
    https://www.roars.it/online/fondamentalmente-errati-i-dubbi-della-bbc-sui-test-ocse-pisa/

  2. Ho letto con molto piacere l’articolo, in quanto come orecchiante delle teorie e dei metodi dei test riesco a conoscere, capire è una parola grossa, le problematiche presenti. I test attualmente sono particolarmente invasivi, dall’ingresso all’Università, all’iscrizione a Medicina o Veterinaria o Architettura, all’INVALSI, o all’ANVUR-AVA TECO-Test sulle competenze effettive di carattere generalista dei laureandi italiani, o ai questionari studenteschi sulla didattica e sulle docenze che ormai sono realizzati dalle Università da più di un decennio.
    Capisco che il bagaglio statistico dietro un test, per la sua validità e confrontabilità nel tempo, è assai pesante e mi pongo una serie di domande:
    -se il metodo dietro l’INVALSI o PISA è così complicato e foriero di grosse critiche (i risultati nel tempo sembrano anche casuali) che cosa occorre fare per migliorarlo? O qual è una procedura statistica che possa dare le maggiori garanzie di validità (scientificità)?
    -se l’INVALSI, riveduto e corretto (?), viene applicato anche ai laureandi (TECO) che cosa ci possiamo aspettare? Ma se su l’INVALSI la letteratura critica è così vasta, che cosa possiamo dire allora dire dei test di ingresso all’Università per le matricole? Ogni Ateneo si muove per conto suo e probabilmente sono dei test del tipo fai-da-te, dietro i quali forse c’è molta buona volontà, ma poca scienza…
    -che dire poi dei questionari studenteschi sulla didattica?
    -etc. etc.

    Sembra che per conoscere la realtà, anche scolastica, il metodo del “quizzario” sia particolarmente di moda, quando la teoria applicata sembra particolarmente debole. L’affidabilità del metodo sembra assai scarsa e per questo così diffuso tale metodo? Un quiz sembra un metodo facile di conoscenza ma poi si scopre che ha basi scientifiche assai dubbie.
    Rifiutare i quiz va bene, ma sostituirli con che cosa?
    Ed il TECO ANVUR, visti i precedenti, mette paura. Quello che meraviglia è che al solito l’ANVUR (o Fiorella Kostoris Padoa Schioppa che è l’esperta ANVUR in proposito) procede a testa bassa solo con certezze assolute, come è avvenuto per le mediane bibliometriche con l’ASN di recente e futura memoria. L’ANVUR ha un metodo di approccio ai problemi del tipo aristotelico (ANVUR dixit) non quello cartesiano del dubbio metodico.
    La realtà è spiegabile con i quiz? La vita è tutta un quiz? Il TECO ci dirà tutto sulle competenze effettive di carattere generalista dei laureandi italiani (sic!)? Non avendo letto e meditato la possente bibliografia che viene allegata a TECO, conviene avere la posizione scettica antica: chi può dire di un essere umano (un laureando) le sue competenze effettive di carattere generalista? Cioè che cosa egli è? Forse non lo sa neanche lui stesso, non l’ANVUR ovviamente, non TECO.

  3. A pag. 114 del Rapporto rilevazioni nazionali 2014, l’INVALSI spiega che il “termometro” INVALSI fornisce letture che non sono ancorate a una metrica costante nel tempo e che nei cinque anni la metrica dei dati è diversa:
    ___________________
    […] le prove non sono al momento ancorate a una metrica costante nel tempo (48).
    ___________________
    (48) Anche la metrica dei dati nei cinque anni è diversa, essendosi in passato utilizzato il dato sulla percentuale di risposte corrette (che con riferimento alle prove di quest’anno risulta peraltro fortissimamente correlato con la metrica adoperata in questo rapporto) […]
    ___________________
    http://www.invalsi.it/areaprove/rapporti/Rapporto_Rilevazioni_Nazionali_2014.pdf

  4. Già vedere il termometro vicino ad un test provoca allergia e capelli ricci 🙂
    Mi riservo di leggermi in dettaglio tutto e il rapporto sui test INVALSI, perché li conosco a spanne dato che anche a casa mia quando li fanno non do loro quasi alcuna importanza: ognuno ha le sue deformazioni professionali, chiamamole così.
    Se vogliamo parlare di scientificità, basterebbe già dire che uno strumento che in casi supposti simili dà variazioni paragonabili alla sua scala di misura, è da buttare nel …sacchetto dell’immondizia.
    Non è appunto questione di usare il termometro al Polo Sud e all’Equatore, ma di usarlo al Polo Sud ottenendo i risultati dell’Equatore.
    Questo un termometro non lo fa, perché è progettato in modo tale da ridurre l’effetto delle variabili cui lo strumento è sensibile che non siano la temperatura, o comunque da tenerne conto quando queste, variando e non potendo essere corrette intrinsecamente dallo strumento o con altri mezzi, producono effetti significativi sulla misura della temperatura, pure essendo questa rimasta costante.
    Durante la taratura le variabili di disturbo sono tenute sotto controllo statistico, e questo significa farne un preliminare elenco, identificarle e poi controllarne la variabilità entro determinati intervalli. Altrimenti, i dati in uscita dallo strumento sono dispersi nei raggi di chilometri e per quanto si applichino metodi statistici anche raffinati per elabolarli, sono numeri che… danno numeri.
    Anche le misure indirette vanno prese con le pinze: serve un modello che correli le diverse misure dirette e che ogni misura diretta sia fatta coi crismi di cui sopra, ossia conoscendo e controllando le variabili in gioco nella loro misura.
    Qui vedo numerose difficoltà per l’applicazione di questi concetti, a partire già dal concetto di variabile di misura. La temperatura è una proprietà specifica dei corpi che si può quantificare in termini numerici in corrispondenza di un determinato evento fisico: l’equilibrio termico fra due corpi. Questo rende possibile stabilire una relazione biunivoca fra le letture di uno strumento (con le loro incertezze) e la variabile temperatura, che è la condizione necessaria per qualsivoglia misura fisica.
    La variabile “abilità matematica” a che tipo di evento è correlabile in maniera biunivoca? Da quali fattori dipende? Che variabilità hanno questi fattori? Quali di questi sono realmente significativi e quali invece sono solo di disturbo?
    Se l’ “abilità matematica” diventa dipendente da n variabili significative supposte misurabili è allora una misura indiretta, ma questo significa, intanto, rimandare il problema della misura corretta alle rilevazioni delle variabili significative, ognuna presa singolarmente con la sua incertezza e relativi parametri di disturbo, e poi anche nell’utilizzare un modello per correlare i risultati in maniera significativa, soprattutto quando non sono indipendenti, e in maniera che sia ancora una volta biunivoca rispetto alla stima primaria.
    Se l’ “abilità” è, ad esempio, in un caso estremamente semplificato, definita come “velocità di risposta” moltiplicata per “correttezza della risposta”, dovrei poter stabilire una scala di bravura nella quale ad ogni valore di quel prodotto corrisponde un livello di bravura e affermare senza ombra di dubbio che chi risponde correttamente e velocemente è più bravo di chi risponde lentamente e correttamente e anche di chi risponde velocemente e male. Ma è vero? Da cosa dipende ad esempio la velocità di risposta? Dall’avere magari per caso svolto lo stesso problema il giorno prima piuttosto che subire meno il peso psicologico di un test piuttosto che aver avuto un’insegnante somara che ha spiegato in maniera poco efficace quel metodo o?
    Quali sono queste variabili significative, poi, che combinate darebbero una definizione di “abilità matematica”? Sono variabili derivanti da stime soggettive, e quindi, come già si dice sopra, legate ad una particolare interpretazione della matematica e della sua traduzione in processi o risultati da valutare, in un certo modo.
    Variabili di nessuna obiettività, quindi, già in partenza.
    Si può affermare che la scientificità non c’è, se poi i dati vogliono essere indicazioni qualitative è un altro conto, ma anche in questo caso credo che andrebbero presi con le pinze.

  5. Segnalo questo articolo, apparso sul sito del magazine neozelandese “the Listener”, che ricostruisce tutta la querelle sulla correttezza statistica dei test PISA, citando i punti di vista di Kreiner, Spiegelhalter, ma anche la replica di Andreas Schleicher (deputy director for education and special adviser on education policy to the OECD’s secretary general)
    ===========================
    Education rankings “flawed”
    ___________________________
    A test that ranks countries’ educational achievements has serious flaws, some academics say, and basing reforms on the league tables is a big mistake.
    http://www.listener.co.nz/current-affairs/education/education-rankings-flawed/
    ===========================
    Ecco il link diretto alla replica di Schleicher:
    ===========================
    Attacks on Pisa are entirely unjustified
    http://www.tes.co.uk/article.aspx?storycode=6345213
    ===========================
    Avendo letto la replica di Schleicher, sembra giustificato il giudizio che ne dà, sempre su The Listener, Michael Johnston (senior lecturer in education policy and research, Victoria University):
    ===========================
    Johnston finds this response “glib and profoundly unconvincing”. “Either they have not read or properly understood Kreiner’s criticisms, or they have ignored them and responded to straw-man criticisms instead … I think they believe that the media in particular will fail to follow the complexities of the argument and conclude that Kreiner and Christensen are just being picky. For what it’s worth, I don’t think they are.”
    ============================
    Il dibattito internazionale ha già avuto delle conseguenze politiche in Danimarca, la nazione di Kreiner. The Listener cita una corrispondenza con Kreiner che, sempre nel dicembre scorso, scrive:
    ____________________________
    “Things have been happening in Denmark over the weekend. The Danish Ministry of Education has actually decided to abandon the country ranks.”

    Danish Education Minister Christine Antorini has since told media Denmark’s rank does not matter, and she is more interested in whether the country is below or above average. It is now just above.

  6. Un altro contributo meritevole di essere letto, mette in evidenza le (troppe) sorgenti di errore sistematico, tali da rendere le classifiche PISA molto poco affidabili.
    ====================
    j. Wuttke, “Uncertainties and Bias in PISA”
    http://www.oxydiane.net/IMG/pdf/Uncertainties_and_Bias_in_PISA.pdf
    ====================
    Mi limito a citare un paio di punti interessanti (ma c’è solo l’imbarazzo della scelta):
    ____________________
    1. The importance of extrinsic parameters becomes obvious when subpopulations are compared that share the same education system. An example are the two language communities in Finland. In the major domain of PISA 2000, reading, Finnish students achieve 548 points in Finnish-speaking schools, but only 513 in Swedish-speaking schools, slightly less than Sweden’s national average of 516 [31, Sect. 4.8]. A national report [5] suggests that much of the difference between the two communities (which is somewhat smaller in 2003) can be explained by two factors: by the language spoken at home and by the social, economic, and cultural background.
    _________________
    2. The immigration status is accessible since the questionnaire asks for the country of birth of the student and his parents. Excluding first and second generation immigrant students from the national averages considerably alters the country league tables: On top of the list in the 2003 major domain, mathematics, Finland is replaced by the Netherlands and Belgium, and it is closely followed by Switzerland. The superiority of the Finish school system, one of the most publicised “results” of PISA, vanishes as soon as one single background variable is controlled.
    ====================
    Leggendo queste analisi, viene da pensare che il successo di queste classifiche abbia qualcosa a che fare con un (inestirpabile?) residuo di pensiero magico. C’è l’idea che gli scienziati (che, sociali o meno che siano, per l’uomo della strada un po’ stregoni lo sono) riescano ad estrarre la quintessenza del sistema educativo attraverso una manciata di numeri che possono essere usati per costruire classifiche di sistemi educativi “buoni” e “meno buoni”, se non addirittura “cattivi”. Se ci si addentra nelle incertezze e nei fattori di variabilità, si finisce per capire che siamo di fronte ad un miraggio. Ma anche molti scienziati, quando non si muovono nella loro disciplina, ritornano bambini. Gli entusiasmi per le raffazzonate formule magiche CRUI-anvuriane ce lo stanno a ricordare.

  7. Direi che non se ne può veramente più: Invalsi, bibliometria, psicometria, ANVUR, classifiche pseudoscientifiche di enti e persone, decisioni, comportamenti indotti e politiche di “miglioramento” basate su numeri sena senso.
    Sembra che le persone non abbiano più la minima capacità di fidarsi di loro stesse e degli altri e che quindi debbano demandare qualsiasi cosa a dei numeri che decidano al posto loro, non importa se male e contro la razionalità e il buon senso.
    Lasciamo i numeri a quello che è scientificamente misurabile.
    Mi auguro fortemente che tutto questo passi e che passi presto.

  8. I test psicologici permettono di ottenere una misura quantitativa, seppur su scala arbitraria, di una caratteristica o attributo psicologico (sulla questione della misurabilità in psicologia si veda http://tinyurl.com/lo8oscl, mentre sulla questione dello statuto filosofico delle caratteristiche psicologiche si veda Sartori R. (2005). Le caratteristiche psicologiche esistono? Per una filosofia della
    psicometria. Giornale Italiano di Psicologia, 2, 425-435). Il problema è che, differentemente dalla fisica, non si tratta di caratteristiche direttamente osservabili, per cui occorre un metodo di misurazione indiretto che si compone essenzialmente di due fasi: (1) definire a livello teorico la caratteristica che si vuole misurare, e (2) individuare i suoi indicatori, ossia i suoi comportamenti osservabili (e quindi misurabili direttamente) che riflettono la presenza di questa caratteristica. Quindi, se definisco l’intelligenza come l’essere dei geni in matematica, dovrò sottoporre le persone a prove di matematica, ma se la definisco come la capacità di adattarsi all’ambiente e di risolvere problemi pratici allora dovrò individuare altri indicatori.
    Attenzione però che individuare *cosa* misurare non implica anche il *come*. Supponiamo che ci siamo accordati sulla definizione di “abilità matematica” e sul fatto che consista nel saper risolvere un certo tipo di problemi (e quindi abbiamo risolto la questione del campionamento del contenuto): come le facciamo le domande (questione del campionamento dei comportamenti)? A risposta aperta o a risposta chiusa? Perchè le risposte a questi due tipi di domanda presuppongono processi di pensiero e metodi di valutazione che possono essere anche molto diversi. Se facciamo domande a risposta aperta abbiamo la possibilità di valutare le capacità dello studente di illustrare gli argomenti in modo chiaro e con la terminologia adeguata, di seguire i suoi processi di pensiero nella soluzione, di valutare come connette i concetti, etc. Il problema, però, risiede nella valutazione di queste risposte, dato che non possono essere automatizzate: occorre quindi un valutatore umano che può non essere coerente nelle sue valutazioni nel corso del tempo, può non essere d’accordo con un altro valutatore nel valutare le stesse cose, può avere le sue idiosincrasie, etc. In questo senso, pensare ad una valutazione su larga scala con questo sistema non appare fattibile per quanto rappresenti il modo tradizionale di valutazione scolastica in Italia, il che rende i test a scelta multipla qualcosa di estraneo all’esperienza quotidiana dei nostri studenti, differentemente dai Paesi anglosassoni (quindi c’è anche un problema, per così dire, di adattamento culturale).
    Le domande a risposta chiusa sono di solito viste come eminentemente nozionistiche per il banale motivo che è molto più semplice formularle se si chiede una nozione da imparare a memoria (In quale anno è iniziata la prima guerra mondiale?) invece di qualcosa di più articolato, che implica il riuscire a prevedere diverse possibili linee di ragionamento da inserire come alternative di risposta, una sola delle quali corretta. Al di là della difficoltà per lo sviluppatore di produrre questo tipo di domande, data la potenziale ambiguità della risposta effettivamente corretta, questo può anche dare adito a contestazioni in sede di valutazione, soprattutto nei casi dei test di ingresso all’università, dove per molti candidati vige la regola “o entro o faccio ricorso”: per cui, si chiede in quale anno è iniziata la prima guerra mondiale (e siamo tutti d’accordo che 1914) e non quale è stata la principale causa scatenante, perchè se i maggiori storiografi a livello mondiale dicono A ma chi ha scritto la pagina di Wikipedia dice B scoppia il putiferio (lo so per dolorosa esperienza). Il vantaggio di prove con domande chiuse, però, è che la correzione può essere automatizzata, mettendo davvero tutti sullo stesso piano e permettendo il confronto fra persone diverse, in quanto la procedura di valutazione è identica. Non sarà la soluzione perfetta, ma a mio modesto avviso è di gran lunga preferibile alle valutazioni soggettive degli insegnanti, o, nel caso dell’università, al rilevare la percentuale di studenti che si laureano in pari.
    A mio modo di vedere il problema principale del testing a livello educativo risiede nell’interpretazione e nell’uso che viene fatto dei risultati dei test, in particolare dai mezzi di informazione, perchè, probabilmente per ignoranza della materia (basti vedere il fraintendimento sui plausible values; per chi fosse interessato a capire cosa sono davvero: http://tinyurl.com/q587syv), non si considera il punteggio al test per quello che è, ossia un prestazione ad una prova standardizzata ottenuta in un certo momento della propria vita. Se dico che il mio QI è 150, (quasi) tutti penseranno che ho un’intelligenza (qualunque cosa sia) notevolmente al di sopra della media perchè si sa che la media è 100 (qualcuno sa anche che la deviazione standard è 15). Il punto è che ho fornito un’informazione in gran parte insufficiente a valutare altre mie caratteristiche (e.g., sono una persona empatica? sono una persona di cui ci si può fidare? sono tollerante verso le altre culture?), al pari di altre (e.g., sono alto 1,80m: quindi?). Ora, quando si ottengono i punteggi ai test INVALSI o PISA, si ottiene una misura di quella caratteristica che il test misura (sulla questione della validità si veda http://tinyurl.com/lsxhqht) e che è definibile in base al contento degli item utilizzati. Informazioni utili che si possono trarre dall’analisi di questi dati sono ad esempio la distanza di ogni studente dalla prestazione media della popolazione di partecipanti al test, o, come indicato nel post, se l’aver o meno risposto correttamente non è interamente spiegabile in base alla conoscenza della materia, ma anche in base ad altre caratteristiche extra-scolastiche come il genere o la regione di provenienza. Che cosa ne facciamo di queste informazioni? Io, per esempio, mi chiederei le ragioni di questi risultati: perchè lo studente X è risultato 2 deviazioni standard sotto la media (o altra misura in logit, se proprio volete utilizzare i modelli di Rasch)? E’ poco preparato? Studia poco? Ha difficoltà di apprendimento? Possiamo aiutarlo in qualche modo? Oppure, perchè certi in certi item vanno meglio i maschi o le femmine, o quelli del Nord o quelli del Sud? In questo senso, il test svolgerebbe una delle sue funzioni fondamentali, ossia far emergere (non per caso una volta i test si chiamavano *reattivi*) alcune caratteristiche, e utilizzare le informazioni per occuparsi, in genere aiutandole, delle persone. L’uso che invece mi pare venga fatto di queste informazioni è inappropriato rispetto all’effettiva informazione fornita dal test, perchè questi punteggi vengono interpretati come misure dell’efficacia di un insegnante o di un istituto educativo o addirittura delle politiche educative (ci sono modelli statistici molto utilizzati nella ricerca educativa che permettono di valutare queste caratteristiche, tenendo però conto di molte altre variabili), come il fatto che l’alunno sia “bravo” o meno (qualunque cosa questo significhi), come qualcosa che serve per fare classifiche internazionali e, a seconda dei casi, gloriarsi delle prime posizioni o flagellarsi per essere arrivati nelle ultime – sempre che abbia senso farle, e anche per esperienza personale posso confermare di no. Queste interpretazioni sono sbagliate. Se poi ci mettiamo la cultura della colpa che domina il nostro Paese a livello morale, la frittata è fatta.
    Riguardo alle critiche del modello di Rasch, ho l’impressione che si tenda a guardare il fatto che il bicchiere sia 1/10 vuoto ignorando il fatto che sia 9/10 pieno. Come tutti i modelli statistici, ha i suoi limiti, ma non dimentichiamo che questo tipo di modello, come tutti quelli della categoria dei Modelli di Risposta all’Item, è stato un enorme passo avanti in campo psicometrico, proprio perchè permette di valutare il livello nella caratteristica psicologica (“abilità”) indipendentemente dalla “difficoltà” della domanda. In questo senso, se abbiamo una banca di item dei quali conosciamo la difficoltà (e la conosciamo perchè abbiamo condotto degli studi volti a stimare questo parametro), in linea di principio possiamo somministrare a 100 persone diverse un gruppo di item diversi, ed essere comunque in grado di stabilire per ognuna di queste persone il livello nella caratteristica che intendiamo misurare su una scala la cui unità di misura è sì arbitraria, ma uguale per tutti, da cui la confrontabilità dei punteggi (se somministriamo a tutti gli stessi item l’applicazione del modello di Rasch porta meno vantaggi, perchè comunque la graduatoria sarà identica a quella che otterremmo semplicemente contando il numero di risposte corrette – l’unico vantaggio sarebbe una maggiore raffinatezza nello stimare le differenze di abilità in termini di distanza psicologica). Inoltre, come accennato in precedenza permette di ottenere una misura più raffinata della differenza di caratteristica fra una persona e, in base alla conoscenza della difficoltà degli item, di scegliere gli item in base all’esigenza di essere, e.g., molto o poco selettivi. Il problema principale che vedo nell’utilizzo dei modelli di Rasch è nell’utilizzarlo senza la necessaria competenza psicometrica. Un pericolo, infatti, è quello di farsi guidare dal modello per scegliere gli item che si conformano ad esso, perdendo di vista la loro rappresentatività e rilevanza rispetto alla caratteristica che si vuole misurare. Nel caso precedente della misura dell’abilità matematica, supponiamo di aver individuato 15 aree da valutare, e di aver formulato per ognuna 4 item, per un totale di 60. Analizzando i dati con Rasch (ma capita anche con l’approccio della Teoria Classica dei Test) potremmo individuare item che non soddisfano alcune assunzioni, come quella dell’unidimensionalità (gli item, tutti insieme, devono misurare una cosa sola). Il processo di raffinamento dello strumento prevede di verificare il modello dopo aver eliminato uno degli item problematici, e di ripetere la procedura finchè le assunzioni non siano soddisfatte. In questo modo otterremo sicuramente un insieme di item adeguato in base alle richieste del modello, ma non è detto che gli item siano ancora rappresentativi dell’universo di possibili item derivanti dalle 15 aree. Potremmo ad esempio scoprire che il nostro test, che ora contiene, e.g., 40 domande, non contiene più le domande di 5 aree, perchè per qualche motivo tutti gli item di queste aree sono stati scartati. Quell’insieme di 60 item che inizialmente era rappresentativo dell’universo di comportamenti osservabili che indicavano la presenza della caratteristica da misurare adesso, molto, probabilmente è rappresentativo di qualcos’altro. Il concetto è identico a quello di perdita di rappresentatività di un campione di intervistati nel caso le rinunce non avvengano a caso, ma in base ad una causa sistematica. Perchè abbiamo “perso” proprio quelle 20 domande dovrebbe essere oggetto di indagine: potrebbero riguardare argomenti eterogenei col resto degli altri, potrebbero essere state formulate male, etc. Il fatto che la statistica sia cieca alla teoria è qualcosa che ogni tanto viene perso di vista, perchè purtroppo si deve pubblicare, e per pubblicare sappiamo benissimo che i risultati che presentiamo debbano essere perfetti come le mele del supermercato, e pazienza se poi sanno di poco. Il modello di Rasch, inoltre, non permette di verificare la validità del test, intesa come capacità del test di misurare quello che si propone di misurare. Il modello ci dice se gli item, tutti insieme, misurano una cosa sola, e ci permette di stimare la precisione della misura ottenuta. Ma per sapere se misura davvero l’abilità matematica abbiamo bisogno di correlare il punteggio ottenuto o con il punteggio di un altro test che sappiamo già che misura la stessa caratteristica, o con un criterio di riferimento esterno, che non necessariamente saranno i voti di matematica ottenuti a scuola, dato che l’insegnante di matematica potrebbe avere una definizione diversa da quella di INVALSI di abilità matematica, e quindi fare riferimento ad un universo di indicatori diverso. Lavorando si può trovare una soluzione, ma, come capita spesso nelle scienze sociali, può non essere così facile da individuare.

  9. Grazie, Carlo Chiorri, della spiegazione, stavo giusto parlando male della picometria un commento più sopra 🙂
    Per me, visto che in teoria dovrei rendere conto di ogni cifra decimale significativa, parlare di “precisione” di questi test, in cui già l’indefinibilità della stessa variabile da descrivere gioca un ruolo non secondario, è quasi come chiedere al cammello di passare per la cruna ecc…
    Spero mi salvi l’interesse profondo per le variabili non misurabili in senso scientifico e per la loro imprevedibilità. Tanto che, ad esempio, faccio sempre i test psicologici per scoprire cose di me che non sapevo: se poi non mi piacciono tendo a scartarle perché sicuramente poco probabili.
    Condivido certe cose scritte. Ma alcune mi lasciano perplessa. Ieri sera, quando ho chiesto a mia madre, insegnante a scuola per una vita intera e ormai in pensione, cosa pensasse degli INVALSI, ha tirato fuori un crocifisso. Mi ha detto: “Pensa solo che ogni insegnante ha la facoltà di elaborare un proprio programma, come contenuti e metodi, e invece il test è standardizzato per tutte le classi, le scuole e le regioni.”. Questo vuol dire che la moneta di Rasch non sarebbe truccata solo per l’abilità ma avrebbe possibilità di trucco indipendenti o parzialmente correlate, la cui probabilità non è affatto bassa o controllabile su grande scala. Se poi certi item fossero eliminati, come giustamente detto, ci sarebbero dei bias che renderebbero i risultati di uno stesso test somministrato a classi con competenze diverse, non confrontabili.
    Riguardo la valutazione e quanto detto sopra riguardo l’uso delle rispote aperte e cioè:
    “Il problema, però, risiede nella valutazione di queste risposte, dato che non possono essere automatizzate: occorre quindi un valutatore umano che può non essere coerente nelle sue valutazioni nel corso del tempo, può non essere d’accordo con un altro valutatore nel valutare le stesse cose, può avere le sue idiosincrasie, etc.”, sempre mia madre ha detto che: “Già una maestra ha le sue difficoltà nella valutazione di un alunno pur avendo imparato a conoscerlo, giorno per giorno, dall’inizio, figurati cosa può valutare un test nozionistico”, che, appunto ignora, come detto sempre sopra, “le capacità dello studente di illustrare gli argomenti in modo chiaro e con la terminologia adeguata, di seguire i suoi processi di pensiero nella soluzione, di valutare come connette i concetti, etc.”.
    Poi, giustamente, le risposte aperte non sono utilizzabili su grande scala, ma per non fare questo si ricorre a indicatori che possono essere monete truccate male, un po’ come succede quando si vogliono usare indicatori standardizzati nelle valutazioni nazionali per universitari, con la pretesa di sostituirsi anche in maniera sostanziale a valutazioni articolate di commissioni competenti.
    Sempre mia madre dice che una volta gli insegnanti erano sottoposti a valutazioni periodiche e che il successo di queste valutazioni risiedeva nella competenza evidente e sostanziale di valutatori esterni preparati. Che poi, dice, in molti casi si è persa.
    Posto che si riducano le fonti importanti di incertezza e di errore di questi strumenti, credo che non possano veramente, appunto, mai sostituirsi a competenze ed etica come base più appropriata nella valutazione a supporto delle decisioni.

  10. Molto banalmente: il mio bambino ha fatto un test invalsi di 5 elementare (matematica) sbagliando metà domande. Dopo i dovuti rimproveri, a casa, ha risolto da solo tutta la parte sbagliata. Cosa ha dunque misurato il test? La sua capacità di rispondere velocemente in classe in un tempo determinato, ma non la sua capacità assoluta di comprensione e risoluzione. All’università, quando gli esami si preparano con calma, si può presumere che molti degli studenti esclusi avrebbero esiti analoghi a molti di quelli che sono entrati. Il test, quindi, non serve affatto a valutare la capacità reale dello studente, è solo una scrematura rozza e brutale, come usare un’accetta per cogliere i fiori.

    • Osservazione del tutto pertinente – niente chiacchiera da bar –, visto che il modello di Rasch non funziona nel caso di risposte tutte esatte, e quindi mira a stimare la velocità di risposta. Anche questo è stato detto e ripetuto, ma siamo immersi in una selva di orecchie da mercante.

  11. Mi colpisce assai l’osservazione della madre di Lilla che mi pare esprima un buon senso, una ragionevolezza che si sta perdendo dietro il formalismo (para)scientifico. Ogni insegnante ha la facoltà di elaborare un proprio programma (e, ovviamente, di valutare in corrispondenza di questo) e ciò non è un male, anzi, è il bene dell’istruzione… Ma ormai pare che questo sia il male. Dice Carlo Chiorri che l’insegnante potrebbe avere una definizione diversa da quella dell’Invalsi di abilità matematica e quindi fare riferimento a un universo di indicatori diverso. Potrebbe? Certamente l’avrà, visto che non viviamo ancora in un mondo di cloni… E allora ? Perché mai questo dovrebbe essere un problema e non una ricchezza? E, aggiungo, una ricchezza infinita, perché spero nessuno pensi che sia possibile stendere una lista finita delle idee di abilità possibili a questo mondo… “lavorando si potrebbe trovare una soluzione”. Ma quale e perché? Trovare un raccordo tra tutte le possibili definizioni di abilità che permetta di correlarle e individuare una sorta di media ponderata? Ma, di nuovo, chi è colui che potrebbe presumere di individuare la lista di tutte le possibili definizioni di abilità? Oppure, individuare e imporre quella “giusta”, quella corrispondente a un concetto standardizzato di oggettività? Ma perché mai? Che cos’è questa pulsione di annullare la diversità culturale – che è quanto dire distruggere la cultura? In che razza di mondo stiamo precipitando? Se questo è il compito delle scienze sociali, tanto varrebbe cancellarle come qualcosa che, al contempo, non corrisponde ad alcun criterio sensato di scientificità, e introduce una visione totalitaria. (Sono sempre più convinto che in questo campo ci voglia un “azzeramento”, uscire dalla scolastica e ritrovare un pensiero libero, una “epoché” cartesiana, nel senso di Husserl: si lo so, era un “filosofo”, ma temo che ne capisse di matematica e di scienza molto di più di tanti nostri contemporanei).

    • Grazie, Giorgio, per l’apprezzamento. Ma mia madre può essere “anedottica” nel senso che, oltre a saper fare la pasta in casa a mano da più di cinquant’anni, era una delle poche che ha conseguito la laurea (c’era il Magistero) prima di insegnare, nel concorso per entrare in ruolo è risultata prima su 13.000 (prova scritta e orale di pedagogia, più letteratura: dice che all’epoca l’insegnante era unica ma non si testavano le conoscenze matematiche), e poi, per mettere a punto la sua didattica, ha comprato guide diverse confrontandole, parlato con colleghi, seguito di continuo corsi di aggiornamento, testato i metodi mettendone a punto di personali, sulla base dei risultati che otteneva in classe. Dove, però, con risultati non si parla neanche di verifiche (figuriamoci test) ma di risposte ottenute singolarmente da ogni bambino, seguito nella sua specificità, ogni giorno e dopo ogni spiegazione. Ha fatto anche psicologia, ma poi nella pratica e quindi con l’esperienza sul campo, imparava a conoscere i bambini e a riconoscerne le diverse emotività, capacità di memoria (c’è chi memoria uditiva, chi visiva, ecc…), ecc…
      Quindi, fra l’altro, l’esempio di indrani non è aneddotico, perché l’emotività, considerata anche come risposta alla pressione in classe, è un fattore di importanza non trascurabile, che nel momento in cui è richiesto di fare un ragionamento logico e un calcolo, è in grado di compromettere la correttezza della risposta.
      Ecco, oggi non è più come una volta, ma quello che sottolinea l’esperienza di mia madre e che lei stessa ha voluto evidenziare col suo racconto, è che il fattore chiave per il miglioramento della didattica e dell’apprendimento è la formazione degli insegnanti. Adesso la laurea è diventata obbligatoria, e lei non ne conosce i contenuti odierni (neppure io), ma la ritiene un percorso di formazione superiore necessario e, se svolto bene, importante non tanto per imparare un metodo standardizzato (magari quello che corridponde al test INVALSI!) ma per costruirsene uno proprio, che sia efficace e che sia esso stesso rispettoso delle diversità in aula.
      La cultura rende liberi, ma a quanto pare si va verso un’incultura o al massimo una pseudo-cultura imposta.

  12. Due considerazioni.
    (1) Se cominciamo con gli aneddoti, non stiamo più parlando di scienza, ma facciamo ragionamenti da bar, per cui la discussione non mi interessa più.
    (2) Proponete per cortesia soluzioni alternative fattibili, perchè dai vostri commenti sembra che non ci sia altra soluzione che evitare la valutazione, che invece è necessaria per evidenziare e quindi intervenire precocemente su eventuali problemi, in modo non dissimile dai test di screening per i tumori.

    • Beh, gentile Chiorri, questo è un blog e le opinioni -così come gli aneddoti- vanno messi in conto. Se non le interessano può rivolgere la sua attenzione altrove. Ed a proposito di bar io classificherei sicuramente come opinione da bar l’idea che la “Valutazione” non sia “dissimmile dai test di screening sui tumori”. Ma anche la mia classificazione è da bar.
      Quanto all’argomento “proponete per cortesia soluzioni alternative fattibili”: non siamo un blog di tuttologi. I nostri lettori per ora sul tema hanno ben chiari i limiti. Forse tra un po’ qualcuno proporrà soluzioni alternative fattibili. Che forse compariranno nella rubrica apposita. Non è che fino ad allora dobbiamo restare in silenzio.

    • Se i test standardizzati venissero usati come screening, si tratterebbe di individuare situazioni di performance che risultano sotto la media in modo anomalo e non si darebbe così tanta enfasi alle classifiche. Nella letteratura si parla di “PISA shock” per indicare le reazioni che si producono nell’opinione pubblica di un paese quando i test mostrano un calo inaspettato oppure una posizione inferiore alle aspettative. Questi “shock” hanno un ruolo importante nello spianare il terreno a riforme dell’istruzione il cui impianto ed i cui effetti sarebbero altrimenti sottoposti ad una revisione più attenta. Invece, sull’onda dell’emergenza diventa più facile intervenire con le ricette che dovrebbero “sanare” il guasto. Tutti questi effetti si fondano sulla convinzione che le classifiche godano di una scientificità tale da rendere “oggettive” le diagnosi che ne vengono tratte.
      Nella comunità scientifica internazionale si stanno però evidenziando una serie di aspetti tecnici che renderebbero queste classifiche molto meno affidabili di quanto non venga ufficialmente riconosciuto (qualsiasi cosa esse possano misurare). Se i risultati fossero davvero usati a scopo di screening, le conseguenze non sarebbero cosí allarmanti, ma sappiamo che non è così.
      Per l’OCSE la necessità (ideologica?) di produrre classifiche diventa anche un impedimento all’uso di tecniche più raffinate, ma che non si presterebbero all costruzione di rankings (mentre invece potrebbero avere un’utilità per lo screening):
      ______________________
      In PISA, a probabilistic psychological model is used to calibrate item difficulties and to estimate student competences. This model, named after Georg Rasch, is the most elementary incarnation of item response theory. It assumes that the probability of a correct response depends only on the difference of the student’s competence value and the item’s difficulty value. Mislevy [13] calls this attempt to “explain problem-solving ability in terms of a single, continuous variable” a “caricature”, based in 19th century psychology. The model does not even admit the possibility that some items are easier in one subpopulation than in another. The reason for its usage in PISA is neither theoretic nor empiric, but pragmatic: Only one-dimensional models yield unambiguous rankings.
      ___________________
      Uncertainties and Bias in PISA Joachim Wuttke
      Download locations:
      http://www.messen-und-deuten.de/pisa, http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1159042.
      Appeared in:
      PISA zufolge PISA – PISA According to PISA.

  13. Mah, penso che la scienza si fa partendo dalle osservazioni empiriche e quindi anche dai fatti particolari che non possono essere considerati come un “fastidio” per l’alta teoria. Peraltro, se debbo essere sincero, mi pare che scoprire che esistono visioni diverse dell’idea di abilità – che non necessariamente sono schematizzabili come diversi insiemi di indicatori – e affermare che questo sia un “problema” è, da un lato, di un’ovvietà sorprendente, dall’altro contiene una pretesa assolutamente gratuita. Chiacchiere da bar? Non sarei così duro, ma certe volte i topolini partoriti dalle scienze sociali formalizzate evocano la vanità delle logomachie. (È perfettamente lecito pensare al tema della valutazione in modo non formalizzato, e questo non significa evitare la valutazione: ma ormai è vano ripeterlo).

  14. @Israel: vediamo se ho compreso la sua affermazione “la scienza si fa partendo dalle osservazioni empiriche e quindi anche dai fatti particolari che non possono essere considerati come un ‘fastidio’ per l’alta teoria”. Una cugina di mia zia ha avuto seri problemi al fegato dopo aver assunto paracetamolo durante un’influenza. Il nonno di un mio amico era un fumatore incallito morto a 94 anni per essere stato investito da un’auto mentre andava in bicicletta e l’ultimo dottore l’aveva visto alla visita di leva. L’altra mattina a Follonica c’erano 9 gradi. Da tutte queste osservazioni empiriche possiamo quindi dedurre che il paracetamolo non dovrebbe essere assunto, che possiamo tranquillamente continuare a fumare, e che il riscaldamento globale serra è una favola inventata dagli scienziati? Perchè la mia opinione sarebbe proprio questa.
    Riguardo alle diverse possibili definizioni di abilità, o apprendimento, o competenza, onestamente non vedo così complicato cercare di arrivare ad una definizione su cui siamo tutti d’accordo sul corpus di conoscenze e competenze che i nostri bambini dovrebbero acquisire con l’istruzione, e predisporre delle prove (non necessariamente test, se troviamo soluzioni adeguate) che ci permettano di valutare se l’obiettivo formativo è stato raggiunto. Altrimenti, ripeto, continueremo a valutare l’efficacia di un programma solo dalla percentuale di promossi.

    @Baccini: prendiamo il caso del figlio di Indrani Maitravaruni. Innanzitutto, perchè i rimproveri? E da parte di chi? E qui non posso che concordare con l’osservazione di De Nicolao. Come psicometrista e ricercatore nelle scienze sociali sono perfettamente consapevole dell’uso improprio dei dati delle indagini educative (cosa che ho cercato di esprimere anche nel mio primo intervento; peraltro sono stato anche firmatario di questa lettera all’allora ministro Carrozza http://tinyurl.com/pjwecbp, che avete pubblicato anche su questo sito), ma dall’altra parte non posso ignorarne i vantaggi. Nel caso di cui stiamo parlando, una successiva verifica ha fatto emergere che il bambino era in grado di risolvere i quesiti. Bene! Ma poniamo che non fosse riuscito comunque a risolverli: quantomeno il test sarebbe servito ad evidenziare delle problematiche che sarebbe stato il caso di affrontare, a tutto vantaggio del bambino. Forse non siamo d’accordo sulla definizione di screening, ma per me non è molto diverso da quando una persona a me cara ha scoperto da un controllo mammografico che c’era qualcosa che non andava e ha potuto porvi rimedio precocemente (e con successo). In ogni caso, qualunque prova di screening non può essere esente da errori, e produrrà comunque falsi positivi e falsi negativi – del resto, le relazioni fra variabili in questo campo sono probabilistiche, e non esatte.
    Vorrei inoltre che non confondessimo il piano idiografico da quello nomotetico. Come padre sarei poco interessato al fatto che i test INVALSI funzionano nella popolazione se poi danno una valutazione errata di mio figlio – e in ogni caso vorrei che se mio figlio manifestasse qualche difficoltà fosse aiutato. Un governo che deve stilare programmi educativi, però, non può inizialmente tenere conto di tutti i casi particolari, ma, credo inevitabilmente, dovrà basarsi su cosa viene osservato a livello generale – salvo poi prevedere programmi di intervento anche per i casi particolari. Sul fatto che questo tipo di indagine potrebbe essere fatta meglio, mi par di capire che siamo tutti d’accordo.

    • Le numerose osservazioni accumulate, assieme alla conoscenza dei processi biochimici, permettono di dire che il paracetamolo ad alte dosi è pericoloso per il fegato, tanto che si indicano delle dosi limite da non superare, fermo restando che esistono differenze soggettive alla risposta. L’insieme dei fatti osservati, inquadrati in un’analisi teorica portano a conclusioni di qualche fondamento. Viceversa, chi deduca dalla vicenda della sua parente che il paracetamolo non deve essere assunto mai più che essere una persona che non ha idea di cosa sia un metodo scientifico, è un perfetto idiota. Gli altri due esempi sono caratteristici di un modo di ragionare ancora più da idiota. A cosa mira con questi esempi demenziali, tipici esempi di chiacchiere da bar? Francamente ho di meglio da fare che discutere a questi livelli.

  15. Quello che preoccupa è che il metodo INVALSI si propaga anche all’Università con il TECO dell’ANVUR Test sulle competenze effettive di carattere generalista dei laureandi italiani.Al solito senza una discussione tra esperti e non-esperti in un tavolo tecnico ufficiale dove si possono confrontare opinioni e metodi e decidere un optimum o rifiutare l’optimum se del caso, anche se sul sito TECO si scrive di “due gruppi di espert”. A mio giudizio l’ANVUR procede con un che di napoleonico “Dio me l’ha data (la valutazione) e guai a chi me la tocca”.

    Riprendo dal sito ANVUR-TECO:
    RAGIONI
    Sussistono sia ragioni formali che sostanziali. Fra le prime rivestono un ruolo particolarmente importante le norme, le prassi e gli accordi a livello della UE , come illustrato in FKPS. Motivi sostanziali sono quelli espressi dai vari stakeholders interessati al miglioramento dei learning outcomes dei nostri Atenei: le imprese che sempre più chiedono alle Università di verificare e promuovere anche le competenze di natura generalista (problem solving, critical thinking, ability to communicate), oltre che quelle specialistiche; le famiglie che sempre più comprendono che l’occupabilità nel tempo dei figli è legata a tali competenze, date la rapidità del progresso tecnico, la necessaria mobilità cui essi saranno assoggettati in termini di settori e luoghi di impiego, le prove di adattabilità nella lingua e cultura cui dovranno sottoporsi nel mondo della globalizzazione; i docenti che riconoscono che queste competenze non costituiscono oggetto precipuo del loro insegnamento e suppongono che se il test PISA sui quindicenni individua carenze di tal genere sui ragazzi italiani, è ipotizzabile che esse non siano del tutto colmate quando i giovani raggiungono i 21-22 anni; la PA che sa di dover dare il massimo rendimento alle risorse pubbliche estratte dal contribuente e allocate alle Università in ragione della loro qualità accertata didattica e scientifica, e riconosce che la produttività del lavoro, da tanti anni in declino o stagnante nel nostro Paese, è molto legata alle competenze di carattere trasversale.
    CRITERI
    Due gruppi di esperti dell’ANVUR hanno ritenuto che il migliore test esistente al mondo per valutare le competenze generaliste sia il CLA plus, il quale combina domande a risposta aperta con altre a risposta chiusa multiple choice. Il test è unico per tutti i laureandi, qualunque sia il loro corso di studio, ed è stato già testato a livello internazionale. Il produttore è il CAE di New York (http://www.cae.org/)…

    Si riprende il test PISA e si parla di test CAE plus.
    Che ne pensate? Ovviamente di TECO, CAE plus, di PISA già si è parlato.

  16. Dal mio punto di vista valgono le stesse osservazioni fatte per PISA o INVALSI. Concordo sull’idea generale che ci debba essere una qualche forma di valutazione anche a livello universitario, ma occorre riflettere attentamente sugli strumenti che si utilizzano e sull’uso che viene fatto dei risultati. Qui http://tinyurl.com/nnnjsnv potete trovare un’interessante analisi dello strumento… negli Stati Uniti. Riguardo alla sua applicazione in Italia, vorrei prima poter valutare come è stato condotto l’adattamento italiano dello strumento, quali sono le sue proprietà psicometriche, e soprattutto se gli item presentano qualche forma di differential item functioning, ossia di bias a favore di gruppi particolari (es. maschi o femmine, studenti provenienti da background socioeconomici svantaggiati vs avvantaggiati, etc.). Non è detto, infatti, che così com’è lo strumento si adatti al contesto italiano (lo stesso problema di PISA: non è solo un problema di contenuti, ma anche di modalità di somministrazione e di risposta), nè è automatico che con la traduzione degli item si mantengano anche le proprietà della versione originale (per una discussione del problema si veda qui: http://tinyurl.com/mdea5uc). Il fatto che vi sia dietro un’azienda che ci guadagna di solito è un ostacolo alla valutazione a priori dello strumento, perchè gli item e le procedure di scoring diventano disponibili solo a pagamento. Infine, prima di applicarlo, vorrei che si riflettesse bene su un punto: è proprio quello che misura il test quello che vogliamo sapere dei nostri studenti?

    • “Qui http://tinyurl.com/nnnjsnv potete trovare un’interessante analisi dello strumento… negli Stati Uniti”
      ________________________________
      Sfogliando l’articolo scientifico, si nota che esiste un conflitto di interessi degli autori, dato che come risulta dalle note biografiche tre su quattro sembrano legati allo sviluppo e/o distribuzione del test CLA (da quanto capisco l’azienda “Research Solutions Group” si muove in questo ambito):
      ________________________________
      1. Stephen P. Klein is Director of Research and Development for the Collegiate Learning Assessment.
      2. Roger Benjamin is president of the Council for Aid to Education. His publications include The Environment of Higher Education and Recreating the Faculty Role in Governance, and Assessment Versus Accountability in Higher Education. He co-directs the Collegiate Learning Assessment initiative.
      3. Roger Bolus is founder and senior partner of Research Solutions Group.
      ==========================================
      Poco più di un anno fa avevamo pubblicato su Roars due articoli che sollevavano alcune critiche sostanziali nei confronti del CLA:
      ________________________________
      Un’altra CLAva sta per abbattersi sull’Università
      https://www.roars.it/online/unaltra-clava-sta-per-abbattersi-sulluniversita/
      ________________________________
      AVA: un grave difetto del test “Collegiate Learning Assessment” [CLA]
      https://www.roars.it/online/ava-un-grave-difetto-del-test-collegiate-learning-assessment-cla/

  17. Spero di non essere ripetitiva rispetto ad altri eventuali commenti che potranno essermi sfuggiti.

    http://www.invalsi.it/areaprove/rapporti/Rapporto_SNV_PN_2014_10.pdf

    Prove INVALSI 2014 (italiano e matematica), Relazione del 10 luglio 2014, dalla cui prima parte (Introduzione e II elementare, italiano), ho piluccato quanto segue:

    (Destinatari) ” II e V classi della scuola primaria e II classe della scuola secondaria di secondo grado, III classe della scuola secondaria di primo grado.”

    “I dati contenuti nel presente rapporto danno ragione di un quadro ricco e variegato in cui si confermano marcate differenze territoriali che tendono ad acuirsi al crescere dei livelli scolastici.”

    “Minori differenze territoriali per la scuola primaria, mentre esse diventano sempre più visibili nel passaggio alla scuola secondaria di primo grado e ancora maggiormente in quella di secondo grado.”

    “L’INVALSI ha inoltre l’intenzione di aprire una stagione di ampia e approfondita consultazione con il mondo della scuola per rafforzare il ruolo di servizio per le scuole e non di soggetto chiamato esclusivamente a svolgere un compito di misurazione sulle scuole.”

    “Più che dei pregiudizi, ciò di cui l’attività dell’INVALSI cronicamente soffre è in realtà la perdurante incertezza sulle proprie dotazioni di personale e sulla disponibilità di fondi ordinari.”

    “Al fine di prevenire comportamenti scorretti da parte degli studenti o degli insegnanti (cheating)”

    Notare la finezza dell’anglismo, qua in rapporto sinonimico con “comportamento scorretto”, che significa, tanto per essere espliciti: cheat (not play fair) barare, imbrogliare; cheat (person who cheats) imbroglione, baro (BARO?!), truffatore
     
    “I risultati delle classi campione … non rivelano in genere la presenza di distorsioni dovute a fenomeni di cheating … Il cheating in questo livello scolare risulta per altro circoscritto ad alcune regioni (Campania, Calabria, Sicilia e Molise).”

    “Mediante le analisi effettuate sui dati del pre-test, le domande sono analizzate lungo diverse dimensioni: la loro capacità di valutare la competenza obiettivo della domanda (questionintent), la coerenza con il quadro di riferimento, la capacità misuratoria secondo la metodologia di Rasch e l’Item analysis classica.”

    Prova di italiano: http://www.invalsi.it/areaprove/documenti/strumenti/02_italiano_Fasc_01_STAMPA.pdf

    “Il tempo per leggere le 40 parole e scegliere la figura corrispondente è stato previsto in due minuti, tempo necessario a un bambino di seconda primaria in grado di leggere scorrevolmente per svolgere senza errori la prova.” Chi l’ha stabilito?

    Il testo delle istruzioni è molto più difficile, da tutti i punti di vista, del test stesso. Mi piacerebbe vedere un filmato di come si è svolto il test in qualche classe.

  18. Sì, anch’io mi sono letto due rapporti INVALSI, per capire come esce il Lazio nella scuola superiore, visto la deludente prestazioni delle matricole a Viterbo al test di ingresso.
    Il Lazio ne esce male, ma quello che mi ha colpito è la difficoltà di capire immediatamente dalle tabelle INVALSI per Italiano e Matematica i risultati per regione: la semplicità è di Dio, le complicazioni del diavolo: le complicazioni statistiche del rapporto INVALSI sono diaboliche e scoraggiano la lettura ed una meditazione in proposito. Tra l’altro non sono forniti i risultati per scuola, che tuttavia alcuni riescono ad acquisire: mi risulta che alcune Università private fanno orientamento solo sullle scuole in vetta per i risultati INVALSI. Ma dove prendono questi dati?

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.