I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive e spiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra angolare dei test INVALSI. Meno di un anno fa, un analogo problema di solidità scientifica, riferito però ai test OCSE-PISA, era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici di David Spiegelhalter, il quale, oltre ad essere professore a Cambridge, è uno dei più rinomati statistici a livello mondiale. Lo scorso maggio è stata indirizzata all’OCSE una richiesta di moratoria sottoscritta da un’ottantina di accademici che denunciavano gli effetti distorsivi dei test PISA nei confronti delle politiche nazionali sull’istruzione In risposta a questa lettera aperta, un altro gruppo di studiosi ha scritto una lettera di sostegno all’OCSE in cui viene ripresa una metafora già usata anche per i test INVALSI: i test standardizzati sarebbero come un termometro a cui non è saggio rinunciare. Tuttavia, alla luce della letteratura scientifica internazionale ed anche del presente articolo, ci sono ragioni per nutrire dubbi sul corretto funzionamento del “termometro di Rasch”. Ed anche sulla facilità di aggiustarlo.
Nota introduttiva
Per la quasi totalità dell’opinione pubblica, ma anche degli insegnanti e degli accademici, l’elaborazione dei risultati dei test standardizzati è una “scatola nera” il cui corretto funzionamento viene assunto sulla fiducia. Chi d’altronde avrebbe le competenze per entrare nel merito dei marchingegni statistici utilizzati? Anche chi ne contesta l’uso a causa delle distorsioni che provoca nelle politiche educative raramente ne mette in dubbio la correttezza.
La metafora del termometro usata dai sostenitori dei test è chiara: per un medico la misura della temperatura fornisce un’informazione rudimentale sulla salute del paziente, ma è una misura tutto sommato affidabile:
Hospitals use a thermometer, which allows doctors to get useful, albeit partial and imperfect, information based on a standardized measure that is comparable over time and across patients.
Una metafora che però si rivela a doppio taglio: cosa succederebbe se i medici fossero talmente focalizzati sulle misure di temperatura da curare qualsiasi forma di malattia ricorrendo agli antipiretici? La metafora del termometro dà ancor più da pensare quando si prende atto di alcuni recenti sviluppi del dibattito internazionale sui test standardizzati. Alla luce della letteratura scientifica, infatti, è tutt’altro che certo questi “termometri” siano capaci di fornire “a standardized measure that is comparable over time and across patients”.
Ma dove sta il problema? Niente sembra più facile che elaborare i risultati di un test standardizzato. Dopo tutto, basta contare il numero delle risposte esatte e di quelle sbagliate. O no?
No, non è così facile. Prima di tutto, bisogna considerare che non tutti i quesiti hanno la stessa difficoltà. Poca cosa si dirà: basta assegnare un punteggio via via più alto alle domande più difficili. Ma come si fa a stabilire se e quanto una domanda è più facile di un’altra? Beh, basta verificare quanti esaminati riescono a dare la risposta giusta.
Un attimo, così non funziona, perché non tutti gli esaminati hanno la stessa “abilità” (qualsiasi cosa possa voler dire) e la distribuzione dei diversi gradi di abilità cambia da un campione di esaminati all’altro. Potrei tentare di misurare l’abilità degli esaminati confrontando i punti che ottengono nel test, ma così tornerei al punto di partenza, proprio come un cane che si morde la coda.
Estrarre delle informazioni dai test standardizzati non è così semplice come leggere la temperatura sulla scala graduata di un termometro.
Per calibrare questo particolare “termometro” bisogna contemporaneamente ricostruire il grado di difficoltà delle domande e l’abilità degli esaminati. Bisogna passare attraverso la risoluzione di un particolare problema matematico-statistico. Come facciamo a sapere se questo problema ammette soluzione e se questa soluzione ha senso? Dipende dalle ipotesi che facciamo e, dopo che le abbiamo fatte, dall’avere dei dati che non le contraddicano.
Ora, i termometri dei test PISA e dei test INVALSI si servono dello stesso principio di misurazione della “temperatura”, ovvero del cosiddetto “modello di Rasch”, che specifica appunto le ipotesi matematico-statistiche utilizzate nella procedura di calibrazione.
Riguardo alle ipotesi del Modello di Rasch, due sono i problemi da affrontare:
- non sembrano essere le uniche possibil;
- non c’è garanzia che siano soddisfatte dai dati.
Venendo al primo punto, le ipotesi appaiono tutt’altro che di validità universale, tanto è vero che nella fase di caibrazione vengono scartate sia le domande sia gli esaminati che non sono conformi al modello. Insomma, appare difficile parlare di “oggettività” dei risultati. Piuttosto, facendo ricorso ad un ossimoro, verrebbe da dire con Rogora che l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI. Come spiegato più sotto, una conseguenza dell’adozione di un modello soggetto a ipotesi così restrittive è la sostanziale immodificabilità del syllabus, almeno fino a quando si vuole preservare la consistenza e le comparabilità con le precedenti rilevazioni.
Riguardo al secondo punto, in che misura le ipotesi del Modello di Rasch trovano conferma nei dati? Nel caso dei test OCSE-PISA, David Spiegelhalter, in un suo post apparso sul blog della Royal Statistical Society, ha sottolineato che il modello di Rasch è «demonstrably inadequate» e «over-simplified», confermando quanto sostenuto da Svend Kreiner in un suo articolo scientifico apparso sulla rivista Psychometrika[a]. Lo stesso Ray Adams, capo dell’OECD analysis team, non ha potuto negare che, si se effettua un test statistico di ipotesi sui dati PISA analizzati da Kreiner, il modello di Rasch risulta respinto (Comments on Kreiner 2011).
In un articolo apparso sul blog della Royal Statistical Society, lo statistico di fama mondiale David Spiegelhalter, spiega le ragioni della sua perplessità nei confronti della metodologia statistica su cui poggiano i test OCSE-PISA. In particolare, Spiegelhalter concorda con le riserve sollevate da S. Kreiner, secondo il quale per i dati PISA «le prove contro il modello di Rasch sono schiaccianti» (The evidence against the Rasch model is overwhelming).
E i test INVALSI? Gnaldi et al, hanno sottoposto a verifica le ipotesi di applicabilità del modello di Rasch sui test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., Joint Assessment of the Differential Item Functioning and Latent Trait Dimensionality of Students’ National Tests, submitted). Se si dà fede alla loro analisi, le ipotesi di applicabilità del modello di Rasch risultano respinte. In particolare, l’analisi mostrerebbe una
dependance of students’ scores on attributes other than those the scale is intended to measure, that is students’ gender and geographical area.
Il test di italiano soffre inoltre di un altro problema, in quanto
a single score cannot be sensibly used to describe students’ attainment on the Italian Test (especially on the Grammar section), as the difference among students’ does not depend univocally on a single ability level.
Ma che pignoli questi statistici, penserà qualcuno. Si è scomodato persino il Financial Times per ricordare a Spiegelhalter che «i confronti accademici sono sempre imperfetti, ma questo non significa che non li si possa mai fare». In effetti, sarebbe inutile turbarsi per sbavature scientifiche che modificano solo marginalmente gli esiti finali.
Kreiner ha provato a fare dei calcoli per quantificare gli effetti di queste “sbavature”: la posizione del Regno Unito nel “Reading Test” 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quella del Canada tra 2 e 25 e quella del Giappone tra 8 e 40. Se si trattasse di un termometro, ci sarebbe il rischio di confondere una febbre da cavallo con un congelamento. “The best we can say about Pisa rankings is that they are useless” conclude Kreiner.
Spiegelhalter ha anche confrontato gli esiti di due diverse edizioni dei test PISA di matematica ed ha osservato una “stranezza”: la maggior parte delle nazioni che nel 2003 avevano ottenuto risultati sopra le media sono poi peggiorate nel 2013. Spiegelhalter osserva che è esattamente il comportamento che ci si aspetta di vedere quando una classifica è in gran parte influenzata dal caso:
This is exactly the pattern expected when much of the influence on the ranking is due to random variation, and is known as ‘regression-to-the-mean’, which reinforces my feeling that the precision of the estimates is not as great as claimed. When this pattern is observed, one should be very cautious about ascribing reasons for changes.
È un po’ come lanciare un dado due volte. Se il primo lancio ha dato “5″, con il secondo lancio è più probabile scendere che salire. Ecco perchè, secondo Spiegelhalter, “learning lessons from PISA is as hard as predicting who will win a football match“.
Ma è giunto il momento di chiudere questa nota introduttiva e di cedere la parola ad Enrico Rogora che nel seguito ci illustra funzionamento e limiti del modello di Rasch applicato ai test INVALSI.
Giuseppe De Nicolao (Redattore Roars)
[a] S. Kreiner mostra che, relativamente ai test PISA 2006 di “Reading skills”, la validità del modello viene respinta (“rejected”) per tutte le nazioni tranne il Lichtenstein; inoltre, nella quasi totalità dei casi i p–values sono inferiori a 10^-4, vedi Table A.1 in (S.Kreiner, Psycometrika 2013).
Il modello di Rasch
Enrico Rogora
Introduzione
Ormai numerosi, anche in Italia, sono gli ambiti in cui si utilizzano test basati su domande a risposta multipla a fini valutativi. L’Istituto Nazionale per la Valutazione del sistema Educativo di Istruzione e di Educazione, INVALSI, prepara test che utilizzano sia domande a risposta multipla sia domande a risposta aperta, con griglia di correzione predeterminata. Questi test sono al centro da anni di innumerevoli discussioni e polemiche[1].
Scopo di queste riflessioni è quello di contribuire alla comprensione di un aspetto particolare, ma a mio avviso rilevante, di questa discussione: il modello statistico utilizzato dall’INVALSI per l’analisi dei risultati, cioè il cosiddetto modello di Rasch.
Credo che una discussione organica sui test debba essere fatta sul piano più elevato dei rapporti tra strumenti valutativi e processi di insegnamento/apprendimento, ma credo anche che sia utile avviare una discussione su alcuni aspetti tecnici, talvolta utilizzati come dogmi assoluti, dietro cui trincerarsi per evitare il confronto. Inoltre, la scelta del modello di Rasch come strumento di analisi dei dati porta necessariamente a conseguenze non irrilevanti sui contenuti dei test, come spero di chiarire alla fine di questo articolo e mi sembra utile conoscere in anticipo gli effetti di tali scelte.
Indici e misure
Prendiamo la frase: questo test misura le abilità matematiche degli studenti che ci è molto probabilmente già capitato di sentire. La parola misura fa pensare a un’operazione analoga alla misura dell’altezza di una persona. Ma se per l’altezza si tratta di una grandezza ben determinata e dal significato condiviso, che tutti sanno come misurare, nel caso delle abilità matematiche si può intendere invece semplicemente[2] che si è assegnato un qualche punteggio (per esempio il numero delle risposte esatte) ad un test costituito da un certo numero di domande di matematica. La misura dell’altezza gode di proprietà che il punteggio ottenuto da uno studente in un test non ha. Innanzitutto, nel caso dei test, la proprietà che si vuole misurare è tutt’altro che chiara. Non esiste una nozione univoca e condivisa di abilità matematica e domande diverse testano, in generale, abilità diverse[3]. Inoltre, il punteggio assegnato in un test non è in generale confrontabile con quello assegnato in un’altro test: per esempio un primo individuo può ottenere in un certo test A un punteggio superiore a quello ottenuto da un secondo individuo in un certo test B perché “il primo individuo è più bravo del secondo” o perché “il test A è più facile del test B”, cioè la supposta misurazione verrebbe a dipendere dallo strumento di misura.
In questa differenza del significato del termine misura si annidano pericolosi fraintendimenti. Chiamare misurazione una qualunque assegnazione di un punteggio ad un test ci fa pensare ad una oggettività comparabile con quella che si può ottenere misurando le grandezze fisiche che invece è ben lungi dall’essere giustificata.
Il modello di Rasch è un modello probabilistico, sviluppato dallo statistico danese Georg Rasch (1901-1980), con l’intento di definire operativamente un modo per stimare, dai risultati di un test, misure di abilità degli individui e di difficoltà delle domande del test o item.
La domanda intorno a cui ruotano le mie riflessioni è la seguente: possiamo affermare che utilizzando il modello di Rasch riusciamo ad ottenere misure di abilità paragonabili alle misure fisiche?
La mia opinione, che spero di motivare nel resto dell’articolo, è che le misure psicometriche o misure indirette dedotte dall’applicazione del modello di Rasch, pur costituendo un sostanziale passo avanti rispetto a meri indici numerici, non sono comparabili alle misure della fisica. Inoltre, tanto più si prende sul serio il modello di Rasch e si cerca di rendere queste misure indirette comparabili alle misure della fisica, tanto più è necessario delegare a un gruppo chiuso di esperti la definizione della variabile che si vuole misurare. In altre parole, parafrasando una famosa legge fisica propongo scherzosamente il seguente principio di indeterminazione per le misure di Rasch: detta q la distanza di una misura di Rasch da una misura oggettiva di una proprietà ben determinata e detta d la distanza tra il processo di stima dei parametri del modello di Rasch da un processo di misurazione trasparente e democratico
q*d>!H!
dove !H! (da leggere “H imbavagliato”) è una costante (costante di Plank psicometrica).
Spero di riuscire a spiegare nel seguito e in maniera comprensibile ai non specialisti, perché questa parafrasi scherzosa abbia un fondamento serio. Per fare ciò è necessario esporre sinteticamente alcune idee su cui si fonda il modello di Rasch.
Il modello di Rasch
I risultati della correzione di un test vengono organizzati in una tabella, o matrice in cui ogni riga rappresenta una persona e ogni colonna un item. Nei test composti di sole domande a risposta multipla standard[4], la correzione assegna il punteggio 1 ad ogni risposta esatta e 0 ad ogni risposta sbagliata o non data. Per esempio, si consideri un test composto di due sole domande, cui partecipano quattro persone. La matrice delle risposte sia
1 | 0 |
1 | 0 |
0 | 1 |
1 | 1 |
In questo test la prima e la seconda persona hanno risposto correttamente alla prima domanda e non hanno risposto correttamente alla seconda, la terza non ha risposto correttamente alla prima domanda ma ha risposto correttamente alla seconda, la quarta ha risposto correttamente a entrambe.
Il modello di Rasch ipotizza un modello di generazione stocastica di siffatte tabelle, in conseguenza del quale si possono implementare algoritmi per stimare dalla matrice delle risposte un parametro per ogni persona e un parametro per ogni item, che prendono il nome di parametri di abilità e parametri di difficoltà rispettivamente. La giustificazione e i limiti di tali denominazioni verranno discusse più avanti.
Il modello di Rasch è quindi un modello probabilistico per la stima di parametri nascosti a partire da dati osservabili. Questo genere di modelli si presenta in molte situazioni che hanno applicazioni anche alla vita di tutti i giorni: per esempio nel problema del riconoscimento vocale si usa il modello delle catene di Markov a stati nascosti e in quello della ricostruzioni del moto tridimensionali a partire da dati accelerometrici, utile per esempio nella conduzione degli aeroplani, si usa il modello dei filtri di Kalman.
Per modellare un processo stocastico che generi tabelle di zeri e uno, la prima cosa che può venire in mente è quella di lanciare ripetutamente una moneta. Se viene testa segnerò uno nella corrispondente casella, se viene croce segnerò zero. Questo primo modello è assolutamente inadeguato in quanto produrrà dati simili a quelli raccolti in test troppo particolari: quelli in cui ogni domanda ha solo due possibili risposte e ogni persona risponde a caso. Riflettendo sui limiti di questo modello, ci rendiamo conto che esso appiattisce completamente le persone. Quelle che sono più preparate devono avere una probabilità maggiore di rispondere correttamente di quelle meno preparate. Possiamo immaginare allora un modello in cui per ogni persona si scelga una diversa moneta e che si tratti di una moneta truccata. Tanto più preparata è la persona tanto più la sua moneta sarà truccata in modo da aumentare la probabilità che esca testa. Anche così però il modello non può funzionare bene. La probabilità di rispondere correttamente deve anche diminuire all’aumentare della difficoltà della domanda. Per affinare il modello possiamo associare ad ogni persona un parametro a, ad ogni item un parametro d e specificare una funzione di risposta p(a,d) che fornisce la probabilità che uno studente di abilità a risponda correttamente a un item di difficoltà d cioè scegliamo una moneta diversa per ogni interazione studente/item e truccata in accordo con la funzione p(a,d).
Si noti che per denotare il parametro a ho usato una volta il termine abilità un’altra il termine preparazione. Con questa ambiguità ho voluto sottolineare l’arbitrarietà del nome. In effetti i parametri a e d sono definiti in maniera puramente formale. Quanto questa definizione sia correlata con l’abilità, con la preparazione o quant’altro non ce lo può (e non ce lo deve) dire il modello.
Torniamo alla funzione di risposta, che abbiamo lasciato ancora indeterminata, e per la quale è ragionevole richiedere che assuma valori compresi tra zero e uno (per rappresentare una probabilità), che cresca al crescere di a (che è un parametro che vorremmo correlare all’abilità) e che decresca al crescere di d (che è un parametro che vorremmo correlare alla difficoltà).
Per specificare il suo modello, Rasch[5] si domanda a questo punto se è possibile scegliere la funzione p in maniera tale che i parametri a e d siano misure e non semplici numeri e propone la seguente condizione necessaria:
quando una persona ha abilità doppia di un’altra, e un item ha difficoltà doppia di un altro, la prima persona dovrà poter risolvere il primo problema con la stessa facilità con cui la seconda persona risolve il secondo[6].
Con riferimento alla funzione di risposta, questa condizione si può formalizzare richiedendo p(2a,2d)=p(a,d) e più in generale,
p(ka,kd)=p(a,d) per ogni a,d e k numeri positivi (+).
La proprietà (+) viene definita da Rasch conformità. Tra le funzioni che verificano la condizione di conformità, Rasch sceglie quella che considera più semplice e propone un modello in cui[7]:
Ogni persona ha una certa probabilità di risolvere correttamente ogni problema di un dato genere e la sua probabilità, indipendentemente dalle risposte ai precedenti problemi, è data dalla formula[8]
dove a è una caratteristica della persona e d una caratteristica del problema.
A partire dal modello di Rasch è possibile valutare la verosimiglianza di ogni matrice di dati in funzione dei parametri del modello. Se abbiamo N persone di abilità a1,…,aN che rispondono a domande di difficoltà d1,…,dn, la verosimiglianza della matrice delle risposte si ottiene, in virtù della condizione di indipendenza formulata da Rasch, moltiplicando le probabilità delle osservazioni in ogni cella della matrice, ovvero p(ai, dj) se sulla i-esima riga e j-esima colonna c’è 1 oppure 1- p(ai, dj) se sulla i-esima riga e j-esima colonna c’è 0. Uno dei metodi per stimare i parametri consiste semplicemente nello scegliere quelli che massimizzano la verosimiglianza dei dati. Il problema conduce alla ricerca delle soluzioni di un sistema di equazioni non lineari, per cui esistono metodi efficienti di soluzione numerica.
Ovviamente la funzione (*) non è l’unica che verifica la condizione di conformità ma con questa scelta valgono ulteriori proprietà molto interessanti, sia dal punto di vista teorico che pratico, per esempio la proprietà che Rasch chiama di oggettività specifica.
Oggettività specifica
La discussione di questa proprietà è a mio avviso esemplare delle discussione relative al modello di Rasch. Il significato sostanziale della proprietà non è chiaro in quanto non è facile separare quello che si nasconde dietro la sua definizione formale da quello che ci si vuol vedere ma che in effetti non c’è. La discussione è tecnica e mi limiterò ad esporre alcune considerazioni non tecniche e a suggerire alcuni approfondimenti.
Dice Rasch[9]:
Agli inizi degli anni 60 ho introdotto un nuovo – o piuttosto una più definita versione di un vecchio – concetto epistemologico. Ho mantenuto per esso il nome di oggettività, ma siccome il significato di questa parola è passato attraverso numerose modificazioni sin dalla sua origine ellenica e viene ancora utilizzato, nei discorsi di ogni giorno e in quelli scientifici, in molti contesti diversi, ho aggiunto un predicato restrittivo: specifica[10].
Secondo Stenner[11],
Georg Rasch ha utilizzato il termine “oggettività specifica” per descrivere quel caso essenziale nelle misurazioni in cui il confronto tra individui diventa indipendente dagli strumenti particolari — test o item o altro genere di stimoli — che vengono utilizzati. Simmetricamente dovrebbe essere possibile confrontare stimoli che appartengono alla stessa classe — misurando la medesima cosa — indipendentemente da quale particolare individuo, all’interno della classe considerata, fosse strumentale per il confronto[12].
Da queste citazioni, e ancor di più dal titolo del lavoro di Rasch da cui è stata tratta la prima: On specific objectivity: An attempt at formalizing the request for generality and validity of scientific statements, si trae l’impressione che la specifica oggettività sia un principio fondamentale e imprescindibile per dare un senso alle misure. Ma se si scava più profondamente si scopre che le cose non sono affatto così nette.
Secondo Van Linden[13] il principio di oggettività specifica introdotto da Rasch si compone in realtà di due diversi principi, uno di carattere matematico e uno di carattere statistico.
Dal punto di vista matematico, si tratta di una proprietà formale di una equazione funzionale, già considerata da diversi matematici prima di Rasch[14]. Una delle conseguenze di questa proprietà è che, nel modello di Rasch, è possibile definire una funzione matematica per confrontare la prestazione tra individui diversi che non dipende dai parametri di difficoltà degli item. L’interpretazione di questa proprietà da parte di molti, e secondo van der Linden anche di Rasch[15], è che si tratti di una condizione necessaria perché i parametri siano delle misure. Sempre secondo van der Linden invece questa separazione dei parametri nelle operazioni di confronto, pur essendo utile, non è affatto necessaria. È superfluo aggiungere che, in ogni caso, la condizione formale di oggettività specifica, necessaria o non necessaria che sia, è ben lungi dall’essere sufficiente a garantire che le stime dei parametri dei modelli di Rasch siano misure utili e chiaramente determinate.
Dal punto di vista statistico, dice sempre van der Linden:
sotto la condizione che valga il modello di Rasch, se la lunghezza di due test diversi tende all’infinito, gli stimatori di massima verosimiglianza condizionale dell’abilità della stessa persona hanno lo stesso valore atteso, ma, di norma, varianza diversa. In altre parole, il significato corretto è che la presenza di statistiche sufficienti permette l’uso di stimatori consistenti dei parametri del modello di Rasch. “Oggettività specifica” non ha altro significato oltre a questo![16]
I tentativi di leggere oltre questo ha portato a numerosi fraintendimenti[17]
È la generalità degli enunciati di Rasch e il suo confondere i concetti di statistiche sufficienti e di oggettività specifica che porta ad ascrivere proprietà non realistiche al modello di Rasch. Per esempio è molto diffusa la credenza che a causa della presenza di statistiche sufficienti, la stima di massima verosimiglianza condizionale nel modello di Rasch permetta la stima degli stessi parametri di abilità da campioni diversi di item dello stesso test. Questa affermazione è dal punto di vista statistico troppo semplicistica per essere vera[18].
La discussione sul significato della proprietà di oggettività specifica mostra in maniera esemplare quanto sia facile creare confusione quando si trasmette un contenuto scientifico. Usare le parole del linguaggio comune porta facilmente a estendere il senso di un contenuto scientifico, per esempio una proprietà formale di un modello matematico, oltre al suo ristretto dominio di validità. È un compito difficile, e a mio avviso troppo spesso trascurato da chi si occupa professionalmente di scienza, quello di trasmettere, oltre a un contenuto scientifico, anche il senso dei limiti della sua applicabilità.
Osservazioni sul modello di Rasch
Il modello di Rasch non è molto flessibile. Per descrivere una matrice N*n di dati (le risposte di N persone a n item) ha a disposizione N + n parametri e quindi impone una limitazione sulla struttura dei dati, che deve essere attentamente vagliata prima di trarne qualsiasi conseguenza. Non deve trarre in inganno il fatto che è sempre possibile dare una stima dei parametri del modello, qualsiasi sia l’insieme dei dati raccolti. Una stima fornisce i parametri ottimali rispetto ad un dato criterio (per esempio il criterio di massima verosimiglianza) ma il fatto di individuare i parametri ottimali non implica che il modello sia adeguato alla descrizione dei dati.
Non entro in questa sede nella discussione dei problemi relativi alla valutazione della bontà dell’adattamento del modello di Rasch con i dati, salvo rinviare ad alcune critiche sull’adeguatezza dei test di aggiustamento per il modello di Rasch[19].
Per applicare il modello di Rasch è necessario controllare la qualità degli item. Qualità significa, in questo contesto, conformità dell’item con il modello. In particolare si richiede che sia un item al quale gli studenti non rispondano a caso e che la sua discriminazione sia uguale a uno.
La prima ipotesi sembra in contrasto con il vincolo che la risposta sbagliata sia valutata come la risposta non data, ma se le domande non sono troppo difficili e i distrattori (cioè le risposte errate) sono plausibili si osserva nella pratica che le deviazioni da questa ipotesi non sono solitamente statisticamente significative. È sempre necessario però fare un’analisi accurata dei dati per confermarlo.
La seconda assunzione è, a mio avviso, di carattere esclusivamente formale.
Gli utilizzatori del modello di Rasch, in presenza di significative deviazioni da queste ipotesi, eliminano l’item. A tal fine organizzano dei pretest necessari alla verifica della conformità degli item al modello di Rasch. La scelta di imporre a priori il modello sui dati e di modificare i dati eliminando item e individui che non sono conformi al modello, è fonte di una diatriba infinita tra i sostenitori e gli avversari del modello di Rasch[20]. La motivazione dei sostenitori del modello è sostanzialmente che il modello di Rasch è l’unico che fornisce misure psicometriche valide e quindi ciò che non è conforme al modello di Rasch non è misurabile. Un item che non verifica le ipotesi del modello di Rasch è come un metro rotto[21].
La mia opinione è che le ragioni per cui i sostenitori del modello di Rasch affermano che questo modello sia l’unico in grado di fornire misure psicometriche valide non sono convincenti, come ho cercato di spiegare nel paragrafo sulla proprietà di specificità oggettiva. Si tratta di voler vedere in proprietà matematiche o statistiche del modello di Rasch, alle volte neanche ben formulate, più di quanto ci sia in realtà. Credo anche però che aggiungere parametri per rendere il modello più aderente ai dati non faccia compiere sostanziali passi avanti nella direzione di ottenere una misura oggettiva di una proprietà ben determinata per le ragioni che cercherò di spiegare nel prossimo paragrafo.
Critiche alle misure indirette
Le misure stimate con il modello di Rasch sono misure indirette[22]. Anche se le misure indirette costituiscono un passo avanti significativo in confronto ai meri indici numerici, esistono differenze, secondo me sostanziali, tra le misure indirette e le misure della fisica: innanzitutto, la precisione delle stime di una misura indiretta, oltre a essere molto inferiore, è molto meno controllabile e poi le proprietà che si cerca di misurare non sono ben definite.
La mia opinione sulle misure indirette è che si tratti di misure imprecise di proprietà non ben definite in condizioni critiche. L’immagine intuitiva che mi sono fatto di una misura indiretta è la seguente: è come misurare il peso di una persona con una riga storta mentre la persona corre. Nell’immagine ho scritto: misurare il peso con una riga. Non è un errore, ma il tentativo di mettere a fuoco un problema sostanziale. In una misurazione indiretta non abbiamo accesso diretto alla proprietà che vogliamo misurare. Per esempio, quando diciamo abilità matematica misurata da un test, intendiamo abilità di svolgere il test che è stato proposto. Ci immaginiamo che questa abilità sia correlata con l’abilità matematica che vorremmo misurare e ci troviamo quindi in una situazione analoga a quella in cui ci troveremmo misurando il peso invece dell’altezza[23].
Le misure indirette infine vengono effettuate in condizioni critiche perché le condizioni al contorno non sono controllabili, come al contrario avviene per le misure fisiche. Le misure fisiche si fanno in laboratorio su una realtà artificiale e questa è una loro caratteristica fondamentale. Il fatto di misurare in laboratorio è uno dei tratti fondamentali della rivoluzione galileiana. La fisica moderna non è la scienza di Aristotele che si limita ad osservare il fenomeno ma sostituisce il fenomeno reale con un fenomeno artificiale più controllabile, e solo a questo punto procede con le misurazioni. Questo controllo del fenomeno prima di misurare non può essere fatto con le misure indirette. Ci sono autori che dicono che questo ostacolo epistemologico impedisce la possibilità stessa di definire misure indirette.
Io credo che possa essere comunque utile considerare misure indirette, purché ci si renda conto che l’oggettività della misura, se di misura si tratta, è discutibile.
Le misure indirette sono comunque utili? Dipende! È come il risultato di un’analisi clinica. Messo in mano a un bravo medico può essere utile a confermare una diagnosi o a far suonare in anticipo un campanello d’allarme. Messo in mano a un cattivo medico, o peggio al paziente stesso, può produrre esiti catastrofici.
Un’ultima osservazione riguarda la trasparenza delle misure indirette. Quando si stima una misura indiretta con un modello probabilistico è fondamentale verificare che il modello utilizzato sia in buon accordo con i dati, altrimenti le misure indirette perdono completamente di senso. Questo introduce un grave rischio per la trasparenza delle misure indirette, per esempio nelle valutazioni, perché il controllo della loro qualità e della loro significatività è delegata, nella migliore delle ipotesi a un gruppo di esperti, e nella peggiore alla fiducia cieca in procedure automatiche.
Critiche all’applicazione del modello di Rasch ai risultati dei test INVALSI
Dopo aver mosso alcune critiche generali alle misure indirette e in particolare a quelle dedotte dal modello di Rasch, vorrei concludere le mie riflessioni sollevando due ulteriori critiche specifiche alle applicazioni del modello di Rasch all’analisi dei risultati dei test INVALSI.
Le misure indirette di abilità, stimate nelle rilevazioni INVALSI, introducono un elemento quantitativo che, invece di aiutare a chiarire i termini del dibattito e sulla valutazione dei sistemi educativi, rischia di mascherare i problemi reali spostando la discussione su un piano sbagliato. A una classe politica, che conosce poco i problemi che deve affrontare e che non sa o non riesce ad assumere le proprie responsabilità di riformare il sistema educativo nazionale, risulta estremamente comodo cercare un criterio semplice che guidi automaticamente o giustifichi le proprie scelte. Credo che sia utile e doveroso sottolineare con forza che questi criteri non sono affatto oggettivi e indiscutibili.
In secondo luogo, il modello di Rasch prescrive una interazione piuttosto rigida tra item e individui. Per dare senso alla stima dei parametri di abilità e difficoltà è necessario che gli item siano strettamente conformi alle ipotesi del modello e quindi è necessario seguire un protocollo lungo, faticoso e costoso per la preparazione e per la selezione degli item. Il protocollo utilizzato dall’INVALSI per costruire un test definisce la variabile che si intende misurare. In altre parole, e questo è necessaria conseguenza del modello di Rasch, l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI. Non voglio entrare nel merito se questo sia giusto o sbagliato, voglio solo osservare che necessariamente questo non è modificabile. In altre parole, se vogliamo modificare in maniera sostanziale il syllabus sulla base del quale l’INVALSI ha preparato finora le proprie prove, il principio di misurazione basato sul modello di Rasch prevede che dobbiamo rifare tutto il lavoro di verifica della coerenza degli item e ricontrollare e probabilmente eliminare buona parte dei risultati delle rilevazioni precedenti. In conseguenza del modello di Rasch, in altre parole, è tassativamente vietato variare la sostanza del syllabus INVALSI, perché questo equivale a modificare la variabile che si sta misurando.
Prendere sul serio il modello di Rasch pone anche dei vincoli al processo di rinnovamento dei preparatori delle domande, chiesto a gran voce da molti. Poiché per poter continuare a misurare la stessa variabile è necessario che ogni item sia statisticamente omogeneo ai precedenti, se prendiamo sul serio il modello di Rasch è tassativamente vietato aggiungere nuove dimensioni alle modalità di valutazione dei contenuti del syllabus INVALSI.
In conseguenza, per avvicinare le misure di abilità e difficoltà all’ideale (secondo me comunque irraggiungibile) di oggettività delle misure della fisica bisogna necessariamente sacrificare le possibilità di sottoporre a un controllo esterno e di modificare le procedure, i syllabi e in definitiva la visione della matematica di chi gestisce le prove INVALSI. È questo il senso del principio di indeterminazione per le misure di Rasch che ho enunciato nel secondo paragrafo.
[1] cfr. Intervista di G. Israel a Orizzonte scuola. http://www.orizzontescuola.it/news/giorgio-israel-invalsi-istituto-fuori-controllo-prof-state-guardia-potreste-diventare-semplici-
e l’interessante sito in cui vengono raccolti autorevoli pareri pro e contro i test standardizzati
http://standardizedtests.procon.org/
[2] Non è il caso dei test INVALSI, come vedremo.
[3] Cfr. per esempio le considerazioni nell’articolo già citato di Giorgio Israel.
[4] Mi limiterò a discutere questa tipologia di test perché il modello per l’analisi statistica è sostanzialmente lo stesso anche per test più complicati che ammettono griglie di correzione standardizzate più complicate.
[5] G. Rasch, Probabilistic models for some Intelligence and attainment tests, Chicago, the University of Chicago Press, 1980.
[6] G. Rasch, op. cit.
[7] G. Rasch, op. cit.
[8] Il modello di Rasch viene oggi specificato con riferimento alla funzione
L’equivalenza con la formulazione precedente, utile per confrontare il modello di Rasch con gli altri modelli della Item Response Theory (IRT), si ottiene ponendo
[9] G. Rasch, On specific objectivity: An attempt at formlizing the request for generality and validity of scientific statements. Danish Yearbook of Philosophy, 14, pp. 58-94, 1977. disponibile on line: http://www.rasch.org/memo18.htm
[10] Traduzione dell’originale:
In the beginning of the 60’es I introduced a new – or rather a more definite version of an old – epistemological concept. I preserved the name of objectivity for it, but since the meaning of that word has undergone many changes since its Hellenic origin and is still, in everyday speech as well as in scientific discourse, used with many different contents, I added a restricting predicate: specific.
[11] A. J. Stenner, Specific objectivity – local and general.Rasch Measurement Transactions, 1994, 8:3 p.374 – disponibile on line: http://www.rasch.org/rmt/rmt83e.htm
[12] Traduzione dell’originale:
Georg Rasch used the term “specific objectivity” to describe that case essential to measurement in which “comparisons between individuals become independent of which particular instruments — tests or items or other stimuli — have been used. Symmetrically, it ought to be possible to compare stimuli belonging to the same class — measuring the same thing — independent of which particular individuals, within a class considered, were instrumental for comparison.”
[13] W. J. van der Linden, Fundamental Measurement and the Fundamentals of Rasch Measurement, in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 3-25.
[14] G. Fischer, Applying the principles of specific objectivity and of generalizability to the measurement of change, Psychometrika, v. 52 (4), pp. 565-587, 1987.
[15] van der Linden, op. cit., p. 18.
[16] Traduzione dell’originale:
under the condition that the Rasch model holds, if the lengths of two different tests go to infinity, the conditional maximum likelihood estimators of the ability of the same person have the same expected value but are likely to have different variances. In other words, the correct inference is that the presence of sufficient statistics paves the way for the use of consistent estimators of the parameters in the Rasch model. “Specific objectivity” has no meaning beyond this!
[17] Van der Linden, op. cit.
[18] Traduzione dell’originale:
It is the generality of Rasch’s claims and his mixing up of the concepts of specific objectivity and sufficient statistics that could lead to ascribing unrealistic properties to the Rasch model. For example, the belief is widespread that due to the presence of sufficient statistics, conditional maximum likelihood estimation in the Rasch model allows estimation of the same ability parameters from different samples of test items. This statement is statistically too simple to be true.
[19] Per esempio: Wood ha mostrato come si possano rendere conformi al modello di Rasch anche dati casuali in Wood R., Fitting ther Rasch model: a heady tale. British Journal of Mathematical and StatisticalPsychology, 31, pp. 27-32, 1978; Goldstein e Blinkhorn hanno criticato le procedure utilizzate per l’analisi di adeguatezza del modello di Rasch in Goldstein H., Blinkhorn S. The Rasch model still does not fit, British educational research journal, Vol. 8, n. 2, pp. 167-1701982
[20] Cfr. per esempio, W. Fisher, The Rasch debate, in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 36-73, Goldstein, H. Dimensionality, bias, independence and measurement scale problems in latent trait test score models. British Journal of Mathematical and Statistical Psychology, 1980 33: 234-246.
[21] W. Fisher, The Rasch debate.
[22] E. Rogora, Valutare e scegliere, il ruolo della matematica, Lettera matematica PRISTEM, 87 (4), pp. 4-7. Disponible on line, http://matematica.unibocconi.it/sites/default/files/LM87_Rogora.pdf.
[23] In realtà la situazione in cui ci troviamo è ancora più intricata in quanto non è affatto chiaro che la proprietà che ci interessa sia definibile, unodimensionale e misurabile. Cfr. la discussione nell’intervista citata di Giorgio Israel.
Siamo nel mezzo di una guerra. Organismi sovranazionali interferiscono secondo criteri scientifici (?), cui viene dato acritico consenso, nei sistemi scolastici nazionali, collaudati attraverso l’esperienza di decenni (quando non di secoli). Tali organismi tendono a imporre modelli di valutazione (e di conoscenza ad essa finalizzata) astorici, aculturali e non particolarmente approfonditi e articolati. Una parte dello Stato italiano e alcune corporazioni recepiscono e sfruttano volentieri per impedire l’accesso allo studio, interrompendo l’anno scolastico e giudicando zero il valore del voto di maturità.
Sì, infatti, non si capisce a cosa serve a questo punto la maturità. Dall’anno prossimo, credo, vogliono estendere l’Invalsi a tutti i maturandi, a tutti, dunque questi ragazzi hanno uno dietro l’altro l’invalsi, la maturità e la prova di accesso ai CdL. Questa è valutazione? O sadismo?
Il bambino Pink, umiliato da un insegnante eccessivamente rigido e severo che considera “absolute rubbish” (assoluta spazzatura) la sua poesia letta di fronte alla classe, immagina una fila di bambini senza volto che marciano in fila verso un enorme tritacarne.
La poesia di Pink rappresenta la sua individualità, il tritacarne l’omologazione prodotta da un’educazione/istruzione piatta e perciò priva anche di ogni reale fascinazione.
Parlo di “The Wall” dei Pink Floyd, dove l’umiliazione dell’individualità diventa “another brick in the wall”, un altro mattone nel muro che separa Pink dagli altri, isolandolo.
La canzone è diventata un simbolo di tante battaglie, tanto da subire perfino la censura.
E si tratta anche di ottima musica…
http://youtu.be/YR5ApYxkU-U
Per la marcia dei tutti uguali, senza volto, si sono chiaramente ispirati a “Metropolis” di Fritz Lang, 1927, dove nelle prime sequenze marciano gli operai standardizzati, entrando ed uscendo dalla fabbrica mostruosamente ipertecnologizzata.
https://www.youtube.com/watch?v=nqvLtpcNfBk, minut0 1,30
@Marinella: infatti ci sono diverse analogie, perché entrambi esprimerebbero l’alienazione e l’omologazione portate alle estreme conseguenze. Metropolis però mi manca, grazie per il suggerimento. Essendo una fan di Blade Runner e Guerre Stellari, che a quanto pare ne hanno tratto ispirazione, proverò a guardarlo con l’ipotesi di poter apprezzare il cinema muto.
Salve, sono un insegnante di lettere che non ha una preparazione specifica in psicometria, ma le valutazione INVALSI mi interessano molto e le ho sempre considerate uno strumento utile (ma non salvifico).
Ovviamente ho bisogno di dati scientifici per valutare la bontà delle rilevazioni INVALSI, dal momento che non vi si può credere per fede, o, peggio, polemica.
E qui comincia la mia difficoltà, non essendo io né statistico né matematico.
Faccio dunque delle osservazioni, forse marginali, sulla base di quel che ho capito.
I dubbi metodologici sul PISA non mi sembrano si estendano all’INVALSI, vero? il difetto del PISA è che hanno colmato dei buchi nelle matrici delle risposte con “risposte plausibili”, frutto di estrapolazioni varie. L’Invalsi questo non ha dovuto farlo, giusto?
L’INVALSI inoltre, al contrario del PISA, fornisce a tutti gli stessi item, sottraendosi così anche a quella critica, giusto?
Per quanto riguarda l’articolo di Gnaldi, ho visto che l’articolo è stato sottoposto nel dicembre 2012. Ma da allora è stato pubblicato su qualche rivista peer-reviewed? Non ho familiarità con arxiv.org e non so valutare.
Mi sembra anche di capire che Gnadi et al. considerino valide le prove di matematica, o mi sbaglio?
Vengo all’articolo di Rogora.
Mi sembra che una prima critica sia al fatto che le misure sono indirette, e non comparabili con quelle fisiche.
La mia prima obiezione è la più ingenua: perché le misure psicometriche dovrebbero essere come quelle fisiche? Mi sembra ovvio che non lo siano, e credo che nessuno lo abbia mai preteso.
Non capisco bene la metafora del prendere “il peso con un metro”, immagine che suggerisce l’idea che si stiano sommando le mele con le pere e che si stiano facendo calcoli strampalati. Credo sarebbe un parallelo più corretto dire che è vero che l’INVALSI non pesa le persone con la bilancia, bensì calcolando il loro volume, esaminando il materiale di cui sono fatte ed estrapolando il peso moltiplicando il volume per il peso specifico del materiale.
Capisco invece bene le osservazioni sul syllabus: se si vuole mantenere coerenza tra i dati dei vari anni, non si può bambiare la base da cui vengono formulati gli item.
Però mi sembra di l’INVALSI consideri come syllabus soltanto le idee fondamentali delle indicazioni nazionali, che in sé prescrivono soltanto -o dovrebbero- una serie di conoscenze minime e competenze che si presume rimangano uguali nel tempo (e che per italiano sono simili, in parte, a quelle usate nelle test sulle lingue straniere).
Infine (poi basta!): le misurazioni INVALSI misurano soltanto quanto si è capaci a rispondere ai test INVALSI. Mi sembra si usi questa osservazione per dire: “Ehi, alla fine della giostra, quel che l’INVALSI produce è una serie di tautologie!”. Il che mi sembra corretto, ma mi viene da aggiungere che se le capacità per rispondere ai test INVALSI sono capacità che io reputo utili e necessarie, allora il test è valido (limitatamente a quelle capacità, almeno).
Scusate la lunghezza, ma ho voluto far vedere il meandro di ragionamenti in cui si muove un non addetto ai lavori che pure sull’argomento ha molto bisogno di capire.
Grazie!
Grazie ad uqbal per le domande, molto pertinenti. Di seguito provo a dare delle risposte, punto per punto.
===============================
1. I dubbi metodologici sul PISA non mi sembrano si estendano all’INVALSI, vero? il difetto del PISA è che hanno colmato dei buchi nelle matrici delle risposte con “risposte plausibili”, frutto di estrapolazioni varie. L’Invalsi questo non ha dovuto farlo, giusto? L’INVALSI inoltre, al contrario del PISA, fornisce a tutti gli stessi item, sottraendosi così anche a quella critica, giusto?
_______________________________
Giusto e sbagliato allo stesso tempo. I problemi di PISA sono aggravati perché fa abbondante ricorso a risposte plausibili (= estrazioni casuali):
_______________________________
“It is very important to recognise that plausible values are not test scores and should not be treated as such. They are random numbers drawn from the distribution of scores that could be reasonably assigned to each individual.”,
Pisa technical report citato da Times Education Supplement, http://www.tes.co.uk/article.aspx?storycode=6344672
_______________________________
A questo punto, se il modello statistico usata per queste estrazioni non fosse aderente alla realtà, le risposte plausibili non sarebbero più così plausibili. Il modello statistico è il modello di Rasch che quando è stato sottoposto a verifica da Kreiner é stato”rejected” assai nettamene per tutte le nazioni tranne il Lichtenstein (in cui il campione é poco numeroso e rende pertanto più difficile evidenziare incongruenze del modello). Come dice Kreiner: ‘The effect of using plausible values generated by a flawed model is unknown.’
E tuttavia , anche se PISA non usasse “plausible values”, il modello alla base della procedura di misura indiretta rimarrebbe “flawed”.
Pertanto, è giusto affermare che i test INVALSI non dovrebbero essere soggetti ai problemi relativi ai “plausible values”, ma anche così la loro procedura di misura indiretta dipende in modo critico dal modello di Rasch. Il fatto che, per i test PISA, il modello di Rasch venga bocciato così nettamente nei casi esaminati da Kreiner fa suonare un campanello di allarme anche per INVALSI. In altre parole, la validità del modello di Rasch non può essere data per scontata, anzi. Chi ci assicura che il modello di Rasch sia valido per i dati INVALSI, alla luce di quanto evidenziato da Kreiner per PISA ? Ci vorrebbe una verifica (vedi sotto).
===============================
2. Per quanto riguarda l’articolo di Gnaldi, ho visto che l’articolo è stato sottoposto nel dicembre 2012. Ma da allora è stato pubblicato su qualche rivista peer-reviewed? Non ho familiarità con arxiv.org e non so valutare.
Mi sembra anche di capire che Gnaldi et al. considerino valide le prove di matematica, o mi sbaglio?
_______________________________
L’ideale sarebbe avere l’equivalente per INVALSI di quanto fatto da Kreiner per PISA, ovvero un articolo su rivista peer-reviewed che verificasse se il modello di Rasch è rejected o no. Da quanto mi risulta, per ora abbiamo solo il “working paper” di Gnaldi et al., i cui risultati sono stati oggetto di una presentazione in un convegno:
_______________________________
http://www.stat.unipg.it/bacci/slides/GnaldiBartBacci-CLADAG.pdf
VIII International Meeting of the CLAssification and Data Analysis Group (CLADAG) della Società Italiana di Statistica (SIS), 7-9 settembre 2011.
_______________________________
Inoltre, non direi che Gnaldi et. al. considerino valide le prove di matematica. Infatti, nella loro analisi vengono testate due ipotesi, entrambe richieste dal modello di Rasch usato nei test INVALSI:
_______________________________
A. Unidimensionality
«if unidimensionality is not met, summarizing students’ performances through a single score, on the basis of a unidimensional IRT model, may be misleading as test items indeed measure more than one ability.»
_______________________________
B. Absence of DIF
«Absence of DIF means that the items have the same difficulty for all subjects and, therefore, difficulty does not vary among different groups defined, for instance, by gender or geographical area.»
_______________________________
Gnaldi et al. concludono che:
_______________________________
«The results provide evidence for DIF effects for both Tests. Besides, the assumption of unidimensionality is strongly rejected for the Italian Test, whereas it is reasonable for the Mathematics Test.».
_______________________________
Pertanto, per le prove di matematica l’ipotesi A di unidimensionalità sembra reggere mentre non regge l’ipotesi B di assenza di DIF. Nel caso delle prove di Italiano, entrambe le ipotesi A e B non reggerebbero. Se diamo fede a Gnaldi et al., sia per matematica sia per italiano, il modello di Rasch non sarebbe verificato.
A questo punto, direi che l’onere della prova spetta a chi difende l’uso del modello di Rasch.
=====================
3. La mia prima obiezione è la più ingenua: perché le misure psicometriche dovrebbero essere come quelle fisiche? Mi sembra ovvio che non lo siano, e credo che nessuno lo abbia mai preteso.
_____________________
«The rationale for this perspective is that the Rasch model embodies requirements which must be met in order to obtain measurement, in the sense that measurement is generally understood in the physical sciences.»
http://en.wikipedia.org/wiki/Rasch_model
_____________________
«la conoscenza è qualcosa che cresce e si accumula nel tempo e lo studio di tale fenomeno richiede strumenti ben più sofisticati che non le semplici graduatorie. Se si vuole quindi affrontare in maniera scientifica lo studio di questi fenomeni, l’unica soluzione è quella di darsi regole rigorose per la costruzione di misure oggettive, al pari di quanto l’umanità ha fatto per il peso e la temperatura.»
Enrico Gori (Presidente del Comitato tecnico scientifico dell’Invalsi, 2000-2004)
http://www.multiversoweb.it/rivista/n-11-misura/la-misura-nell%E2%80%99ambito-delle-scienze-sociali-3578/
_____________________
«Quando gli analisti dell’Ocse ci dicono che gli studenti coreani a 15 anni “sono un anno avanti” rispetto a quelli italiani, in termini di conoscenze di matematica, usano appunto le proprietà di misura quantitativa dei risultati della valutazione ottenuta con il modello di Rasch. Proprietà che, tra l’altro, sono alla base del calcolo delle derivate rispetto al tempo (e dei sistemi di equazioni differenziali) nella fisica. »
Enrico Gori (Presidente del Comitato tecnico scientifico dell’Invalsi, 2000-2004)
http://www.ilsussidiario.net/News/Educazione/2014/2/11/SCUOLA-Se-l-Invalsi-puo-curare-un-bambino-obeso/4/465833/
=====================
4. Non capisco bene la metafora del prendere “il peso con un metro”, immagine che suggerisce l’idea che si stiano sommando le mele con le pere e che si stiano facendo calcoli strampalati. Credo sarebbe un parallelo più corretto dire che è vero che l’INVALSI non pesa le persone con la bilancia, bensì calcolando il loro volume, esaminando il materiale di cui sono fatte ed estrapolando il peso moltiplicando il volume per il peso specifico del materiale.
____________________
Se come sembra, non vale l’ipotesi di assenza di DIF, alcune domande risulteranno più difficili a seconda del sesso o della provenienza geografica. Questo fa venir meno la possibilità di un uso comparativo. Un caso estremo, ma di facile comprensione: per i lombardi la domanda A è più difficile di quella B, ma per i siciliani la domanda B è più facile della domanda A. Altro esempio, relativo all’ipotesi di unidimensionalità: se nei test di italiano vengono testate due diverse abilità, i soggetti testati andrebbero disposti in un piano invece che su una retta e si devono fare due classifiche distinte. Gnaldi et. al. ci suggeriscono che le risposte ai test INVALSI di Italiano riflettono più di un abilità. Quindi, il punteggio sarebbe una “misura” (se non ci fossero i problemi di DIF) composita di più abilità e la classifica dipenderebbe da quante domande misuravano la prima abilità e quante la seconda. Faccio un esempio non riferito ai test reali, ma facile da capire: immaginiamo che l’essere bravi in grammatica ed in analisi logica siano abilità distinte (qualunque cosa possa voler dire “abilità”). Se faccio un test unico in cui prevalgono le domande di analisi logica, vincono gli uni, ma se prevale la grammatica, vincono gli altri. Una classifica unica non ha senso perché dipende da quanta importanza viene data ad un’abilità rispetto all’altra e questa è una scelta soggettiva.
=====================
5. Capisco invece bene le osservazioni sul syllabus: se si vuole mantenere coerenza tra i dati dei vari anni, non si può bambiare la base da cui vengono formulati gli item.
Però mi sembra di l’INVALSI consideri come syllabus soltanto le idee fondamentali delle indicazioni nazionali, che in sé prescrivono soltanto -o dovrebbero- una serie di conoscenze minime e competenze che si presume rimangano uguali nel tempo (e che per italiano sono simili, in parte, a quelle usate nelle test sulle lingue straniere).
____________________
Credo che la rigidità non riguardi solo il syllabus ma anche il modo in cui il syllabus viene tradotto in domande (Rogora: “ la visione della matematica di chi gestisce le prove INVALSI.’). Non basta che le domande vertano sugli argomenti del syllabus ma devono essere statisticamente omogenee a quelle usate in precedenza.
=====================
6. Infine (poi basta!): le misurazioni INVALSI misurano soltanto quanto si è capaci a rispondere ai test INVALSI. Mi sembra si usi questa osservazione per dire: “Ehi, alla fine della giostra, quel che l’INVALSI produce è una serie di tautologie!”. Il che mi sembra corretto, ma mi viene da aggiungere che se le capacità per rispondere ai test INVALSI sono capacità che io reputo utili e necessarie, allora il test è valido (limitatamente a quelle capacità, almeno).
_____________________
Questo non significa che i test siano inutili, ma che non è scientificamente corretto attribuire loro un’oggettività e comparabilità che non hanno. Come già detto, l’esigenza di garantire la consistenza interna dei test costringe a escludere le domande le cui risposte non seguono il modello. Pertanto, siamo in presenza di una selezione di domande scelte tra quelle elaborate da una cerchia di esperti secondo la loro visione del syllabus. Misurano una sfaccettatura della preparazione degli studenti, ma non si può attribuire loro una particolare solidità (tanto più che, nonostante tutto, le ipotesi statistiche alla base del modello non sembrano essere rispettate). Se l’ottimizzazione di questa particolare sfaccettatura, diventasse l’obiettivo dei programmi di insegnamento (teaching to the test) assisteremmo ad un impoverimento della qualità della formazione scolastica, preoccupazione fatta propria da più di cento professori e ricercatori nel settore dell’istruzione, provenienti da tutto il mondo:
_____________________
http://oecdpisaletter.org/
_____________________
Per concludere, suggerisco caldamente di leggere il seguente capitolo che evidenzia bene una serie di fattori che influiscono sull’esito dei test PISA, per rendersi conto che test di questo tipo non possono essere usati come delle misure fisiche:
___________________________________________
j. Wuttke, “Uncertainties and Bias in PISA”
http://www.oxydiane.net/IMG/pdf/Uncertainties_and_Bias_in_PISA.pdf
Ammesso che il nostro obiettivo sia competere con i coreani (boh? chi l’ha decisa questa nuova vetta del sapere?), penso che gli studenti orientali siano più bravi perché studiano di più. Alle elementari memorizzano migliaia di caratteri ideografici e hanno l’abitudine di lavorare per ore, abitudine che i nostri pargoli hanno smarrito da tempo. Non c’è bisogno dell’INVALSI per capire questo, ci sono invece molti soldi che girano intorno all’INVALSI e alla vendita di materiali, corsi e metodologie legate ai test. Se metto su un baraccone, devo far credere che serva a qualcosa.
La vendita di materiali non ha niente a che vedere con l’INVALSI, quanto invece piuttosto con le case editrici che producono e vendono libretti di preparazione che l’INVALSI ha dichiarato non servire.
Il livello qualitativi, per quel che ho avuto modo di vedere, sono spesso più bassi di quelli INVALSI.
In ogni caso, quel che dice dei coreani sembra confermare l’approccio invalsi, piuttosto che smontarlo.
Se effettivamente (è quel che dice lei) gli studenti coreani son più bravi e ciò risulta dai test, allora i test erano corretti.
[…] I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive e spiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra … […]
[…] Il Prof. Enrico Rogara (Matematico Univ. La Sapienza, Roma), afferma “Il protocollo utilizzato dell’INVALSI per costruire un test definisce la variabile che si intende misurare. In altre parole, questa è la necessaria conseguenza del modello di Rasch, l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI”. (In ROARS “I test invalsi sono scientificamente solidi?” https://www.roars.it/il-modello-di-rasch/ […]