Solo il 10% degli studenti sostiene i “reading test” al completo, mentre a metà degli studenti non viene sottoposto nessun quesito sulla lettura. Però, entrano tutti nelle statistiche, simulando le risposte mancanti mediante numeri casuali. Non è una truffa, ma una tecnica che esige l’assoluta correttezza del modello statistico. Un modello che però, come ammesso anche dall’OCSE, non è corretto. “Is Pisa fundamentally flawed?” è il titolo di un articolo apparso lo scorso dicembre sul Times Education Supplement, a pochi giorni di distanza da un documentario trasmesso da BBC Radio 4 sullo stesso argomento. Il dubbio sulla correttezza delle metodologie statistiche è esploso parecchi mesi prima dell’ultima autorevole contestazione dei test PISA. Risale a pochi giorni fa, infatti, una lettera firmata da un’ottantina di accademici da tutto il mondo che mettono in dubbio la validità pedagogica e conoscitiva dei test e denunciano le distorsioni che introducono nei sistemi educativi nazionali. Distorsioni a maggior ragione inaccettabili, se legittimate in nome di numeri statisticamente inaffidabili. Ma quali sono i presunti errori commessi dall’OCSE? Questi errori hanno lasciato qualche indizio facilmente visibile? Cerchiamo di capirlo con l’aiuto di David Spiegelhalter, professore a Cambridge e statistico di fama mondiale.
1. Botta e risposta tra BBC e Financial Times
The Guardian ha da poco pubblicato una la lettera firmata da accademici di tutto il mondo che solleva critiche sostanziali nei confronti della validità pedagogica e conoscitiva dei test OCSE-PISA, come pure delle distorsioni che introducono nei sistemi educativi nazionali.
Nella lettera non è menzionato un altro aspetto dei Test PISA che è stato recentemente messo in discussione, ovvero quello della loro correttezza statistica. I dubbi sulla solidità statistica dei test circolavano da tempo sulla stampa inglese, ma è stato dopo la messa in onda lo scorso novembre di un documentario radiofonico della BBC che è sceso in campo il Financial Times con un commento a difesa dell’OCSE, prontamente e fedelmente riassunto dal Corriere della Sera.
L’articolo di John Kay, pur citando nelle prime righe il documentario della BBC, si limita ad etichettarlo come “an attack on Pisa’s principles and methods“, senza però entrare nel merito delle circostanziate obiezioni statistiche che erano state sollevate in quella sede. Il columnist del FT non sembra aver compreso le criticità metodologiche e tanto meno il loro peso nel determinare il risultato finale dei test.
Piuttosto, fin dal sottotitolo si mettono le mani avanti, ricordando che “academic comparisons are always imperfect“, mentre il titolo stesso evidenzia l’irrilevanza degli argomenti tecnici, se ciò che conta è pendere nella “giusta direzione”. Che la direzione sia quella giusta, tuttavia, è una questione quanto meno controversa, alla luce della già citata lettera firmata da un’ottantina di docenti universitari di tutto il mondo (I test OCSE-Pisa danneggiano l’istruzione a livello mondiale? Un appello firmato da docenti universitari di tutto il mondo). Da parte nostra, vorremmo anche chiarirci le idee sulle questioni tecniche eluse dal FT. Per farlo, conviene cominciare dall’inizio.
2. Le risposte mancanti sono riempite con numeri casuali
Il punto di partenza sono stati alcuni studi che mettevano in dubbio la solidità dei test OCSE (qui e qui due articoli su riviste peer-reviewed). Chi volesse farsi un’idea del dibattito scientifico può consultare un lungo e dettagliato articolo pubblicato sul Times Educational Supplement, che cerca di rispondere alla domanda cruciale: Is Pisa fundamentally flawed?
Un quesito talmente importante da divenire oggetto di un documentario di BBC Radio 4 (PISA – Global Education Tables Tested, 25.11.2013), nel corso del quale uno statistico di fama mondiale, David Spiegelhalter, professore a Cambridge, sottoscrive la denuncia del collega danese Svend Kreiner, secondo il quale i test PISA poggiano su un “flawed model” (modello errato). Sebbene la trasmissione non sia più ascoltabile online, è comunque disponibile un articolo pubblicato sul BBC News Magazine: How accurate is the Pisa test?
A pochi giorni di distanza dalla trasmissione, Spiegelhalter ritorna sull’argomento in un articolo pubblicato sul blog della Royal Statistical Society (The problems with PISA statistical methods), in cui riassume per punti i problemi metodologici che gravano sui test PISA:
Individual students only answer a minority of questions
Multiple ‘plausible values’ are then generated for all students assuming a particular statistical model, essentially estimating what might have happened if the student had answered all the questions.
These ‘plausible values’ are then treated as if they are the results of surveys with complete data on all students. They then form the basis of national scores (and their uncertainties) and hence rankings in league tables.
The statistical model used to generate the ‘plausible scores’ is demonstrably inadequate.
This means the variability in the plausible scores is underestimated, which in turn means the uncertainty in the national scores is underestimated. Hence the rankings are even less reliable than claimed.
È difficile non rimanere stupiti quando si viene a sapere che gli studenti rispondono solo ad una minoranza delle domande e che le risposte mancanti vengono riempite con numeri casuali (‘plausible values’):
… roughly half of the student participating in the PISA 2006 survey did not respond to any reading items. In spite of this, all students were assigned reading scores (so-called plausible values). Exactly how these scores were calculated is one of the unanswered questions, but the brief discussion of plausible values in Chapter 9 of OECD (2006) suggests that they may be random numbers drawn from the conditional distribution of the latent reading ability given scores on math and science items and a number of person covariates.
Spiegelhalter non si scandalizza per il ricorso all’uso di numeri casuali al posto delle risposte, ma mette in chiaro sotto quale condizione tale tecnica sia accettabile:
Analysis using imputed (‘plausible’) data is not inherently unsound, provided (as PISA do) the extra sampling error is taken into account. But the vital issue is that the adjustment for imputation is only valid if the model used to generate the plausible values can be considered ‘true’.
Condizione che, secondo Spiegelhalter, non è soddisfatta, dato che il modello usato per le “imputazioni” è “demonstrably inadequate.”.
Ma quali sono le conseguenze sull’affidabilità dei ranking PISA? Secondo i calcoli di Kreiner, l’incertezza è tale che la posizione del Regno Unito nel “Reading Test” 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quella del Canada tra 2 e 25 e quella del Giappone tra 8 e 40. “The best we can say about Pisa rankings is that they are useless” dice Kreiner.
Per quanto riguarda Spiegelhalter, questo è il suo giudizio finale sulla correttezza statistica del metodo usato dall’OCSE (il grassetto è nostro):
Svend Kreiner has calculated that in 2006, about half did not answer any reading questions at all, while ‘another 40 per cent of participating students were tested on just 14 of the 28 reading questions used in the assessment. So only approximately 10 per cent of the students who took part in PISA were tested on all 28 reading questions.
Multiple ‘plausible values’ are then generated for all students assuming a particular statistical model, essentially estimating what might have happened if the student had answered all the questions. […]
The crucial issue, in my view, is that since these ‘plausible values’ are generated from an over-simplified model, they will not represent plausible values as if the student really had answered all the questions. Kreiner says: ‘The effect of using plausible values generated by a flawed model is unknown.’
Quello che segue è un estratto della replica di Ray Adams, capo dell’OECD analysis team:
The sample sizes in PISA are such that the fit of any scaling model, particularly a simple model like the Rasch model, will be rejected. PISA has taken the view that it is unreasonable to adopt a slavish devotion to tests of statistical significance concerning fit to a scaling model.
In sostanza, Adams ammette che, secondo i criteri statistici comunemente adottati, il modello di Rasch utilizzato dall’OCSE è da giudicarsi falso (“rejected‘). Ma questo non importa, perché gli esperti PISA ritengono irragionevole inchinarsi devotamente ai comuni criteri scientifici di significatività statistica. I comuni standard scientifici sono opzionali per chi pende “in the right direction”?
Sostenere che, in presenza di campioni numerosi, un modello, purché semplice, è utilizzabile, anche quando risulta contraddetto dall’evidenza sperimentale, fornirebbe una scorciatoia fin troppo comoda a chi volesse risparmiarsi la fatica di dimostrare la validità delle proprie ipotesi statistiche. Se adottassimo questo criterio, basterebbe raccogliere abbastanza dati per entrare in una zona franca in cui viene sdoganato qualsiasi modello, anche il più sgangherato e antiscientifico. Come scrive Kreiner:
We do not accept this point of view, because it implies that we should always collect a lot of data to avoid the trouble of testing and correcting statistical models.
Inutile dire che la replica di Adams non ha convinto Kreiner e Speigelhalter, che sono rimasti sulle loro posizioni.
3. Imparare dai risultati PISA? Meglio il Totocalcio
Ma chi non è un’esperto di statistica deve per forza rimettersi al parere di qualche luminare? È solo la parola di Spiegelhalter e Kreiner contro quella degli esperti OCSE-PISA? Possibile che non esista un argomento comprensibile anche ad un pubblico più vasto?
In realtà, l’argomento esiste. Anche se non è conclusivo, ha il pregio di essere visualizzabile con un semplice colpo d’occhio.
Infatti, David Spiegelhalter, da statistico smaliziato, ha notato un indizio, facile da vedere e da spiegare, che suggerisce la presenza di una significativa componente casuale nei risultati OCSE-PISA.
In un altro suo articolo, intitolato Why learning lessons from PISA is as hard as predicting who will win a football match, Spiegelhalter mostra la seguente figura, tratta dal PISA Summary report. Nel grafico sono messi a confronto i risultati dei test di matematica PISA-2012 con quelli PISA-2003.
Il grafico è diviso in quattro quadranti. A sinistra ci sono i “perdenti” del 2003 [PISA 2003 performance below OECD average] e a destra i “vincenti”, sempre del 2003 [PISA 2003 performance below OECD average]. Nella zona alta ci sono i “buoni”, ovvero le nazioni nel 2012 hanno migliorato i loro punteggi rispetto al 2003 [performance improved], e in quella bassa i “cattivi”, ovvero le nazioni che hanno perso punti [performance deteriorated]. Notiamo fin d’ora una maggiore densità di nazioni nei due quadranti bianchi. Incidentalmente, l’Italia è tra le nazioni che migliorano di più, ma, come vedremo tra un attimo, non è detto che sia vera gloria.
Si tratta del tipico risultato che scatena i più vari commenti, da quelli autocelebrativi di chi ha guadagnato terreno, fino ai severi sermoni che chiedono radicali riforme scolastiche per le nazioni che hanno fatto un passo indietro. Vediamo, invece, cosa ha colpito lo sguardo di Spiegelhalter:
… it is clear that those who did well in 2003 [le nazioni “above average” che stanno a destra] tended to go down (apart from the star Asian contenders), while those that did badly in 2003 [le nazioni “below average” che stanno a sinistra] tended to go up (correlation is -0.6). This is exactly the pattern expected when much of the influence on the ranking is due to random variation, and is known as ‘regression-to-the-mean’, which reinforces my feeling that the precision of the estimates is not as great as claimed. When this pattern is observed, one should be very cautious about ascribing reasons for changes. While, with hindsight, any pundit can construct a reason why a football team lost a match, it’s not so easy to say what will make them win the next one.
Why learning lessons from PISA is as hard as predicting who will win a football match
In altre parole, se i risultati hanno una forte componente casuale, quando si replica l’esperimento, per chi era finito casualmente sopra la media è più probabile peggiorare il proprio punteggio e, viceversa, ha maggiori probabilità di migliorare chi era finito sotto la media.
È un po’ come lanciare un dado due volte. Se il primo lancio ha dato “5”, con il secondo lancio è più probabile scendere che salire.
Che i punti nel grafico presentino proprio questa caratteristica non è un argomento conclusivo, ma di sicuro non depone a favore dell’affidabilità dei test. A maggior ragione, se le analisi degli esperti e le stesse ammissioni dell’OCSE ci dicono che la generazione dei dati (solo in parte frutto delle risposte dei gli studenti e in buona parte ottenuti mediante estrazioni casuali) poggia su un modello statistico smentito dall’evidenza sperimentale.
La conclusione di Spiegelhalter non è del tutto negativa, ma le sue raccomandazioni distano anni luce dal feticismo numerologico che caratterizza buona parte del dibattito pubblico sulla valutazione quantitativa dei sistemi educativi:
In summary, PISA is a very valuable resource and has a huge amount to offer educational research. But my personal feeling is that PISA is over-confident in their conclusions and there may be some cherry-picking of evidence, particularly of reasons for changes. While international comparisons can inspire fine aspirations, policies should not be imported wholesale without careful testing in the home environment.
La critica più pungente riguarda l’uso strumentale delle classifiche e delle loro variazioni per somministrare ricette, senza che ci sia evidenza, non solo della bontà delle cure, ma persino della correttezza delle diagnosi, basate su numeri molto più inaffidabili di quanto l’OCSE voglia far credere ai media e ai decisori politici.
P.S. Il modello di Rasch, la cui validità è messa in dubbio per i test OCSE-PISA, è la colonna portante anche dei test INVALSI italiani. Che la sua validità non possa essere data per scontata è questione sollevata da tempo da Giorgio Israel. Una questione che meriterebbe un approfondimento anche alla luce di analisi recenti, secondo le quali le ipotesi di applicabilità del modello di Rasch risulterebbero “strongly rejected” per i test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., Joint Assessment of the Differential Item Functioning and Latent Trait Dimensionality of Students’ National Tests, submitted).
[…] parte da David Spiegelhalter, un docente di Cambridge, che ha criticato, insieme ad altri colleghi, il metodo utiizzato per il […]
[…] parte da David Spiegelhalter, un docente di Cambridge, che ha criticato, insieme ad altri colleghi, il metodo utiizzato per il […]
Caro Giuseppe, ho letto con interesse l’articolo, e mi sembra questione molto importante (e quasi incredibile). Ma volevo rilevare due punti metodologici, e forse un po’ esoterici, in cui la tua “licenza poetica” nella traduzione modifica un po’ il senso delle cose. E secondo me è importante tenersi stretti alla precisione:
1) plausible values tradotto come numeri casuali. Plausible vuol dire, appunto plausibile: verosimile. I numeri verosimili sono quelli “simili al vero”; si prende un modello, e si aggiunge un po’ di errore, questo sì casuale. Il risultato somiglia ai numeri “veri” se il modello è giusto. E questo è il punto correttamente delicato. Lo so che le sai, queste cose, le ho scritte per i pochi altri lettori arrivati fin qui. “Valori verosimili” poteva essere la traduzione.
2) il modello di Rash non so cosa sia, ma se è inappropriato e si vede, ok. Tuttavia se è “rejected” non vuol dire “falso”, che può essere inteso come “fraudolento”, o “falsificato” in senso epistemologico, ma vuol dire che non possiamo affermare che sia vera l’ipotesi alternativa all’ipotesi nulla che non sia applicabile… Frase impossibile da seguire, sono in difficoltà anch’io che l’ho scritta, ma forse una traduzione migliore sarebbe “da rifiutare”, “bocciato” o “respinto”.
Grazie del commento e anche dei due rilievi puntuali. Indubbiamente, ero conscio della difficoltà di rendere accessibile al maggior numero possibile di lettori una querelle che ha dei contorni tecnici non banali. Qualche compromesso può essere stato necessario, ma credo di averlo mantenuto entro termini del tutto ragionevoli. In particolare, provo a rispondere nel merito ai due punti sollevati:
==============
1. Il riferimento ai numeri casuali deriva direttamente dalla risposta che l’OCSE ha dato al Times Education Supplement (da me citato come sede di un’estesa disamina delle questioni tecniche):
______________
“In short, the test questions used vary between students and between countries participating in exactly the same Pisa assessment.
The OECD offered TES the following explanation for this seemingly unlikely scenario: “It is important to recognise that Pisa is a system-level assessment and the test design is created with that goal in mind. The Pisa assessment does not generate scores for individuals but instead calculates plausible values for each student in order to provide system aggregates.”
It then referred to an explanation in a Pisa technical report, which notes: “It is very important to recognise that plausible values are not test scores and should not be treated as such. They are random numbers drawn from the distribution of scores that could be reasonably assigned to each individual.” In other words, a large portion of the Pisa rankings is not based on actual student performance at all, but on “random numbers”.”
http://www.tes.co.uk/article.aspx?storycode=6344672
==============
2. Ero anch’io consapevole della difficoltà di tradurre “rejected” per l’uomo della strada. Ho usato una sola volta il termine “falso” mettendo subito dopo tra parentesi “rejected”. L’ho fatto sia per ragioni di comprensibilità sia alla luce di due commenti di Spiegelhalter e Kreiner:
______________
the adjustment for imputation is only valid if the model used to generate the plausible values can be considered ‘true’.
______________
Kreiner says: ‘The effect of using plausible values generated by a flawed model is unknown.’
http://www.tes.co.uk/article.aspx?storycode=6344672
______________
Insomma, il modello non può essere considerato vero (“demonstrably inadequate” per Spiegelhalter) e per Kreiner è “flawed”, termine grosso modo traducibile come “errato”. Nell’articolo di Kreiner su Psychometrika, il modello viene “rejected” per tutte le nazioni tranne il Lichtenstein. Inoltre, nella quasi totalità dei casi i “p-values” sono inferiori a 10^-4. Se fosse in gioco una legge della fisica, mi verrebbe da dire che è stata “falsificata” dall’esperimento (nel senso di Popper).
______________
In conclusione, se anche mi sono preso una licenza linguistica, questa licenza aveva le sue motivazioni e il lettore era avvisato (termine in inglese tra parentesi), oltre che avere accesso diretto a tutte le fonti per farsi un’idea autonoma.
Oh, beh, mi inchino all’approfondimento. Se poi si danno da sè la zappa sui piedi, parlando di numeri casuali…
Forse abbiamo avuto troppi casi in Italia in stile “Le iene”, che è fondamentalmente fare spettacolo ed intrattenimento ridicolizzando qualcuno, nel giusto o nello sbagliato non importa, tanto da far preoccupare della possibile percezione dei lettori.
Mi sembra importante che i difetti (flaws) di un metodo siano dimostrati, e questo può essere ben fatto solo se chi lo fa a) ha competenza b) ha accesso ai dati di partenza. Il punto b) non sempre è possibile, ma al punto a) spesso non viene dato abbastanza rilievo. Non è il caso in questione, naturalmente…
:-)
[…] è partito da David Spiegelhalter, un docente di Cambridge, che ha criticato, insieme ad altri colleghi, il metodo utiizzato per il […]
[…] è partito da David Spiegelhalter, un docente di Cambridge, che ha criticato, insieme ad altri colleghi, il metodo utiizzato per il […]
[…] fa, un analogo problema di solidità scientifica, riferito però ai test OCSE-PISA, era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici di David Spiegelhalter, il quale, oltre ad […]
[…] di là dell’annoso dibattito internazionale sulla loro validità metodologica e sull’effettivo apporto conoscitivo garantito dai quesiti, alcuni punti di partenza possono […]
[…] _ Test PISA: https://www.roars.it/fondamentalmente-errati-i-dubbi-della-bbc-sui-test-ocse-pisa/. […]
[…] citati in modo errato (non è una novità). Dall’altro, la loro affidabilità scientifica è controversa. Secondo David Spiegelhalter, noto e apprezzato Professore di Statistica a Cambridge, […]