Un articolo di Giorgio Israel pubblicato su Il Messaggero del 4 dicembre 2013 seguito da un commento dettagliato di alcuni dei test di matematica proposti.
I risultati del sondaggio Ocse per quel che concerne la scuola italiana possono essere così riassunti: l’Italia si colloca ancora al disotto della media dei 65 paesi esaminati, in matematica, in lettura e in scienze, ma è uno dei paesi che ha registrato i maggiori progressi soprattutto in matematica e in scienze. Il quadro mostra risultati deludenti per le regioni meridionali mentre, in alcune zone del nord-est, gli studenti sono secondi solo a quelli del Lichtenstein.
Le reazioni diffuse sono di gradita sorpresa, perché altri sondaggi recenti facevano temere il peggio. Si moltiplicano i tentativi di spiegazione ma non è affatto chiaro che cosa abbia determinato questa inversione di tendenza e quale ne sia l’autentico significato.
V’è difatti qualcosa di negativo in questo rito statistico che si ripete periodicamente e il cui effetto principale sembra essere l’anestesia dello spirito critico: piovono tabelle, grafici, istogrammi e milioni di numeri che vengono confusi con la “realtà” dimenticando non solo di interpretarli ma che la cosa più interessante di tutte è chiedersi attraverso quali strumenti (quiz, questionari) si è pervenuti a questi risultati. Stiamo adattandoci a prendere tutto per buono e a trarre conclusioni affrettate. L’attendibilità dei sondaggi Ocse-Pisa è stata già messa in discussione, per esempio dai sociologi Jörg Blasius e Victor Thiessen, che hanno messo in luce l’influsso di questionari compilati dai dirigenti scolastici in modi che apparivano confezionati in modo troppo meccanico per essere attendibili. Ma si dovrebbe andare a fondo su questioni di sostanza.
Il sondaggio Ocse-Pisa colloca i paesi sopra o sotto un livello medio che risulta dalle loro prestazioni. Queste sono l’esito di test uguali per tutti. Ciò è discutibile: la cultura universale condivisa è un sogno magnifico, ma niente più, perché le differenze nazionali esistono, eccome, ed è difficile pensare a un test che valuti sulla medesima scala uno studente cinese e uno spagnolo senza appiattire in modo indebito le loro diversità culturali e di formazione didattica. Questo può essere fatto soltanto stabilendo per decreto che cosa sia una competenza matematica, di lettura o di scienze: il che è un appiattimento poiché – malgrado la globalizzazione – neppure il modo di pensare la matematica è uguale in ogni parte del mondo. Quindi, la cosa più interessante è esplorare la concezione che ha ispirato il sondaggio Ocse e da cui derivano i test proposti. Questo è l’aspetto più oscuro della faccenda, nascosto dal diluvio dei dati.
Tuttavia, il sito Ocse offre esempi di alcuni test usati, in particolare per la matematica. La loro presentazione, redatta in fumoso gergo di stile didattico-burocratico, rivela una concezione rispettabile ma altrettanto discutibile della matematica, identificata semplicisticamente con il pensiero quantitativo-numerico.
È poi interessante fare i test. Uno di essi chiede di calcolare il numero di persone che entreranno in un edificio attraverso una porta rotante a velocità e capienza date, in un certo tempo. Ho indicato a colpo e per intuizione il valore più alto tra i 4 proposti. Ma la domanda voleva essere un test della capacità di mettere in gioco abilità nel modellizzare situazioni concrete. Uno studente che avesse correttamente seguito la via di costruire un modello avrebbe impiegato molto più tempo di me, forse troppo per dare la risposta; pur mostrando migliore competenza di chi ha indovinato “a naso”. A meno che non si voglia commettere l’errore capitale di premiare la velocità. Senza contare che un problema matematico non ha una sola via di soluzione: la scelta tra le tante possibili è un indizio delle capacità dello studente. Ma questo non risulta da un test a crocette.
Un altro modello più difficile mirava a mettere in gioco l’abilità di modellizzare situazioni complesse: dalla descrizione delle caratteristiche di un percorso di ascensione al Monte Fuji lo studente doveva desumere il tempo limite per tornare al punto di partenza entro le 8 di sera. Anche qui si chiedeva di rispondere con una cifra, mentre sarebbe stato assai più interessare valutare l’approccio seguito, indipendentemente da un eventuale errore numerico. Ebbene, l’Italia si è attestata su un mediocre 10% di risposte esatte, davanti al misero 9% di paesi scientificamente avanzati come USA e Israele, appena dietro il 13% francese: tutti – inclusa la Germania (18%) – stracciati da percentuali asiatiche oscillanti tra il 30% e il 55%. Davvero tutto ciò dice qualcosa di decifrabile? Davvero uno studente tedesco ha capacità tanto minori di tradurre un problema in formule matematiche di uno studente di Singapore? O forse è meno abituato alla messa in opera di algoritmi ad hoc, senza per questo avere minori capacità matematiche? Secondo il rapporto Ocse gli studenti italiani sarebbero più capaci di interpretare risultati matematici che non di formulare matematicamente situazioni concrete. Ma forse la conclusione è affrettata. Una visione più concettuale della matematica (magari maturata con studi altrove trascurati) può essere momentaneamente perdente su un test che verifica l’esito di abilità calcolistiche, e alla lunga vincente anche sul piano applicativo.
Si potrebbe continuare, ma ci sembra che l’unica risposta seria alla domanda se davvero l’Italia sia nella condizione descritta è: su queste basi non è affatto chiaro. L’unica cosa chiara è che dovremmo passare a una fase più matura e adulta del problema della valutazione, affrontando – anche con analisi non numeriche – i molteplici temi che si presentano nel problema del miglioramento dell’istruzione. Fattori complessi come la capacità, l’abilità ecc. hanno una gran quantità di aspetti – culturali, sociali, specificamente nazionali o regionali, psicologici, ecc. – che non si prestano al giochetto fallace da mago dei numeri di appiattirli su una scala unidimensionale. Nessuno può negare l’utilità dei test, a livelli minimali, ma credere che in tal modo si possa rappresentare la realtà mondiale dell’istruzione è regredire a una visione mistica in cui le percentuali assumono valore di per sé senza che neppure ci si chieda da dove nascano.
(Il Messaggero, 4 dicembre 2013)
Esaminiamo di seguito, in dettaglio, alcuni dei test OCSE-PISA di matematica per rendersi conto della loro qualità, del loro significato e per conoscere il significato che viene loro attribuito dall’ente.
Test di livello 3
Il test è un semplice esercizio volto ad accertare la comprensione della rappresentazione dei numeri in forma decimale e del loro ordinamento. La risposta è chiaramente D. L’Italia si è attestata su un dignitoso 51%, davanti al 48% degli USA ma lontano dall’89% di Shangai-Cina.
Ma sentite come viene presentato questo test da Ocse-Pisa:
Livello della domanda
Al livello 3 gli studenti possono eseguire chiaramente le procedure descritte, incluse quelle che descrivono decisioni sequenziali. Possono selezionare e applicare semplici strategie di problem solving. A questo livello gli studenti possono interpretare e usare rappresentazioni basate su differenti fonti d’informazione e ragionare direttamente a partire da esse. Possono sviluppare brevi comunicazioni che riportano le loro interpretazioni, i loro risultati e ragionamenti.
Categoria della domanda
Questo item appartiene alla categoria quantità. La nozione di quantità può essere l’aspetto matematico più pervasivo ed essenziale nell’aver a che fare col nostro mondo e che in esso funziona. Incorpora la quantificazione degli attributi di oggetti, relazioni, situazioni ed entità nel mondo, la comprensione di varie rappresentazioni di queste quantificazioni, e il giudizio delle interpretazioni e degli argomenti basati sulle quantità. Aver a che fare con la quantificazione del mondo comporta la comprensione delle misure, conteggi, grandezze, unità, indicatori, dimensioni relative, e tendenze e patterns numerici. Gli aspetti del ragionamento quantitativo – come il senso del numero, le molteplici rappresentazioni dei numeri, l’eleganza nella computazione, il calcolo mentale, la stima e la valutazione della ragionevolezza dei risultati – sono l’essenza della “literacy” matematica relativa alla quantità.
C’è da strabuzzare gli occhi. Se il redattore ha voluto dar mostra delle sue competenze non è riuscito altro che a esibire la retorica vacua delle persone di scarsa cultura e che nascondono la loro confusione mentale dietro un fraseggiare roboante.
Tutto questo dietro un banale esercizio di ordinamento dei numeri scritti in forma decimale? Ma per favore, non rendiamoci ridicoli…
Passiamo a:
Test di livello 4
La risposta corretta è D. Il livello di difficoltà è maggiore, bisogna fare qualche calcolo e, soprattutto, occorrerebbe – più che indovinare il risultato esatto, che una stima a occhio fa intuire essere D – spiegare il modo con cui si è formalizzato il problema e si è pervenuti alla risposta. L’Italia si è attestata su un modestissimo 27%, ma sempre meglio di USA, Israele o Russia e poco dietro il Regno Unito (30%), sempre lontano dal 76% di Shangai-Cina o dal 62% sud-coreano.
Anche qui merita leggere la ridicola presentazione del quesito. Evitiamo di ripetere quanto detto a proposito del quesito precedente. La “categoria della domanda” ripete la stessa ridicola tiritera della domanda 3. Il livello della questione comporterebbe addirittura il ricorso a modelli di situazioni complesse… e lo studente in grado di rispondere correttamente sarebbe addirittura capace di tutte quelle cose sotto elencate… Retorica di pessimo livello o fantasia senza freni?
Livello della domanda
Al livello 4 gli studenti possono lavorare efficacemente con modelli espliciti di situazioni concrete complesse che possono comportare vincoli o possono richiedere di introdurre ipotesi. Possono selezionare e integrare differenti rappresentazioni, incluse quelle simboliche, legandole direttamente ad aspetti di situazioni del mondo reale. Gli studenti a questo livello possono utilizzare abilità ben sviluppate e ragionare in modo flessibile, con qualche veduta approfondita, in questi contesti. Possono costruire e comunicare spiegazioni e argomenti basati sulle loro interpretazioni, argomenti o azioni.
Categoria della domanda
[Come alla domanda precedente].
Test di livello 5
Non è poi così difficile. Se in discesa Toshi marcia a 3 km all’ora impiegherà 3 ore per fare i 9 km. Se in salita marcia a km 1.5/ora impiegherà il doppio, cioè 6 ore. 9 ore in totale. Quindi, se deve tornare entro le 8 di sera, deve partire entro le 11. Un medio frequentatore di enigmistica – anche digiuno di matematica – impiegherà un minuto o due per risolvere il “problema”, tutto sommato assai più facile del precedente (ma bisognerebbe vedere cosa dice il modello di Rasch quanto alla difficoltà “oggettiva”…). L’esito delle risposte è tutt’altro che esaltante: Germania 18%, Canada 16%, Finlandia 15% – ma come la “grande” Finlandia! – Francia 13%, Italia 10%, Israele e USA 9%, Russia 8%, Brasile 1%. In testa la solita Shangai-Cina col 55%, poi Singapore 40%, Corea 31%. Cosa pensare di questi dati in relazione al test l’ho detto nell’articolo. Coinvolge abilità calcolistiche alla portata di qualsiasi buon enigmista. Chi si metta a cercare di risolverlo con formule non farà in tempo, pur avendo una migliore idea di cosa sia la matematica, o – per meglio dire – ingannato dalla pretesa che questo sia un test di conoscenze e capacità matematiche.
Nel confrontare gli esiti del test 4 e 5 sembra plausibile ritenere che il 4 abbia spinto a dare la risposta “a naso” (che “suona” evidentemente 720) e quindi i risultati siano stati migliori. Invece, il 5 richiedeva per forza di fare un calcolo, e quindi ha prodotto esiti peggiori. (Se è così, come è assai ragionevole, questo rappresenta una confutazione su un caso specifico del modello di Rasch).
Ma la presentazione dei test Ocse-Pisa non manca di proporci la solita retorica che qui raggiunge livelli da operetta. Lo studente capace di risolvere questo test sarebbe un von Neumann in erba e la categoria della domanda s’identifica nientemeno con l’essenza della modellizzazione matematica dell’universo. La domanda apparterebbe alla categoria del cambiamento e delle relazioni. Tutto quello che si descrive sta dietro alla domanda… Rispondere correttamente alla domanda implicherebbe possedere la capacità di modellizzare il cambiamento mediante funzioni ed equazioni appropriate? Ma quali equazioni servono mai per risolvere questo problema? Un testo assolutamente incredibile. Forse l’autore aveva ecceduto nel pasto prima di darsi a cotanta prosa.
Tutto questo lo paghiamo profumatamente come cittadini europei.
Livello della domanda
Al livello 5 gli studenti possono sviluppare e lavorare con modelli di situazioni complesse, identificando vincoli e specificando ipotesi. Possono selezionare, comparare e valutare strategie appropriate di problem solving per trattare problemi complessi relativi a questi modelli. Gli studenti a questo livello possono lavorare strategicamente usando un pensiero ampio e ben sviluppato e abilità di ragionamento, rappresentazioni appropriate correlate, caratterizzazioni simboliche e formali e vedute pertinenti a queste situazioni. Possono riflettere sulle loro azioni e formulare e comunicare le loro interpretazioni e i loro ragionamenti.
Categoria della domanda
Questo item appartiene alla categoria del cambiamento e delle relazioni. I mondi naturali e progettati mostrano una moltitudine di relazioni temporanee e permanenti fra gli oggetti e le circostanze, in cui si verificano cambiamenti entro sistemi di oggetti interrelati o in circostanze in cui gli elementi si influenzano a vicenda. In molti casi questi cambiamenti si verificano nel tempo, e in altri casi i cambiamenti in un oggetto o in una quantità sono correlati ai cambiamenti in un altro. Alcune di queste situazioni comportano cambiamenti discreti; altri cambiamenti continui. Alcune relazioni sono di natura permanente, o invariante. Essere più “literate” circa il cambiamento e le relazioni comporta la comprensione dei tipi fondamentali di cambiamento e il riconoscere quando essi si verificano al fine di far uso di modelli matematici appropriati a descrivere e prevedere il cambiamento. Matematicamente questo significa modellizzare il cambiamento e le relazioni con funzioni appropriate ed equazioni, e creare, interpretare e tradurre le rappresentazioni simboliche e grafiche delle relazioni.
Credo che, in luogo del non più enigmatico Q, una delle fonti indispensabili per discutere sul valore dei test standardizzati – e per capire il senso dell’articolo di Israel – sia questo libro: The death and life of the great American school system how testing and choice are undermining education, di Diane Ravitch (http://www.nytimes.com/2010/05/16/books/review/Wolfe-t.html?_r=0), una collaboratrice “pentita” del programma No Child Left Behind (https://en.wikipedia.org/wiki/No_Child_Left_Behind_Act).
Questo programma si basava sull’assunzione che essere ben istruiti fosse identico a ottenere punteggi alti in test, standardizzati, sulle capacità linguistiche e matematiche di base. Che, quindi, bastasse un test per stabilire quali studenti promuovere e quali no, quali docenti e presidi licenziare e quali no, quali scuole chiudere e quali no.
Le scienze sociali sono riflessive, o, per dirla all’americana, sono soggette alla legge di Campbell: “The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.”
Se i test sono decisivi, si trascura di insegnare tutto quello che non è soggetto a test – la storia, la geografia, l’educazione civica, le scienze naturali, la letteratura – si inventano trucchi per facilitare i test stessi, per evitare l’iscrizione di studenti “problematici” (poveri o stranieri), si dedicano lunghe ore all’arte congetturale di rispondere rapidamente a questionari a risposta multipla, e così via. Si ottengono, così, studenti capaci di ragionare e di orientarsi nel mondo, oppure solo veloci solutori di test?
Quando, nel dialogo “Menone”, Socrate chiede a uno schiavo di indicargli il lato del quadrato di area doppia rispetto a quella di un quadrato dato (http://btfp.sp.unipi.it/dida/menone/ar01s11.html), lo schiavo risponde, sbagliando, che il lato deve essere doppio. Ragionando con Socrate, si rende conto del suo errore e riesce a capire qual è la risposta corretta.
Se gli fosse stato proposto un test a risposta multipla da risolvere in un tempo definito, lo schiavo avrebbe probabilmente scelto un’opzione sbagliata, risultando un cattivo studente e facendo passare Socrate per un cattivo insegnante. Nel “Menone”, però, lo schiavo è l’unico personaggio che conclude un ragionamento, compiendo la transizione dall’errore, attraverso il dubbio, fino alla soluzione.
Un test standardizzato, se non fosse trattato come decisivo, potrebbe dare indicazioni almeno su che cosa gli studenti *non* sanno – lasciando a noi il compito di capire perché non lo sanno. Dipende dalla loro pigrizia personale? Dalla loro famiglia? Dai loro insegnanti? Dal vivere in una società che disconosce il valore del sapere? Dai programmi ministeriali? Da tutto questo insieme?
Trattato come decisivo, riduce l’istruzione a un gioco a quiz: “No Child Left Behind had no vision other than improving test scores in reading and math. It produced mountains of data, not educated citizens. Its advocates then treated that data as evidence of its “success.” It ignored the importance of knowledge. It promoted a cramped, mechanistic, profoundly anti-intellectual definition of education. In the age of NCLB, knowledge was irrelevant.”
Facciamo tesoro – almeno per una volta – dell’esperienza altrui.
Maria Chiara Pievatolo scrive: “una delle fonti indispensabili per discutere sul valore dei test standardizzati – e per capire il senso dell’articolo di Israel – sia questo libro: The death and life of the great American school system how testing and choice are undermining education, di Diane Ravitch”
===
Il testo del 2010 della Ravitch (che quest’anno sullo stesso argomento ha pubblicato Reign of Error) non critica il valore dei test standardizzati, ma ne critica l’utilizzo (spero si apprezzi la differenza).
Questo utilizzo negli USA, secondo Ravitch, è stato finora limitato solo ad alcune materie (inglese, matematica e in alcuni casi scienze) e finalizzato a scopi che vanno al di là della valutazione dell’apprendimento dello studente. La Ravitch ne critica l’utilizzo quando i test da strumento “pedagogico” diventano strumento manageriale per valutare scuole (chiusura) e insegnanti (carriere). Bisogna dire che il contesto di riferimento di Ravitch è molto diverso dal nostro. Negli USA vi sono numerosi e ripetuti momenti di valutazione standardizzata, laddove ciò non è nemmeno lontanamente paragonabile in Italia. Diane Ravitch (né nel libro citato né nel più recente Reign of Error) non sostiene l’abolizione degli esami standardizzati, anzi ritiene necessario il ricorso ai test a un ventaglio più ampio di materie, l’utilizzo anche di essay per quelle materie dove appropriato (pratica peraltro comune nei test standardizzati SAT, ACT e AP, per nominarne alcuni), l’utilizzo di altre dimostrazioni di apprendimento (progetti, video etc), l’integrazione dei risultati dei test con strumenti aggiuntivi (ad esempio, “inspection teams”) per la valutazione della qualità della scuola.
Spero sia chiaro che Ravitch ritiene insufficienti i momenti valutatitivi per quantità e qualità (cioé lei ne vorrebbe di più), mentre da noi il dibattito è incentrato sull’opportunità dell’esistenza stessa di momenti valutativi standardizzati.
Ho trovato abbastanza istruttivi i seguenti articoli internazionali:
in http://www.edwize.org/the-true-story-of-pascale-mauclair si riporta una caso macroscopico di abuso nell’utilizzo dei risultati del test PISA per valutare (peraltro commettendo errori) a posteriori i docenti. E’ così che una maestra (credo che sixth grade corresponda all’ultimo anno delle primary schools, perdonatemi se sbaglio) si è ritrovata additata sulla stampa americana come “La peggior insegnante di New York”… da leggere tutto, magari in congiunzione con la dichiarazione di qualche intellettuale nostrano che vuo legare gli stipendi dei docenti ai risultati dei test Pisa (vi lascio il piacere di scoprire di chi si tratta).
– Questi due articoli
http://zhaolearning.com/2013/12/02/reading-the-pisa-tea-leaves-who-is-responsible-for-finland%E2%80%99s-decline-and-the-asian-magic/
http://thedailyblog.co.nz/2013/12/05/if-pisa-is-the-answer-what-is-the-hell-was-the-question/
(il secondo ha un titolo fantastico) raccontano la difficoltà di comparare ed allargare le “success story” quando le variabili legate ai risultati dei test sono così tante e ciò che misurano così difficili da cogliere.
In linea di principio sarei a favore della esistenza di un momento valutativo standardizzato. Certo che, vedendo l’uso che ne fa la stampa e temendo l’uso che potrebbe farne un domani una classe politica non sempre lucidissima (ah, la nobile arte del sarcasmo…), qualche dubbio sul tipo di diffusione da dare a questi risultati mi resta. Tornando all’origine di questo articolo io spero, spero con tutte le mie forze, che il Ministro dia posti di rilievo nella macchina organizzative del MIUR anche a persone che rilevano le ombre sui test PISA, a persone che alimentano i dubbi. Questo perchè mi sembra già ben rappresentata la parte di chi è pronto a far crociate per un punto in più nei test…
[…] di là dell’annoso dibattito internazionale sulla loro validità metodologica e sull’effettivo apporto conoscitivo garantito dai quesiti, alcuni punti di partenza possono essere le rilevazioni sull’Italia del Programme for […]
[…] https://www.roars.it/un-commento-sui-sondaggi-ocse-pisa/comment-page-1/ […]