Lo scorso 31 luglio avevamo pubblicato un articolo di Enrico Rogora che descriveva e spiegava i limiti del modello di Rasch, il quale, scientificamene parlando, dovrebbe costituire la pietra angolare dei test INVALSI. Di seguito pubblichiamo un’articolata riflessione sull’argomento, a firma di Renato Miceli,  il quale, a partire dall’articolo di Rogora e dalla sua nota introduttiva di De Nicolao, entra nel merito di diversi aspetti tecnici, pratici ed anche epistemologici relativi alle misure psicometriche.

Qualche considerazione e una proposta

Ultimamente sono apparse alcune riflessioni sui test di apprendimento (da alcuni anni forzosamente introdotti nella scuola italiana), orientate al superamento di semplicistiche posizioni pro o contro e, contemporaneamente, capaci di far uscire le conoscenze sull’argomento dall’angusto ambito degli “addetti ai lavori”. Mi riferisco, in particolare, al recente (31/07/2014) articolo di Enrico Rogora e alla nota introduttiva di Giuseppe De Nicolao[1] sulla cui scia intendo collocare questo mio contributo, concordando però con questi autori più sulle intenzioni che nel merito. Provo a chiarire.

A proposito di INVALSI

Volendo (dovendo) porre in discussione l’operato di INVALSI (Istituto Nazionale per la Valutazione del Sistema educativo di Istruzione e di formazione), è del tutto superfluo avventurarsi in impervie argomentazioni sul concetto di “misura” nella scienza, così come sul cosiddetto “modello di Rasch”, per un motivo alquanto semplice: INVALSI non usa il modello di Rasch!

La produzione di “dati” (desunti da test di profitto) da parte di INVALSI è molto ampia e, naturalmente, non ho la pretesa di conoscere tutto quanto prodotto da tale Istituto; ho però avuto modo di operare sui “dati grezzi” (ovvero le singole risposte alle domande così come fornite da ciascun alunno, che INVALSI stesso rende disponibili, anche se con un ritardo temporale di circa un anno) relativi alla “Matematica” della “Prova nazionale al termine della scuola secondaria di primo grado” (per intenderci, i test di matematica somministrati all’esame di terza media) degli anni scolastici che vanno dal 2007-‘08 al 2011-‘12. Ebbene, può sembrare strano (dato che il modello di Rasch è effettivamente spesso evocato da parte di INVALSI), ma i risultati pubblicati, in particolare quelli che riguardano l’”abilità” degli studenti (almeno fino all’a.s. 2010-’11) sono percentuali di risposte corrette; ovvero, non corrispondono alle stime né del modello di Rasch, né di un qualsiasi altro modello della ‘famiglia’ IRT (Item Response Theory)[2], di cui il più elementare modello per risposte dicotomiche (o modello base), a suo tempo proposto – insieme ad altri modelli – da Rasch (1960)[3], è generalmente considerato il capostipite.

Solo nel rapporto relativo all’a.s. 2011-’12, INVALSI ha comunicato che <<… a partire dal presente rapporto, i risultati delle prove sono riportati su una scala di punteggio analoga a quella utilizzata nelle ricerche internazionali … e non più in termini di percentuali di risposte corrette. La predetta scala si basa sui punteggi di Rasch… [e che] … nella scala qui adoperata il valore medio nazionale è posto pari a 200 e la deviazione standard a 40>>[4].

Purtroppo, per farmi pienamente intendere su questo punto (ovvero sul fatto che INVALSI non usa il modello di Rasch), sarebbe necessario entrare in dettagli tecnici non adeguati in questa sede[5]; penso però che tutti possano comprendere che per poter sostenere che: “faccio riferimento ai punteggi di Rasch”, non è sufficiente comunicare che si è stati capaci di pigiare i tasti del computer per ottenere dei parametri stimati; piuttosto è indispensabile riferire, intanto “quale” modello (visto l’alto numero di modelli di misurazione che possono fornire i cosiddetti “punteggi di Rasch”), e poi “come” quel modello ha funzionato (quanto meno se si è potuto osservare un buon adattamento fra modello e dati, o se le cose sono andate diversamente). Naturalmente non è necessario che tali informazioni compaiano in tutte le pubblicazioni, ma almeno in un qualche “Rapporto tecnico” o in una qualche “Appendice”, sì; di cui però non pare vi sia traccia. Ecco il motivo per cui, anche negli anni più recenti e per quanto mi riguarda con una punta di provocazione, continuo a sostenere che INVALSI non usa il modello di Rasch.

In questo senso concordo con la constatazione di Giuseppe De Nicolao che per la quasi totalità dell’opinione pubblica l’elaborazione dei risultati dei test standardizzati è una “scatola nera”; ovvero lo è per forza di cose e davvero per tutti (anche per chi se ne intende), se le informazioni fornite sono reticenti o mancano del tutto.

Forse bisogna attendere con pazienza che tutto si chiarisca, oppure si può compiere un atto di fede nei confronti di INVALSI e prendere per buoni i risultati che fornisce. Alcuni indizi, tuttavia, suggeriscono la scelta opposta; ovvero è preferibile usare molta cautela – per non dire diffidenza – nel considerare i risultati resi pubblici da INVALSI (e ciò indipendentemente dall’essere favorevoli o contrari all’uso dei test nella scuola, dall’approccio metodologico seguito o dal modello matematico-statistico di misurazione effettivamente utilizzato e dagli esiti che questo può aver fornito).

Senza pretesa di esaustività segnalo solo due indizi che, a mio parere, sollevano molte perplessità e che rendono sostanzialmente inservibili i risultati così come forniti da INVALSI.

1) Ogni processo di misurazione (in qualunque ambito compiuto, per intenderci anche l’uso del termometro per la temperatura o del metro per le lunghezze) produce inevitabilmente un qualche errore di misura di una certa dimensione (che, a seconda delle situazioni, può anche essere ritenuto – ragionevolmente – tollerabile). Tale errore viene comunemente etichettato con l’acronimo di SEM (Standard Error of Measurement) ed è in stretta relazione con la cosiddetta attendibilità della misura effettuata (maggiore il SEM, minore l’attendibilità). Tralasciando in questa sede i dettagli, si può intuitivamente comprendere che, quando lo strumento di misura è composto da domande (come nei test di apprendimento), l’errore di misura – relativo alla stima della prestazione dello studente – diminuisce al crescere del numero delle domande. Ora, i test INVALSI che conosco meglio sono composti da meno di 40 domande (fra 21 e 38 nei vari anni) e, con tali numerosità è lecito attendersi errori di misura piuttosto ampi o, il che è lo stesso, una bassa attendibilità delle misure stimate[6]. Una bassa attendibilità delle misure relative ai singoli studenti è certamente inadeguata in test che – come nei casi qui considerati – entrano a far parte della valutazione e dell’esito stesso dell’esame. Invece più accettabile, anche se non privo di aspetti controversi e discutibili, può essere un utilizzo di tali misure a livello aggregato (classi, scuole, regioni, aree geografiche), quando l’interesse è rivolto a fornire indicazioni per i decisori in merito alle politiche dell’istruzione.

Tuttavia, dell’entità di tale errore (SEM) non pare esserci alcun segnale nelle pubblicazioni INVALSI.

Naturalmente non bisogna confondere l’errore di misura (SEM) con l’errore di stima (SEE, Standard Error of Estimate). Quest’ultimo riguarda l’errore che si compie quando, si stima un parametro della popolazione (per esempio la percentuale media di risposte corrette sul totale delle domande poste) utilizzando un campione di osservazioni (invece di tutte le osservazioni sulla popolazione di riferimento). INVALSI preferisce, per le sue analisi, utilizzare un campione di osservazioni (anche se ha a disposizione i dati della popolazione di riferimento); conseguentemente l’errore di stima (SEE) viene effettivamente riportato ed è sempre decisamente contenuto, dato che il campione utilizzato è del tutto adeguato. Si tratta, però, di un’altra informazione, diversa dall’errore di misura.

2) Facendo ora esclusivo riferimento ai risultati dei test inseriti nell’esame di terza media, INVALSI comunica che <<come già evidenziato negli anni passati, in alcune regioni del Mezzogiorno (Molise, Campania, Calabria e Sicilia) e in parte anche del Centro (Lazio) si sono riscontrate indicazioni statisticamente significative di comportamenti opportunistici, tanto da rendere necessaria l’operazione di pulizia dei dati, così come attuata nelle edizioni 2008-09, 2009-10 e 2010-11>>[7]. La presenza di comportamenti opportunistici (in inglese cheating), posti in essere dagli allievi e/o dagli insegnanti, nei test di apprendimento scolastici, è un problema presente in tutto il mondo (non solo in Italia), ampiamente riportato e studiato da parte di tutti gli esperti che – a vario titolo – si occupano di test di apprendimento, perché rappresenta una grave fonte di distorsione dei risultati. Come documentato dagli innumerevoli studi sull’argomento (prevalentemente stranieri), si tratta di una questione di difficile soluzione e innumerevoli sono i metodi proposti per tentare di porvi rimedio.

Si può forse sostenere che il metodo di “pulizia” dei dati (per contrastare il fenomeno del cheating) utilizzato da INVALSI[8] è eterodosso, ma non è certo questo a sollevare allarme. In estrema sintesi il metodo che – per INVALSI – si prefigge di definire il grado di “anomalia”, dovuto alla presenza di comportamenti opportunistici, può essere articolato in tre fasi: (I) calcolo di 4 indicatori del fenomeno, a livello aggregato, per ciascuna classe scolastica; (II) sintesi dei 4 indicatori (tramite un’Analisi in Componenti Principali) e attribuzione, a ciascuna classe scolastica, di un ‘coefficiente di cheating’ capace di esprimere la vicinanza di ciascuna classe al profilo anomalo (tramite una procedura di “Fuzzy Clustering”); (III) correzione dei punteggi individuali sulla base dei coefficienti di classe stimati in precedenza.

Ciò che desta forte perplessità nel metodo adottato da INVALSI – anzi che è del tutto inaccettabile – è la “fase III”; ovvero la modifica del punteggio conseguito individualmente da un alunno in funzione di un coefficiente che esprime la presunta anomalia della classe scolastica cui l’alunno appartiene. Ammettiamo, per semplicità (ma probabilmente è proprio così, perché le fasi I e II sembrano inappuntabili) che i ‘coefficienti di cheating’ attribuiti a ciascuna classe siano una fedele fotografia della realtà. Il solito Pierino che studia diligentemente in una classe individuata come ‘anomala’ si vedrà decurtato il suo elevato punteggio ottenuto al test; conseguentemente un altro studente, meno diligente del primo, ma che frequenta una scolaresca più disciplinata, si troverà con un punteggio al test maggiore (l’effetto premiale, nel secondo caso, è relativo ed è presente anche se non si applica alcuna correzione positiva dei punteggi; è sufficiente punire coloro che hanno la sfortuna di frequentare una classe che presenta comportamenti ‘anomali’). La disavventura del nostro Pierino (come dei tanti Pierini d’Italia) potrebbe anche essere sopportabile (in fondo che importa qualche punto in più o in meno ad un test), se non fosse che i punteggi individuali così “corretti” da INVALSI vengono poi aggregati per calcolare valori medi a livello di classe o scuola, ma soprattutto a livello territoriale (regioni e aree territoriali). In questo caso la faccenda diventa – se possibile – ancora più grave. E’ risaputo, ce lo ricorda INVALSI stesso, che il fenomeno dei comportamenti opportunistici non è distribuito uniformemente su tutto il territorio nazionale, ma vi sono aree o regioni in cui esso è maggiormente presente. Penso si possa concordare sul fatto che il ‘coefficiente di cheating’, stimato da INVALSI per le diverse classi scolastiche italiane, corrisponda ad una sorta di indicatore del ‘senso civico’ di quelle classi e, aggregando, delle aree territoriali in cui quelle classi sono dislocate. Pertanto, operando la sua “pulizia dei dati”, INVALSI ci ha consegnato dei risultati (almeno a livello territorialmente aggregato) che si riferiscono ad un fenomeno del tutto nuovo, che – ahimè – non sappiamo definire; non si tratta più dell’abilità matematica degli studenti, perché questa è stata inquinata (ammesso e non concesso che fosse mai stata “pura”) da un elemento estraneo: il civismo; non è il civismo tout court perché in esso vi sono aspetti che riguardano le competenze in matematica, in italiano o in quel che il test intendeva misurare. Insomma l’operazione compiuta da INVALSI è l’opposto di quanto si tenta di ottenere con le procedure scientifiche di analisi dei dati; invece di fare ogni sforzo per separare, depurare o enucleare i fenomeni, si è proceduto ad un loro innaturale e confusivo connubio.

Il modello di Rasch

In generale l’articolo di Rogora (intitolato: “Il modello di Rasch”) presenta spunti di riflessione interessanti, anche se pochi sono gli aspetti su cui concordo. Nel seguito, mi limito a qualche considerazione su specifici punti, senza alcun intento polemico o conclusivo; anzi ritenendo importante procedere ad un allargamento e approfondimento del dibattito anche in altre forme e sedi.

– Misure indirette e comparabilità fra misure psicometriche e misure fisiche

L’argomento e quindi la domanda intorno alla quale Rogora fa ruotare le sue riflessioni mi pare mal posta, o meglio: sbagliata. L’accento viene posto sul fatto che le misure psicometriche sono “indirette” mentre quelle della fisica no. L’attributo “indirette” può essere inteso in due accezioni[9]: (a) ciò che si osserva (direttamente) è eminentemente qualitativo (per es. la risposta alla domanda è: “giusta” o “errata”); (b) non è possibile applicare fisicamente (direttamente) l’unità di misura (per es.: il “metro”) all’oggetto da misurare e/o le variazioni di stato di un elemento non sono percepite (direttamente) dai nostri sensi.

Per obiettare alla prima accezione in modo rapido sfrutto la seguente citazione: <<L’idea che le osservazioni scientifiche siano originariamente quantitative è un’illusione prodotta dalla familiarità con i modelli di misurazione su cui è fondato il successo delle scienze naturali. Anche in fisica, le osservazioni iniziali sono qualitative. E’ il modello di misurazione applicato alle osservazioni che fornisce e garantisce la quantificazione>>[10].

Per quanto riguarda la seconda accezione invito a riflettere (senza scomodare la meccanica quantistica e la sua ridefinizione del concetto di misura) su alcune operazioni come, per esempio, misurare la circonferenza dell’equatore terrestre; mi pare che una misura di lunghezza come questa non possa essere in alcun modo “diretta”[11]. Inoltre è bene ricordare che quando osserviamo le variazioni di uno strumento di misura molto comune, come per esempio un termometro, noi non osserviamo direttamente le variazioni della temperatura, ma appunto – indirettamente – osserviamo le variazioni di una certa sostanza (per es.: il mercurio) posta in certe condizioni (per es.: in un’ampolla di vetro) e che è solo per ragioni teoriche – fondate fin che si vuole – che poniamo in relazione le variazioni osservate della sostanza con quelle del fenomeno che ci interessa: la temperatura.

– Oggettività specifica

Si può concordare sul fatto che quella di definire la principale proprietà del modello base di Rasch con la locuzione “oggettività specifica” non sia stata una scelta felice. Mi pare che lo stesso Rasch se ne sia reso conto. Tuttavia non si può imputare ad uno, la faciloneria degli altri. Né si deve, a mio avviso, prendere questo fatto a pretesto per incrementare la confusione[12]. La definizione della proprietà del modello detta “oggettività specifica” può essere declinata in diversi modi; forse il modo più sintetico è quello di dire che le stime così ottenute sono statisticamente indipendenti sia dallo specifico insieme di individui (che ha risposto al test), sia dallo specifico insieme di domande (item) utilizzato per elicitare quelle risposte (in inglese, massima sintesi: “person free – item free”)[13]. Piuttosto è importante segnalare che è proprio tale proprietà quella che consente di dire che quelle stime sono delle “misure” (non dei semplici numeri assegnati ai vari elementi); ovvero: quelle stime definiscono delle relazioni fra gli elementi (individui da un lato e item dall’altro) che – a loro volta – godono di ben definite proprietà. Le misure ottenute con il modello base di Rasch, sono definibili come “scale di intervalli” che, come tali, godono ad esempio della proprietà di poter essere sottoposte a trasformazioni affini senza alterare le relazioni fra le differenze dei rapporti. Certamente la precedente frase suonerà vuota a molti; solo per provare a chiarire: la misura della temperatura in fisica (se si esclude la scala Kelvin che è a livello di scala di rapporti) è una scala di intervalli; è questo il motivo per cui si può, ad esempio, tranquillamente indicare la stessa temperatura in gradi Celsius oppure in gradi Fahrenheit o in gradi Réamur, fra le quali, appunto, sono ampiamente conosciute le trasformazioni affini (o lineari) che permettono agevolmente di passare da una scala all’altra senza alterare il significato delle misurazioni compiute.

– Unidimensionalità, multidimensionalità

Se ho ben capito, nelle ultime frasi dell’articolo di Rogora, si critica il modello di Rasch in quanto unidimensionale. In effetti il modello – lì discusso – è unidimensionale; può darsi che sia inadeguato per uno o molti specifici test; tuttavia si tratta di una caratteristica di quel modello che, per giunta, non è necessariamente un difetto. Esistono estensioni multidimensionali di tale modello e, se è il caso, vanno utilizzate.

– Accordo fra dati e modello

L’uso di modelli nella scienza si accompagna naturalmente alla valutazione del grado di adattamento fra modello e dati. Assolutamente d’accordo, anche se mi pare opportuna qualche precisazione.

I modelli matematico-statistici più utilizzati e conosciuti in molti ambiti delle scienze sono modelli “esplicativi”; ovvero (nei casi più elementari dell’uso di modelli come la regressione o l’analisi della varianza): disponiamo di numerose misurazioni relative ad un fenomeno (y), condotte in condizioni diverse (per esempio: in luoghi o tempi diversi) e si vuole fornire una spiegazione della variabilità osservata (in y) tramite una o più altre variabili (x), rappresentative di altri fenomeni o condizioni. In questi casi l’adeguatezza fra modello e dati è abbastanza semplicemente definibile in quanto è sufficiente “pesare” la quantità di variabilità “spiegata” dal modello, sulla variabilità totale da spiegare (è il classico coefficiente di determinazione o R2) per ottenere una misura sintetica (una proporzione fra 0 e 1) capace di esprimere la bontà o meno dell’adattamento fra modello e dati.

Non tutti i modelli matematico-statistici hanno il compito di “spiegare” variabilità; esistono molte altre incombenze che i modelli sono chiamati a svolgere nelle scienze. I modelli della tradizione IRT sono nati per definire (costruire) strumenti di misura in quell’ambito delle scienze dove è necessario fare i conti con il fatto che si opera su e con elementi animati (dotati di emozioni, pensiero e memoria); ovvero per trasformare i test in veri e propri strumenti di misura (La TCT, Teoria Classica dei Test, progenitrice della IRT, non ci riusciva, o lo faceva in modo meno adeguato).

Proprio con i modelli di Rasch (e nella IRT) si è potuto assistere ad un notevole incremento delle misure statistiche che permettono di valutare l’adattamento del modello ai dati; purtroppo – appunto per gli scopi diversi della modellizzazione in questo campo – non si dispone di statistiche così semplici, dirette e sintetiche come quelle definibili quando l’intento del modello è “esplicativo”. Si dispone piuttosto di un ampio repertorio di statistiche (“locali”, in contrapposizione a generali o sintetiche) che richiedono una buona dose di pazienza (oltre che di competenza) per essere considerate. Il fatto che, utilizzando i modelli IRT, sia piuttosto “scomodo” o difficile valutare l’adattamento modello-dati non autorizza a tralasciare l’incombenza. Naturalmente scorrendo la letteratura scientifica che utilizza i modelli IRT (non solo con riferimento ai test scolastici) si possono osservare molte omissioni su questo e altri aspetti; nuovamente però, mi pare ingeneroso attribuire le responsabilità degli utilizzatori al modello.

Inoltre, se si riflette sullo scopo specifico del modello di Rasch, si può forse restare meno sorpresi sul fatto che si possa (anche con una certa disinvoltura) eliminare (dalla matrice dati) individui o item. L’obiettivo consiste nel costruire uno strumento di misura che, come tutti gli strumenti, avrà dei limiti (posto in certe situazioni non sarà in grado di svolgere il suo compito)[14]; pertanto e ovviamente senza perdere di vista il buon senso, riconoscere che alcuni item o individui sono inidonei per essere misurati con quello strumento non è un comportamento disdicevole o di cui vergognarsi, ma un successo dell’analisi (significa che per tutti gli altri il test funziona).

– I test definiscono la variabile che si intende misurare

Con sorpresa e sarcasmo, Rogora nel suo articolo dice che <<… un test definisce la variabile che si intende misurare>>. Per quanto mi riguarda, invece, ne sono del tutto e tranquillamente convinto. Nella scienza è proprio questo che avviene: si definisce misurando, si misura definendo. Il fatto che questo possa accadere (e si tenti di imporlo) anche nella valutazione degli apprendimenti scolastici è un (anzi direi “il”) problema da affrontare.

Piuttosto che attribuire anche questa nefandezza a Rasch e al suo modello (che può, e in effetti è, molto utile anche in altri e svariati ambiti), penso sia opportuno e necessario concentrare tutti gli sforzi del dibattito sui test di apprendimento nella scuola su argomenti come: è utile misurare? Se sì: cosa e per quali scopi (e poi, solo poi, chiedersi “come”; cercando di individuare – se possibile – i modelli più adeguati). Mi piacerebbe anche, che tale dibattito evitasse di prendersela – aprioristicamente – con questo o quel modello, ricordando piuttosto che <<la modellizzazione nella scienza rimane, almeno parzialmente, un’arte. Esistono tuttavia alcuni principi che possono orientare l’analista. Il primo è che tutti i modelli sono sbagliati; anche se alcuni sono meglio di altri e noi dobbiamo cercare i migliori. … Il secondo principio (che vale anche per gli artisti!) consiste nel non rimanere innamorati di un modello, escludendo le alternative. …>>[15]. Mi permetto solo di aggiungere che è anche opportuno non “odiare” alcun modello, nemmeno (o soprattutto) quello di Rasch.

Test di apprendimento nella scuola. Una proposta

Sull’introduzione dei test per la valutazione degli apprendimenti nella scuola Italiana molto è già stato detto e scritto anche se spesso con argomentazioni a favore o contro non sempre del tutto chiare. Sul fatto che tale introduzione sia avvenuta (e tuttora proceda) in maniera forzosa, sono le innumerevoli resistenze (più o meno eclatanti) a testimoniarlo, anche se per trovarne traccia è sempre più necessario rivolgersi a strumenti informativi “di nicchia” (penso al quotidiano “Il Manifesto”, o ai vari blog di gruppi di insegnanti, studenti o genitori), dato che il sistema mediatico di massa (con i suoi giornali, televisioni, etc.) preferisce occuparsi d’altro. Se qualche forma di resistenza riesce a superare la ‘cortina di ferro’ dei grandi “media”, generalmente viene colta come una buona occasione per ricordare che insegnanti e/o studenti (naturalmente fannulloni e buoni a nulla) intralciano il progresso o l’omologazione dell’Italia con altri Paesi che (chissà poi perché) sono sempre più bravi di noi; etc. etc.

Insomma, in questi anni – non diversamente da tutti gli altri ambiti del vivere sociale – anche nella (e sulla) scuola chi la pensa diversamente da chi si è ritagliato il compito di “decidere” e “fare” (quasi sempre pessime decisioni e fatti) viene messo a tacere. Stante questo clima, la prima reazione istintiva (almeno la mia) è di netto rifiuto. Tuttavia, un po’ perché ho dedicato gran parte della mia vita a studiare l’analisi dei dati e la misurazione in psicologia, un po’ perché – mi pare – sia sempre meglio riflettere attentamente prima di respingere qualsiasi ipotesi, vorrei tentare di delineare uno scenario alternativo.

Provo allora ad abbozzare un ragionamento e una proposta che si basa su tre considerazioni iniziali: a) i test di apprendimento possono essere uno strumento, fra gli altri, a disposizione di insegnati e apparato scolastico; b) il corpo docente italiano (fatte le debite eccezioni, come per ogni altra categoria sociale) svolge il proprio compito con professionalità, rigore e competenza sia per quanto riguarda gli aspetti di trasmissione dei saperi, sia per quanto attiene la sfera della valutazione delle conoscenze acquisite dagli alunni; detto più sinteticamente: nessuno può sostenere la necessità di una sorta di “commissariamento” della funzione valutativa dei docenti; c) nell’ambito del dibattito sui test nella scuola è possibile distinguere fra i test in quanto strumenti didattici (le loro implicazioni sul piano formativo, pedagogico, psicologico, etc.) e le modalità o se si preferisce la pratica di somministrazione dei test stessi.

Penso che molte delle critiche rivolte ai test nella scuola dal punto di vista didattico e psico-pedagogico siano fondate; ma è sul secondo aspetto – quello della pratica di somministrazione – che mi concentrerò nel seguito.

Dal mio punto di vista, l’aspetto più criticabile dei test nella scuola consiste nel fatto che i test (le domande che li compongono) vengono pensati e realizzati da “istituti” e/o “esperti”, spesso sconosciuti e “lontani” dagli insegnanti che invece operano quotidianamente con gli allievi; il prodotto di tali “esperti” viene poi “imposto” alle scuole dislocate sul territorio e ai singoli docenti. Una tale pratica (per così dire: centralistico-autoritaria) viene presentata come necessaria per esigenze di omologazione e stretta uniformità indispensabili per rendere confrontabili i punteggi conseguiti dagli alunni.

Con questa pratica si ottengono alcuni risultati rovinosi e, solo per ricordare quello che a me pare più grave, si pongono le basi per gettare alle ortiche la professionalità degli insegnanti; proprio l’atto valutativo, su cui si fonda gran parte del “saper fare” del docente, rischia di essere espunto dal novero delle sue funzioni e demandato ad un apparato (esperti-test-punteggio) estraneo e totalmente fuori dal suo controllo.

Può allora essere utile chiedersi se, per ottenere la confrontabilità che i test garantiscono (generalmente e a ragione considerata preziosa) è indispensabile centralizzare le operazioni di “produzione” (definizione delle domande) di un unico test e imporlo a tutti perseguendo criteri di omologazione e uniformità discutibili e, quantomeno, complicati (sul piano operativo).

Dal punto di vista scientifico esistono (e sono ben conosciute) le condizioni per perseguire una pratica diametralmente opposta a quella in atto, che avrebbe il pregio di superare alcune, se non molte delle principali critiche all’uso dei test nella scuola. La pratica “centralistico-autoritaria” può essere sostituita da un approccio “periferico-democratico”, salvaguardando (anzi forse incrementando) il rigore scientifico e la confrontabilità dei punteggi. Non è certo questa la sede per scendere in dettagli, ma sotto certe condizioni (la sottolineatura serve a evidenziare che non si tratta certo di un obiettivo immediato o facile da raggiungere), è possibile somministrare test diversi (ad esempio: per numero, tipo e difficoltà delle domande, purché volti a misurare la stessa proprietà mentale degli alunni), con domande pensate e prodotte da singoli docenti e rendere confrontabili i punteggi ottenuti, come se gli alunni avessero risposto allo stesso identico test. Si tratta proprio di sfruttare a fondo alcune delle potenzialità offerte dai modelli matematico-statistici di misurazione che appartengono alla famiglia IRT.

Alcune proprietà delle stime ottenute con tali modelli consentono infatti di compiere operazioni (dette in inglese di “link” o “equating”) fra test composti – almeno in parte – da domande diverse. Ripeto: non si tratta di un’operazione ovvia o semplice; sono necessari ferrei controlli, condizioni adeguate e una buona dose di professionalità (psicometrica), oltre naturalmente alle adeguate risorse; ma tecnicamente si tratta di una strada percorribile. Sotto tali condizioni (ovvero con il dovuto appoggio di esperti) gli insegnanti (o anche solo alcuni fra questi) potrebbero “produrre” i propri test e somministrarli a livello della propria classe, scuola, territorio, etc. e poi rendere confrontabili i risultati (fra loro e anche con i test realizzati da istituti nazionali o sovranazionali, purché tali organismi siano disposti a collaborare in tal senso).

Mi pare che una tale pratica potrebbe quantomeno ridurre la comprensibile diffidenza e alcune (anche se non tutte) delle motivate perplessità sollevate da molti docenti nei confronti dei test scolastici e, soprattutto, riportando anche i test sotto il controllo dei docenti, incrementare anziché deprimere la loro professionalità.


[1] cfr. www.roars.it (sezione: “argomenti”, “istruzione”), E. Rogora, “I test INVALSI sono scientificamente solidi? I limiti del modello di Rasch”.

[2] I dati grezzi, di tutti gli studenti italiani, relativi ai test di matematica (somministrati nei quattro anni scolastici: 2007-’08; 2008-’09; 2009-’10; 2010-’11 durante gli esami di stato al termine della scuola secondaria di primo grado), sono stati analizzati – inserendoli coerentemente nell’ambito di un approccio IRT (utilizzando appunto il modello di Rasch per risposte dicotomiche) – e i risultati di tale lavoro sono riportati in: R. Miceli, D. Marengo, G. Molinengo, M. Settanni, “Emerging problems and IRT-based operational solutions in large-scale programs of student assessment: the Italian case”; l’articolo è stato accettato per la pubblicazione e dovrebbe apparire sul primo numero 2015 della rivista: TPM – Testing, Psychometrics, Methodology in Applied Psychology.

[3]Rasch G., 1960, Probabilistic models for some intelligence and attainment tests, Danish Institute for Educational Research, Copenhagen; edizione ampliata, Chicago, The University of Chicago Press, 1980.

[4] cfr. INVALSI, “RILEVAZIONI NAZIONALI SUGLI APPRENDIMENTI 2011‐12”, pag. 42.

[5] Innumerevoli sono le informazioni tecniche necessarie per poter presentare dei risultati come desunti dall’uso di un modello IRT (o anche del più ristretto ambito dei modelli di Rasch). Solo a titolo esemplificativo è indispensabile conoscere quello che in gergo (usando la parola inglese) viene detto fit, ovvero il grado di adattamento fra modello e dati empirici; inoltre è bene sapere, per esempio, quali controlli di dimensionalità sono stati effettuati e quale esito hanno dato. Ancora, molte operazioni vanno compiute per rendere “digeribili” ad un modello di misurazione le risposte così come fornite dai rispondenti al test; e tali operazioni possono incidere radicalmente sui risultati ottenuti. Per chiarire può forse essere utile un esempio relativamente semplice: in tutti i test sono presenti domande che violano palesemente almeno uno degli assunti di tutti (o quasi) i modelli della tradizione che risale a Rasch (l’assunto di indipendenza locale); ciò accade – per esempio – quando una domanda è concepita in modo da richiedere nella prima parte una risposta (giusta/errata) seguita poi dalla richiesta di descrivere il metodo tramite il quale si è pervenuti alla precedente risposta (seconda parte); le due risposte (prima e seconda parte) non sono stocasticamente indipendenti e non possono essere trattate come due risposte distinte, senza violare l’assunto; in questi casi è necessario adottare un qualche espediente che è opportuno esplicitare, sia perché non esiste un modo di procedere adeguato in tutti i casi, sia perché le stime ottenute con un espediente o un altro possono condurre a risultati molto diversi fra loro.

[6] Relativamente ai test su cui ho operato, l’errore di misura medio (nazionale), che si compie a livello del singolo studente, è di circa 0.5 logit (il logit è l’unità di misura usata dai modelli IRT e, negli anni considerati, il SEM varia, in media, fra 0.48 e 0.62); l’ampiezza di tale errore trasferita sulla scala – negli ultimi anni usata da INVALSI (con media 200 e deviazione standard 40) – corrisponde a circa 20 punti. Ovvero, la frase: “Pierino ha ottenuto un punteggio pari a 200”, deve essere letta: “Pierino ha ottenuto un punteggio compreso fra 180 e 220”!.

[7] cfr. INVALSI, “RILEVAZIONI NAZIONALI SUGLI APPRENDIMENTI 2011‐12”, pag. 10.

[8] Il metodo utilizzato è descritto, in maniera abbastanza dettagliata, nell’ “Appendice 5: La qualità dei dati del campione” del Rapporto INVALSI: “ESAMI DI STATO I CICLO a.s. 2008/2009; La Prova Nazionale al termine del Primo Ciclo. Aspetti operativi e prime valutazioni sugli apprendimenti degli studenti” (pag. 84 e seg.). La descrizione del metodo è stata anche riproposta nell’ “Appendice 9” del Rapporto INVALSI dell’anno successivo (a.s.: 2009/2010).

[9] A meno che non si intenda dire con “indirette”, “non fondamentali”. In tal caso – e forse mi sbaglio – ma mi pare che in fisica, le misure o grandezze dette “fondamentali” siano davvero poche; forse 7 (lunghezza, massa, tempo, etc.).

[10] Douglas G.A., Wright B.D., 1986, The two category model for Objective measurement, Memorandum No. 34, MESA Psychometric Laboratory, Department of Education University of Chicago, February, pag. 3

[11] D’altra parte già duecento anni (circa) prima dell’epoca cristiana, Eratostene di Cirene, utilizzando – ovviamente – osservazioni indirette, giunse ad una stima della circonferenza terrestre (supponendo che la terra fosse sferica) molto vicina a quella che oggi riteniamo più esatta (cfr. Asimov I., 1984, Il libro di fisica, Milano, Arnoldo Mondadori Editore., pag. 22).

[12] Per esempio bisogna prestare attenzione ad utilizzare le citazioni; Van der Linden (ampiamente citato nell’articolo di Rogora) predilige modelli (i cosiddetti 2PL e 3PL) sempre della famiglia IRT, le cui stime però non godono della proprietà detta “oggettività specifica”.

[13] Naturalmente la locuzione “statisticamente indipendenti”, qui usata, significa che i parametri dell’abilità e della difficoltà entrano nell’equazione del modello in maniera additiva (ovvero sono stimati in maniera indipendente gli uni dagli altri); se qualcuno volesse leggere semplicemente “indipendenti” potrebbe sostenere che allora si può prendere la stima dell’abilità di Tizio che ha risposto al test1 e confrontarla con quella di Caio che ha risposto al diverso test2; ovviamente direbbe una sciocchezza, ma mi pare, in tal caso, che la responsabilità sia di chi intende “ciocca per brocca”.

[14] Ad esempio: penso che tutti concordino sul fatto che conviene eliminare la condizione “nel forno acceso”, per il termometro d’ambiente che ho sulla mia scrivania o per quello che uso per controllare la mia salute.

[15]McCullagh P., Nelder J. A., 1983, Generalized Linear Models, New York, Chapman and Hall (pag. 6).

Send to Kindle

2 Commenti

  1. Da studente di Fisica Teorica, mi sfugge completamente cosa possa combinarci il ruolo della “misura” in meccanica quantistica con le scienze sociali. L’accenno alla cosa mi ricorda vagamente uno psichiatra che mi si vantò di aver partecipato ad un convegno sul legame fra psichiatria e fisica quantistica senza cogliere che al netto degli interessi para-scientifici dei fondatori della seconda esso si può riassumere nella parola “nessuno”.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.