Dal 2018, per effetto di un decreto delegato della Buona Scuola (62/2017), le prove, svolte dagli alunni di terza media al computer nelle scuole, sono corrette automaticamente, a livello centrale. Il computer dell’Invalsi riceve le prove appena svolte, poi corregge, misura e valuta, esprimendo un giudizio di merito in livelli che descrivono le prestazioni cognitive del singolo alunno, giudizio che viene restituito individualmente attraverso la Certificazione delle competenze di fine primo ciclo. Cosa significa in pratica? Per allontanare lo spettro della “copiatura” (cheating) gli alunni non rispondono alle stesse domande e l’equità del punteggio finale è affidata a un complesso modello statistico (i cui limiti e le cui falle sono note). Non solo, ma sulla base di questi punteggi il computer redige un esteso giudizio qualitativo sull’allievo che tocca valutazioni sulla sua capacità di comprendere il testo, cogliendone anche il tono, per esempio ironico o polemico. Che la correzione automatica sia estesa ai “Quesiti aperti a risposta articolata” non può che aumentare le perplessità. Ricordiampo che una analoga certificazione delle competenze è prevista pure per il secondo ciclo, come avevamo segnalato qui. Nel frattempo, Invalsi procede con la sperimentazione della misurazione delle soft skills delle creature piccole. Alla standardizzazione si stanno dunque accompagnando l’automazione e la profilazione. A quali principi educativi, a quale didattica, a quale pedagogia rispondono queste nuove, inaccettabili, misure?
Nelle pagine seguenti sono presentati i risultati campionari delle prove INVALSI condotte nella primavera di quest’anno. Mentre è consueta la modalità di presentazione e il periodo in cui questo avviene – il primo giovedì di luglio – quest’anno sono state introdotte e realizzate importanti novità così come previsto dal Decreto Legislativo 62/2017. Si tratta di innovazioni che hanno cambiato notevolmente la prassi delle prove e riguardano 4 aspetti:
- la separazione delle prove dall’esame di Stato della terza secondaria di primo grado, così come richiesto dalle scuole, ma nello stesso tempo con l’obbligo per gli alunni di parteciparvi;
- l’introduzione della prova di Inglese per il grado 5 (quinta primaria) e per il grado 8 (terza secondaria di primo grado);
- la realizzazione delle prove al computer nel grado 8 e nel grado 10, con correzione centralizzata delle prove stesse;
- la restituzione individuale dei risultati delle prove del grado 8 non più con punteggi, ma per livelli descrittivi delle prestazioni cognitive proprie di ciascun livello. La rilevanza di queste innovazioni si articola su diversi piani.
In primo luogo la separazione dei due momenti – quello delle prove INVALSI e quello degli esami finali – consente due risultati “puliti”, nel senso che non sono “mischiati” nel voto finale, così come era accaduto sinora, ma sono registrati in due diverse attestazioni. [ … ]
L’introduzione delle prove al computer (meglio note con la sigla CBT, computer based test) comporta inoltre diversi vantaggi.
Il primo vantaggio è dato dalla possibilità di realizzare prove diverse ed equivalenti dal punto di vista misuratorio, che impediscono la collaborazione durante l’esecuzione. Un secondo vantaggio è la correzione automatica che si traduce in minor carico di lavoro dei docenti, anche questo più volte richiesto dai docenti. Tanto la diversità delle prove che la correzione automatica contribuiscono a ridurre, sin quasi a farlo sparire, il cheating, vale a dire l’adozione di comportamenti opportunistici, degli studenti o degli stessi docenti, e a ottenere una maggiore autenticità dei risultati. È importante sottolineare anche la valenza etica ed educativa di questo importante cambiamento.
La restituzione per livelli descrittivi rappresenta probabilmente la novità che avrà maggiori conseguenze sul piano della didattica e sul lavoro dei docenti. Riconoscere quanto “hanno reso” le proposte didattiche messe a punto da ciascun docente, mediante la lettura della collocazione dei propri alunni nei diversi livelli, risulterà un dato particolarmente importante per poter correggere il tiro, se necessario, avendo come riferimento le operazioni cognitive che sono indicate in ciascun livello.
Ciò infine consentirà anche un dialogo più diretto tra docenti di discipline diverse che potranno confrontarsi proprio sulle operazioni cognitive che ciascuna disciplina può promuovere e sui diversi punti di contatto che possono rilevarsi.
Come si vede, si sta delineando un quadro molto innovativo e rivolto all’effettiva promozione del miglioramento della nostra scuola, a partire dalla funzione eminentemente informativa che la valutazione riveste.” (Anna Maria Ajello, Rapporto Nazionale Prove Invalsi 2018, pp. 3-4)
Ho evidenziato in neretto le parti dell’introduzione della Presidente dell’Invalsi su cui intendo ragionare in questo mio articolo.
Si tratta di questa importante novità: dal 2018 i test Invalsi di grado 8, ovvero di terza media, sono computer based (CBT) e restituiscono, oltre alla tradizionale misurazione quantitativa dei risultati degli apprendimenti degli alunni – con l’attribuzione di un punteggio su una scala quantitativa (Rasch) – anche una loro valutazione qualitativa – con l’attribuzione di un livello da 1 a 5, a seconda del minore o maggiore livello di competenza dimostrato nella prova.
Cosa significa in dettaglio? Significa che le prove, svolte dagli alunni al computer nelle scuole, sono corrette automaticamente, a livello centrale. Il computer dell’Invalsi riceve le prove appena svolte, poi corregge, misura e valuta, esprimendo un giudizio di merito in livelli che descrivono le prestazioni cognitive del singolo alunno, giudizio che viene restituito individualmente attraverso la Certificazione di fine ciclo.
Infatti, come riporta il documento aggiornato al 5 settembre 2018, in merito all’organizzazione e somministrazione delle prove Invalsi CBT, “gli esiti delle prove INVALSI confluiscono nella Certificazione delle competenze in livelli descrittivi distinti per Italiano, Matematica e Inglese, secondo l’art. 9, c. 3, lettera f del D. Lgs. 62/2017 e l’art. 4 del D.M. 742 del 3.10.2017). Ai sensi dell’art. 4, c. 2 e c. 3 del D.M. 742/2017, INVALSI predispone e redige una sezione della Certificazione delle competenze. Tale certificazione è disponibile sul portale SIDI secondo modi e tempi definiti dal MIUR in base a quanto previsto dal D. Lgs. n. 62/2017″.
Insomma la novità è che, dal 2018, il computer, con l’algoritmo Invalsi, misura, valuta, giudica e certifica. Siamo sicuri che vada bene così? Che i nostri studenti siano giudicati da un computer? Che questo giudizio sia ufficializzato in una Certificazione? E ancora, come funziona l’algoritmo Invalsi?
La Certificazione delle competenze di fine ciclo rilasciata da Invalsi è un documento ufficiale, che si accompagna al diploma rilasciato al termine degli Esami di Stato di terza media. Sembra un provvedimento neutrale ma non lo è. Non sappiamo cosa ci riserva il futuro. Non sappiamo se e quanto questa Certificazione potrà pesare sul prosieguo della carriera scolastica di ogni alunno. Non sappiamo se questa novità, per ora limitata alla terza media, diventerà una prassi rispetto alle ulteriori quattro batterie di test censuarie che attualmente gli alunni svolgono. Non sappiamo se questa esperienza farà da modello alla rilevazione Invalsi dell’ultimo anno delle scuole superiori, sostituendosi, potenzialmente, al titolo rilasciato dopo l’Esame di Stato conclusivo, e magari diventando dirimente per l’accesso ai percorsi universitari o per l’inserimento nel mondo del lavoro.
Quello che sappiamo però è che si tratta di un’operazione distopica, totalmente computerizzata, fatta con un algoritmo che non conosciamo e che Invalsi deve rendere noto e deve spiegare. Quello che sappiamo è che davvero, come dice Ajello, questo cambiamento ha una rilevanza etica ed educativa. Ma non perché si risparmia lavoro ai docenti (ed è gravissimo che nel Rapporto nazionale 2018 si affermi questo).
Qui stiamo parlando di una valutazione – ribadisco, non più solo una misurazione – fatta da un computer. Una valutazione fatta da un computer che costituisce una Certificazione con valore legale.
Ma ci rendiamo conto di quali siano le implicazioni culturali, etiche, giuridiche, politiche di tutto questo?
Vorrei aggiungere un ulteriore elemento di riflessione, a partire dall’analisi della misurazione computerizzata (e relativa valutazione e certificazione) delle competenze di Italiano degli studenti di terza media. Questi sono, testualmente, i 5 livelli del giudizio declinati da Invalsi:
- Livello 1) L’allievo/a individua singole informazioni date esplicitamente in parti circoscritte di un testo. Mette in relazione informazioni facilmente rintracciabili nel testo e, utilizzando anche conoscenze personali, ricava semplici informazioni non date esplicitamente. Conosce e usa le parole del lessico di base, e riesce a ricostruire il significato di singole parole o espressioni non note ma facilmente comprensibili in base al contesto. Svolge compiti grammaticali che mettono a fuoco un singolo elemento linguistico, e in cui è sufficiente la propria conoscenza naturale e spontanea della lingua. L’esito conseguito dall’allievo/a nella prova non consente il raggiungimento del livello 1.
- Livello 2) L’allievo/a individua informazioni date esplicitamente in punti anche lontani del testo. Ricostruisce significati e riconosce relazioni tra informazioni (ad esempio, di causa-effetto) presenti in una parte estesa di testo. Utilizza elementi testuali (ad esempio, uso del corsivo, aggettivi, condizionale, congiuntivo) per ricostruire l’intenzione comunicativa dell’autore in una parte significativa del testo. Conosce e usa parole ed espressioni comuni, anche astratte e settoriali, purché legate a situazioni abituali. Svolge compiti grammaticali in cui la conoscenza naturale e spontanea della lingua è supportata da elementi di riflessione sugli aspetti fondamentali della lingua stessa.
- Livello 3) L’allievo/a individua una o più informazioni fornite esplicitamente in una porzione ampia di testo, distinguendole da altre non pertinenti. Ricostruisce il significato di una parte o dell’intero testo ricavando informazioni implicite da elementi testuali (ad esempio, punteggiatura o congiunzioni) anche mediante conoscenze ed esperienze personali. Coglie la struttura del testo (ad esempio titoli, capoversi, ripartizioni interne) e la funzione degli elementi che la costituiscono. Conosce e usa parole ed espressioni comuni, anche non legate a situazioni abituali. Conosce e utilizza le forme e le strutture di base della grammatica e la relativa terminologia.
- Livello 4) L’allievo/a riconosce e ricostruisce autonomamente significati complessi, espliciti e impliciti. Riorganizza le informazioni secondo un ordine logico-gerarchico. Comprende il senso dell’intero testo e lo utilizza per completare in modo coerente una sintesi data del testo stesso. Coglie il tono generale del testo (ad esempio, ironico o polemico) o di sue specifiche parti. Padroneggia un lessico ampio e adeguato al contesto. Conosce e utilizza i principali contenuti grammaticali e li applica all’analisi e al confronto di più elementi linguistici (parole, gruppi di parole, frasi).
- Livello 5) L’allievo/a riconosce e ricostruisce autonomamente significati complessi, espliciti e impliciti in diversi tipi di testo. Coglie il senso del testo al di là del suo significato letterale, e ne identifica tono, funzione e scopo, anche elaborando elementi di dettaglio o non immediatamente evidenti. Riconosce diversi modi di argomentare. Mostra una sicura padronanza lessicale e affronta compiti grammaticali che richiedono di analizzare e confrontare strutture linguistiche complesse, tenendo sotto controllo contemporaneamente più ambiti della grammatica (ad esempio, sintassi e morfologia)
Qual è, a mio avviso, analizzando questi descrittori – che, ripeto, configurano il giudizio che il computer dà al test Invalsi di Italiano del singolo alunno – l’elemento più significativo? Il fatto che, all’aumentare dei livelli, non solo dovrebbe aumentare la capacità di comprensione degli aspetti formali del testo, ovvero della sua struttura, ma si determinerebbe anche, attestata ai livelli più alti, la comprensione profonda del senso del testo, dei suoi significati complessi, molteplici, espliciti e impliciti, al di là del suo significato letterale. Tutto questo, lo sappiamo, avviene attraverso processi di astrazione, interpretazione, formulazione di inferenze, elaborazione di ipotesi. Un complesso sistema di operazioni che afferisce alla dimensione simbolica – soggettiva – della mente umana.
Sono in grado i test Invalsi di esplorare questa dimensione, visto che la misurano, la valutano e la certificano? Vediamo come sono costruiti e formulati i quesiti, citando testualmente dal ‘Quadro di Riferimento di italiano’ disponibile sul sito Invalsi:
Nelle prove Invalsi di Italiano vengono utilizzati quesiti di due tipi: a risposta chiusa, nei quali lo studente deve scegliere la risposta corretta tra più alternative date, e a risposta aperta, nei quali lo studente deve formulare lui stesso la risposta.
I quesiti a risposta chiusa sono: a scelta multipla (QSM); a scelta multipla complessa (QSMC); quesiti nei quali lo studente deve stabilire delle corrispondenze (matching), riordinare gli elementi; inserire parole scelte da una lista (cloze). I quesiti a risposta aperta sono: a risposta univoca; a risposta articolata, comunque predeterminata in una lista, con un numero massimo di parole o caratteri ammessi, in un range di ‘accettabilità’ qualitativa e quantitativa riconoscibile dall’algoritmo.
Ebbene, io credo che in questo modo, sopra descritto, non sia possibile esplorare, e tanto meno restituire, racchiuso in un giudizio di valore espresso da un computer, la dimensione simbolica, interpretativa e soggettiva della mente dei nostri studenti. Attribuire su questa base un livello da 1 a 5 di valutazione delle “prestazioni cognitive” in Italiano dei bambini di terza media è un atto inaccettabile, a livello scientifico, etico, giuridico e politico.
Io credo che tutta questa operazione automatizzata di misurazione, valutazione, espressione di un giudizio e Certificazione delle competenze di fine ciclo vada interrotta perché è tossica. Così come va interrotta la sperimentazione della misurazione delle soft skills delle creature piccole. Sono misure funzionali ad una didattica e ad una pedagogia mostruose, subordinate a inaccettabili esigenze di automazione e profilazione, che nulla hanno a che vedere con la formazione e l’educazione.
Sono misure profondamente disfunzionali e potenzialmente pericolose per i nostri bambini, per i nostri adolescenti, per i nostri studenti, rispetto alle quali la presa in carico delle responsabilità culturali, etiche e politiche, da parte di tutti gli operatori del mondo dell’istruzione appare davvero indifferibile.
Sulle opinioni ben poco da dire: l’autrice esprime la sua posizione, cerca di argomentarla e se ne assume la responsabilità. Si può essere d’accordo o meno, ma sta al lettore decidere se l’argomentazione convince o meno. Quando però, per dar forza alla propria posizione, si arriva a dire palesi falsità e inesattezze, si mettono in circolazione “fake news” (non saprei in che altro modo chiamarle), mi pare che debba suonare per tutti (anche per chi odia visceralmente le prove INVALSI) un campanello d’allarme.
Sono di parte perchè ho collaborato con l’INVALSI e sui dati INVALSI ho fatto ricerca. Proprio per questo, ho avuto però modo di vedere dall’interno la macchina organizzativa dell’Istituto e posso testimoniare che le domande aperte a cui gli studenti rispondono a computer (CBT) sono corrette da persone in carne e ossa, tutte con almeno una laurea magistrale, attraverso un lavoro serrato ma certosino di codifica dei dati sulla base di griglie di correzione riviste e via via discusse e aggiornate per rappresentare correttamente le risposte corrette, tutto svolto con ritmi serrati e con il peso di una responsabilità che incombe. Nessuno spazio per l’automatismo, persino per le risposte aperte univoche, che vengono comunque vagliate “a mano”, una per una.
Risposte che vengono inserite in matrici di dati ed elaborate secondo modelli statistici consolidati e discussi dalla comunità scientifica internazionale. Sulla base dei risultati, sempre persone in carne e ossa, con un lavoro densissimo e faticoso, si dedicano alla descrizione dei livelli per far sì che corrisponda alle effettive abilità verificate dalle domande a cui lo studente a cui lo studente ha saputo rispondere. Un lavoro certamente perfettibile ma che, posso testimoniarlo, non ha proprio nulla di automatico.
L’immagine del computer “grande fratello” che corregge e descrive in automatico i livelli di competenza è quanto di più fantasioso e falso si possa immaginare. Forse, prima di fare certe affermazioni, non sarebbe stato difficile verificarle. Accertati i fatti, ben venga poi il confronto sulle opinioni, purché non ci si fermi agli sfoghi e alle “parole in libertà”.
Un’ultima considerazione. La reading literacy è una competenza complessa, il cui sviluppo e la cui valutazione deve avvenire nel quotidiano lavoro di apprendimento. Dire che sia del tutto impossibile tentarne una misurazione (certo non esaustiva) sulla base di alcuni descrittori mi pare però difficilmente sostenibile. L’autrice cita il “Quadro di riferimento delle prove”, ma cita solo quello che le fa comodo, cioè la descrizione della forma che i quesiti assumono. Perché non citare la dettagliata griglia dei macro-aspetti e dei relativi descrittori sulla base delle quali gli autori e le autrici (quasi tutti insegnanti) costruiscono le domande? Perché ignorare la bibliografia finale che di quei macro-aspetti ricostruisce la cornice internazionale e la storia?
“Un secondo vantaggio [delle prove CBT ndr] è la correzione automatica che si traduce in minor carico di lavoro dei docenti, anche questo più volte richiesto dai docenti.” Forse non si è accorto Matteo Viale che è la direttrice INVALSI la fonte della “fake news”.
Evidentemente al presidente INVALSI si è sbagliata. Avrebbe dovuto scrivere: “un secondo vantaggio [delle prove CBT] è che vengono corrette da persone in carne e ossa, tutte con almeno una laurea magistrale, attraverso un lavoro serrato ma certosino di codifica dei dati sulla base di griglie di correzione riviste e via via discusse e aggiornate per rappresentare correttamente le risposte corrette, tutto svolto con ritmi serrati e con il peso di una responsabilità che incombe.”
Matteo Viale non ha che da chiedere la correzione del Rapporto INVALSI 2018. Saremo lieti di segnalare la correzione.
Nella vita reale, [Diane] Keaton crede in Dio. Ma crede anche che la radio funziona perché ci sono degli omini dentro. Woody Allen
____
A me sembra chiaro che dentro i computer di Invalsi ci sono piccoli laureati magistrali in carne ed ossa che lavorano a ritmi serrati.
Di piccoli laureati magistrali dentro i computer INVALSI devono essercene parecchi.
Dal rapporto 2018 INVALSI hanno partecipato alle prove:
II primaria: 551.108 alunni
V primaria: 562.635 alunni
II secondaria 1° grado: 574.506
II secondaria 2° grado: 534.296
V secondaria 2° grado (stima): 521.444
Oltre 2,5 milioni di prove da correggere. Ne deduco che devono avere computer belli capienti a invalsi.
“Non solo, ma sulla base di questi punteggi il computer redige un esteso giudizio qualitativo sull’allievo che tocca valutazioni sulla sua capacità di comprendere il testo, cogliendone anche il tono, per esempio ironico o polemico”
Molto interessante, ma vorrei conoscerne i dettagli, se possibile, dettagli di tipo lessico-sintattico, ad esempio. Ma anche un esempio concreto. Come sarei interessata, siceramente, ai testi proposti per i cinque livelli di analisi con le relative domande.
Alberto Baccini, il passo si riferisce alle domande chiuse, che prima dovevano essere inserite in matrice a mano dagli insegnanti con un lavoro molto oneroso per passare dal cartaceo al file digitale. Ora questo passaggio è automatizzato, come si può facilmente immaginare. Da qui a fantasticare che il computer sia in grado di correggere anche le domande aperte e di generare giudizi mi pare ci sia una bella differenza.
Marinella Lorinczi, gli esempi di domande per livello sono disponibili nel sito INVALSI:
https://invalsi-areaprove.cineca.it/docs/2018/Esempi%20di%20domande%20per%20ciascun%20livello%20di%20competenza%20%E2%80%93%20ITALIANO_8.pdf
Ce ne vuole anche a fantasticare sulla correzione centralizzata di milioni di quesiti a risposta articolata da parte di “persone in carne e ossa, tutte con almeno una laurea magistrale, attraverso un lavoro serrato ma certosino […] tutto svolto con ritmi serrati e con il peso di una responsabilità che incombe”
____________
Per quanto riguarda la generazione dei giudizi, ci sono cinque giudizi (riportati nel post), ciascuno dei quali si riferisce a un “livello”. A ciascun alunno viene attribuito un livello (e quindi il relativo giudizio) in modo completamente automatico sulla base di punteggi soglia (cut-scores). La complessa (e scientificamente discutibile) procedura per la calibrazion dei cut scores è descritta in un documento tecnico (https://invalsi-areaprove.cineca.it/docs/2018/Livelli_INVALSI_g8.pdf):
____________
“Nel paragrafo successivo saranno descritti i passi che hanno portato all’individuazione, a partire dalle banche di item così sviluppate, dei cut-scores per la delimitazione dei livelli e l’espressione degli stessi in termini di cosa tipicamente conoscono e sono in grado di fare gli allievi e le allieve che si collocano a un certo livello.”
https://www.roars.it/wp-content/uploads/2019/04/Livelli_INVALSI_g8.pdf
_______________
In conclusione, non abbiamo alcun elemento per ritenere che le affermazioni della Presidente Ajello siano Fake News.
Grazie. Ho già trovato qualcosa di interessante, ma devo leggermeli tutti. Divertente, come gioco.
Questa discussione sta raggiungendo livelli incredibili. Di fronte a chi spiega per testimonianza e coinvolgimento diretti che un titolo e un articolo riportano informazioni non vere, ci si aspetterenbbe una rettifica, non insulti gratuiti e sarcasmo degno di migliore causa.
Vorrei quindi essere chiaro: so per certo che la correzione dei quesiti aperti è fatta in modo non automatico da persone in carne e ossa, perché alcuni sono miei laureati e molti persone che conosco e con cui mi sono confrontato sul lavoro di codifica. Chiederò a queste persone di scrivere alla redazione di ROARS per tranquillizzare sul fatto che non sono computer! E già che ci sono la redazione potrebbe chiedere loro cosa pensano del titolo e del contributo! E posso testimoniare direttamente quanto ho scritto sul processo di codifica delle risposte alle domande aperte perché all’argomento ho dedicato un contributo scientifico attualmente in corso di referaggio.
Tra l’altro, stiamo parlando di poche domande aperte per forma, con alcune risposte che si ripetono e quindi di numeri importanti ma gestibili.
La Presidente dell’INVALSI dice il vero quanto parla di “correzione automatica”. La fake news che contesto sta nell’intepretazione fantasiosa, ideologica e prevenuta che l’articolo vuol dare a tutti i costi di questa affermazione, anche contro i fatti stessi, arrivando a sostenere che le domande aperte sono corrette in modo automatico, affermazione che rende evidente che non si sa di cosa si sta parlando.
Mi pare ovvio che tutte le prove standardizzate muovano da punteggi e cluster di punteggi, indipendentemente dalla somministrazione CBT. Dietro ci sono modelli statistici discussi dalla comunità scientifica (se non lo fossero non sarebbero scientifici). Anche il passaggio dai cluster di punteggio alla costruzione del giudizio non ha però nulla di automatico, non è frutto di un algoritmo, ma di un lavoro fatto da umani con lunghe analisi e discussioni. Si può non essere d’accordo sul processo, criticarlo sulla base di argomenti scientifici a cui si potrà ribattere con ulteriori argomenti scientifici, ma trovo inaccettabile che per contestarlo si diffondano informazioni false senza porsi nessun problema etico. Parlare di un algoritmo che corregge le domande aperte (come avviene fin dal titolo) e di un computer che “spara” giudizi continua a sembrarmi una mistificazione che non mi aspetterei da una testata che accomuna persone che dovrebbero essere abituate alla ricerca scientifica e ai suoi metodi di lavoro e di argomentazione.
Per avere riscontro di procedure automatiche di correzione delle domande a risposta aperta, basta andare sulla pagina dell’Amministrazione trasparente di Invalsi (https://www.invalsi.it/amm_trasp/ss_sovv-contributi.php?sezione=Atti+di+concessione&tipo=&anno=2018#) e scaricare il contratto stipulato con la Società Eduval Project Srls (1.323.000 Euro).

Se si sfoglia il contratto (https://www.roars.it/wp-content/uploads/2019/04/Eduval_doccont_572.pdf), nell’art.2 si può leggere l’oggetto del contratto:
Testualmente:
___________
” …predisposizione di materiali a supporto per la creazione di repertori di risposte possibili per la successiva correzione automatizzata delle domande a risposta aperta”.
Certo, una speranza per il futuro, un’ipotesi di studio che però non è ancora realizzabile (si parla di “supporto scientifico” per questo obiettivo), specie rispetto alle domande effettivamente somministrate finora, la cui codifica non può avere nulla di automatico. In realtà bisogna guardare al punti 2, 3 e 4, che dicono che la società appaltatrice fornisce – secondo precisi criteri di lavoro – il personale che svolge il lavoro “manuale” di codifica delle risposte aperte. Alcune di queste persone vi contatteranno: spero che almeno a loro crederete.
Il contratto del 2018 con Eduval dimostra che Invalsi non ha remore a spendere dei soldi finalizzati alla “correzione automatizzata delle domande a risposta aperta”. Sulla pagina dell’Amministrazione trasparente non sono ancora riportati i contratti 2019. Possiamo però consultare quelli del 2017, dove si menzionano procedure semi-automatiche, di nuovo in un contratto con Eduval (12.000.000 Euro):
___________
“Servizio di correzione e codifica delle domande a risposta aperta presenti nei fascicoli cartacei e
CBT delle prove INVALSI.
Tale servizio riguarda la correzione di domande a risposta aperta sia dei fascicoli cartacei sia di quelli CBT. L’aggiudicatario deve proporre un protocollo scientifico di correzione dei quesiti a risposta aperta. In particolare, per le domande a risposta aperta in formato CBT il predetto protocollo deve contenere le seguenti informazioni:
a) modalità di identificazione automatica (mediante software) delle risposte corrette o parzialmente corrette;
b) modalità di correzione manuale delle domande a risposta aperta che mediante la procedura di cui al precedente punto a) non è possibile stabilire se la risposta è corretta, parzialmente corretta o errata.”
https://www.roars.it/wp-content/uploads/2019/04/Eduval_doccont_473.pdf
Prima considerazione (dovrebbe essere superflua, ma temo di no…): non credo che Anna pensi all’aggettivo “automatica” come se l’algoritmo di correzione dei test potesse autogenerarsi, al di fuori del controllo, a monte e a valle, di “persone in carne ed ossa”.
Seconda considerazione (per nulla superflua visto che si cerca di eludere la questione politica, quella legata alle scelte su cui si articola il Servizio Nazionale di Valutazione e il suo papà OCSE-PISA):il dispositivo TEST-STANDARDIZZATO, il suo uso come misura e valutazione di competenza disciplinare (così come descritta – ad esempio – nel Quadro di Riferimento delle Prove di Italiano in termini di “padronanza”,INVALSI 2018) ha esautorato gli insegnanti dai compiti di valutazione degli apprendimenti e ha avviato, mediante la certificazione delle competenze e la successiva procedura di referenzazione a cura delle agenzie a ciò preposte (rimando alle ultime disposizioni sul tema del Ministero del Lavoro di concerto con il MIUR), la delegittimazione del titolo di studio rilasciato dalla scuola pubblica, statale (come da mandato costituzionale). Ora, la discussione rischia di andare in stallo: parliamo di rapporti di forza politici a monte delle considerazioni tecniche su test sì, test no, test ben fatti, mal fatti, migliorabili, ecc. Noi (intendo il gruppo di persone che dal 2003/2004 si occupa di capire a cosa serve l’INVALSI) pensiamo che anni di somministrazione di test non abbiamo prodotto alcun vantaggio in efficacia e in efficienza al sistema scuola, che non solo non abbiano conseguito nessun effetto di “equità educativa”, definita in termini di disparità risorse/processi, variazione ouput/input educativi, saldo delle disparità delle condizioni, ecc (J.Scheerens, 2018 pag 7) MA CHE NON SIA QUESTO IL LORO SCOPO. Ovviamente, i tecnici e i teorici invalsiani e anvuriani oppongono un’altra lettura, in buona o in cattiva fede. Ripeto, questione politica: significato della formazione delle creature piccole e rappresentazione della scuola come ologramma della idea di società. Questione gramsciana tuttora apertissima, direi.
Terza considerazione: Anna Angelucci, io e in ottima compagnia di tante/i altre/i, contestiamo anche i paradigmi relativi al fenomeno “comprensione del testo” che diventa impropriamente l’unica performance sondata per la disciplina Italiano. La sequenza Indicazioni Nazionali (nell’ultima versione non casualmente sottotitolata “Nuovi Scenari”)- Quadri di Riferimento – Scelta testi e loro adattamento ( si vedano le manipolazioni dei racconti utilizzati – ad esempio – nella primaria allo scopo di adattarli alle domande)- Format Domande Tipo – Scelta Criteriale di Correttezza/Accettabilità, è frutto di semplificazione a scopo statistico, di imperialismo, di “dispotismo illuminato […] di travaso dall’alto” verso il basso di una presunta expertise. Quando Marco Ambra offrì questa riflessione virgolettata a Tullio De Mauro, il linguista rispose: ” Ahimè, sottoscrivo pienamente questo punto di vista. Per quanto mi riguarda mi sono rifiutato di aggregarmi all’INVALSI senza la possibilità di un discorso autocritico e in secondo luogo senza l’apertura di un discorso generale con gli insegnanti, rispetto alle opportunità e alle possibilità della valutazione. In cui credo se ben fatta. Se rimane uno strumento.” Nello stesso lavoro di indagine Ambra chiese un parere anche a Luca Serianni che, definendo impeccabile il commento sulla manipolazione di un testo di Rigoni Stern, dichiarò che i test sono “inutili per la letteratura” essendo pensati solo per ricavare informazioni dal testo (cfr al proposito i framework OCSE-PISA). Aggiungo io, le informazioni sono quelle considerate essenziali dal decisore a monte. Ancora in questo senso si espresse, in un lungo commento sulla rivista della Accademia della Crusca, Elio Franzini, ordinario di estetica, a proposito del massacro operato dalle domande di comprensione su un racconto di Cerami:le informazioni da ricavare per rispondere correttamente non solo erano presunte ma venivano da una palese errata lettura del racconto! [ a cura di M. Ambra “Teste e colli. Cronache dell’istruzione ai tempi delle buona scuola”, 2015 pp151 passim, infra; in CESP- BOLOGNA “I test INVALSI.Contributi a una lettura critica” G. De Michele “”Salvate il soldato Rigoni Stern”, 2013, pag 171; in “La Crusca per voi” n.47, 2013 E.Franzini “I test INVALSI:osservazioni di un filosofo” pag 7]
Concludo, scusandomi per l’eccessiva lunghezza del commento: in fondo nessuna news, nè vera nè fake, semmai scontro di valori. Anche relativi a quella che Viale definisce consolidata letteratura di riferimento, statistica, scientifica. Comunità scientifica, paradigmi elaborati in “quella” comunità, loro inevitabile autoreferenzialità.
Il mondo “in basso”, verso cui percola il dogma invalsiano, dovrebbe esser chiamato ad un serio confronto, non obbligato ad un ascolto acritico e piegato ad una istruzione per l’uso. Senza dogmi, senza eresie, senza anatemi. Anche perché il gioco si fa duro. Come si è potuto constatare dalle ultime ricerche invalsiane sulle soft skills non si tratta di discutere su quel che un lettore fa di un testo, che sia di letteratura o di un problema matematico, ma su quel che si definisce un soggetto senziente, un animale “che si parla” e dunque pensa, riflette, impara.
Per correggere 2.5 milioni di prove, dedicando 10 minuti a prova, lavorando 8 ore al giorno per i circa 300 giorni lavorativi di un anno, servirebbero circa 180 correttori. Ovviamente, servono 360 correttori per correggere in 6 mesi; 720 correttori in 6 mesi con 20 minuti a prova etc. Quanti correttori ha Invalsi e quanto tempo ci mettono le correzioni?
Dato che la certificazione va resa disponibile alla fine del ciclo scolastico, le correzioni devono svolgersi in un tempo molto più breve.
A proposito di algoritmi. Al telegiornale RAI3, delle 14,20, hanno dato la notizia di un algoritmo creato (chissà da chi, e chissà quanto è costato) per la prevenzione di problemi legati alle acque (dissesti idro-geologici), ebbene, il sistema centralizzato privilegia i comuni con più abitanti, gli altri si attacchino al tram (ricorda qualcosa?). Si è prigionieri di un algoritmo, della burocrazia digitale, per cui il ministro, credo, restituirà la responsabilità di certe gestioni ai dirigenti di provincia o di regione. Correggetemi i dettagli, per favore, perché l’ho trascritto al volo.
Renata Puleo, finalmente si parla di questioni sostanziali, su cui è legittimo avere opinioni differente da argomentare. Sono ben consapevole delle critiche di cui parla, di cui i primi ad essere consapevoli sono spesso le stesse persone coinvolte nelle prove standardizzate. Ma per la mia esperienza diretta, accanto a molti critici, sia nel mondo della ricerca che nel mondo della scuola, ci sono altri che, prendendo le prove per quello che sono, un momento non ordinario di verifica di alcuni pezzi di competenze, hanno imparato molto dalle prove e ne apprezzano gli stimoli positivi per il lavoro dell’insegnante. A fronte di pratiche didattiche tradizionali “impressionistiche” e spesso inefficaci di lavoro sul testo, lo scavo testuale suggerito dalle prove resta una via interessante, che indica un atteggiamento di lettura partecipe e non superficiale. Via che non può essere l’unica proposta dalla scuola, ma c’è davvero qualcuno che sottoscriverebbe una simile assurdità?
Quanto al punto che le prove INVALSI non hanno prodotto equità – a parte che non ci si può aspettare che siano le prove in sé a farlo e che l’affermazione andrebbe almeno temperata alla luce dei dati sul “valore aggiunto” – la questione andrebbe girata ai decisori politici: i dati INALSI indicano i nodi problematici del sistema scolastico in termini di equità, spesso in modo non banale se si vanno a guardare i dati (qualche anno fa la scuola al primo posto per valore aggiunto c’era un professionale della periferia di una città del sud). A fronte di questi dati cosa ha fatto la politica? Quali provvedimenti a breve e a lungo termine sono stati presi? Questo è il nocciolo della questione. Non si può dar la colpa al termometro se si continua ad avere la febbre!
Il titolo dell’articolo non lascia molto spazio alle interpretazioni: dice una cosa non vera, con l’obiettivo di far intravedere in modo allarmistico scenari inquietanti in cui sono le macchine a valutare e di ridicolizzare il lavoro di tante persone (gli insegnanti autori dei quesiti, in primo luogo), lavoro su cui si può discutere, ma che deve essere rispettato. Stupisce come molti nei commenti, anche di fronte all’evidenza di chi dice di essere stato testimone del lavoro non automatico, continuino a vedere solo la loro “verità”, supportando la cosa con dati che mostrano che non si sa di cosa si sta parlando. Mi sembra di essere uno di quelli che cerca di convincere i terrapiattisti che la terra è rotonda. Qui mi fermo e chiudo.
“Il titolo dell’articolo non lascia molto spazio alle interpretazioni: dice una cosa non vera”
_________________
Come già mostrato, l’uso dei computer per correggere domande a risposta aperta è testimoniato da contratti stipulati da Invalsi e scaricabili dalla sua pagina dell’Amministrazione trasparente. A costo di essere ripetitivi:
https://www.roars.it/wp-content/uploads/2019/04/Eduval_doccont_572.pdf
__________
https://www.roars.it/wp-content/uploads/2019/04/Eduval_doccont_473.pdf
_________
Sempre a costo di essere ripetitivi, a ciascun alunno viene attribuito uno dei cinque livelli (e quindi il relativo giudizio qualitativo) in modo completamente automatico sulla base di punteggi soglia (cut-scores).
_________
“Nel paragrafo successivo saranno descritti i passi che hanno portato all’individuazione, a partire dalle banche di item così sviluppate, dei cut-scores per la delimitazione dei livelli e l’espressione degli stessi in termini di cosa tipicamente conoscono e sono in grado di fare gli allievi e le allieve che si collocano a un certo livello.”
https://www.roars.it/wp-content/uploads/2019/04/Livelli_INVALSI_g8.pdf
A proposito di “Non si può dar la colpa al termometro se si continua ad avere la febbre!”. Gli applicatori del “termometro”, i quali fanno parte del “termometro” stesso poiché hanno progettato ed elaborato i test, se ritengono che “A fronte di questi dati cosa ha fatto la politica? Quali provvedimenti a breve e a lungo termine sono stati presi? Questo è il nocciolo della questione.”, avrebbero dovuto anzitutto rendere evidente davanti all’opinione pubblica questo scollamento tra valutazione (ammettiamo pure ben concepita e neutrale) e azione politica (non affatto neutrale). Successivamente, persistendo il problema, i “termometri” avrebbero potuto rifiutarsi di collaborare. Sarebbero stati sostituiti da altri termometri? Possibile. Nessuno dubita che dietro l’elaborazione dei test ci sia molto e duro lavoro, discussioni collegiali ed altro. Ma se poi il committente politico ne fa un uso improprio, o anche solo crea caos ancor maggiore, incertezza ancor maggiore, obbligatorietà confusa (ora fa media, ora non la fa ecc.), impone indirettamente lo studio o la formazione scolastica come preparazione ai test, i fabbricatori del “termometro” possono benissimo romperlo. Di chi è, ad esempio, la proprietà intellettuale dei test? Dell’Istituto?
“Non si può dar la colpa al termometro se si continua ad avere la febbre!” Il problema è che si dà colpa al termometro, e anzi a chi lo usa, se invece di essere tarato per misurare la temperatura tra 34 e 42 gradi con una incertezza del decimo di grado misura la temperatura tra 0 e 1000 gradi con una incertezza di 10 gradi: nel qual caso il termometro non serve a niente. Ma già conosciamo la prossima obbiezione “meglio una valutazione mal fatta che nessuna valutazione”: e invece anche no [cit].
Peccato che i casi a) siano pochissimi e anche quelli “parzialmente corretti” siano così variabili da non consentire una processazione automatica. La stragrande maggioranza dei casi di codifica delle domande aperte rientra però in b) e non c’è algoritmo che tenga. Ma tanto avete deciso di avere ragione voi e anche se vi portassi materialmente a vedere le persone che codificano le risposte non ci credereste…
La vedo dura attribuire un punteggio in modo non automatico o fare prove standardizzate senza attribuire punteggi! Peccato che non ci sia proprio nulla di automatico nella “individuazione, a partire dalle banche di item così sviluppate, dei cut-scores per la delimitazione dei livelli e l’espressione degli stessi in termini di cosa tipicamente conoscono e sono in grado di fare gli allievi e le allieve che si collocano a un certo livello”.
Matteo Viale: “Peccato che i casi a) siano pochissimi e anche quelli “parzialmente corretti” siano così variabili da non consentire una processazione automatica.”
__________________
Dove possiamo reperire informazioni su queste percentuali e, più in generale, sulle procedure di correzione? In ogni caso, come riportato nel post, la Presidente Ajello ha scritto:
___________________
“Un secondo vantaggio è la correzione automatica”
___________________
In altre parole, Matteo Viale, che ha avuto “modo di vedere dall’interno la macchina organizzativa dell’Istituto”, sta accusando la Presidente di avere mentito.
Matteo Viale: “Peccato che non ci sia proprio nulla di automatico nella “individuazione, a partire dalle banche di item così sviluppate, dei cut-scores per la delimitazione dei livelli e l’espressione degli stessi in termini di cosa tipicamente conoscono e sono in grado di fare gli allievi e le allieve che si collocano a un certo livello”.
_______________
Non ci vuole molto a capire che, una volta determinati i cut-scores (che vengono fissati a monte e sono uguali per tutti gli allievi) la determinazione dei livelli (a cui sono associati i cinque giudizi qualitativi) diventa del tutto automatica. Le famiglie, pertanto, ricevono un lungo giudizio discorsivo che ha tutta l’apparenza di essere frutto di una valutazione qualitativa, ma che in realtà è solo un numero travestito.
=============
Matteo Viale: “la vedo dura attribuire un punteggio in modo non automatico o fare prove standardizzate senza attribuire punteggi!”
_____________
Il problema è quando i punteggi vengono travestiti da giudizi qualitativi per nascondere la natura riduzionista di questo tipo di valutazione. Assai più onesto sarebbe riportare solo un numero.
Non posso non essere completamente contraria a questa procedura. Gli studenti hanno bisogno di un insegnante, in carne ed ossa, che possa capire e valutare anche il pensiero divergente.
Che possa chiedere spiegazione delle risposte e valutare in base anche a ciò.
Insegno da quarantacinque anni: chi ha potuto pensare tutto questo? Insegnanti? Non riesco a crederlo.
Ancora la metafora del termometro? Ancora!
Mi munisco di cucchiaio, allora, ché mi aveva fatto sorridere l’espressione in spagnolo: «es como medir la temperatura con una cuchara»
https://www.oei.es/historico/evaluacioneducativa/pruebas_estandarizadas_no_miden_calidad_educativa_popham.pdf
A dire il vero non ho capito molto di quanto affermato da Viale che sembra confondere il passato (correggevano gli insegnanti) con il presente e il futuro, che pure si augura: «Certo, una speranza per il futuro».
Ti ringrazio di cuore, Anna (se permetti ti do del tu), sono una semplice maestra, ma quante assonanze con quanto dici qui e in altri articoli, mi fai sentire meno sola. La scuola elementare italiana non aveva la febbre, era tra le migliori al mondo, ora squassata da un rotolio di riforme, gettata nella competizione, deturpata dal crocettamento dei rav, all’inseguimento di standard sempre al di là, è stata trascinata fuori dalla sua propria storia proiettandole modelli estranei. Vedere la sempre maggiore rassegnazione degli insegnanti mi rattrista, assisto a una falsamente comoda e pericolosa cultura del far finta. È anche questo ciò che provoca, quello che Renata Puleo dice «ha esautorato gli insegnanti dai compiti di valutazione degli apprendimenti» è forse già indirettamente avvenuto da tempo. Richiamo ancora W. James Popham, non ci basteranno quarant’anni:
https://www.edutopia.org/standardized-testing-evaluation-reform
Non capirò mai abbastanza questa massa di umanisti 3.0 che vede nel miraggio riduzionista dello scoring delle qualità, il passaggio naturale delle scienze umane alle scienze dure. E se ne vanta pure.
Come se avessero un continuo bisogno di una elevazione culturale da un mare primordiale di indecifrabili e troppo poco standardizzati giudizi personali verso l’oggettivizzazione pura della realtà.
Neanche la Fisica è più il regno della certezza assoluta, e da un po’.
Figuriamoci il resto.
Neanche più in Biologia (che dura non è) si pensa al riduzionismo darwinista come regola fissa e cristallizzata.
https://extendedevolutionarysynthesis.com/about-the-ees/
Adesso arriva un filologo e insegna agli altri che la standardizzazione automatizzata (di questo si tratta in soldoni) delle qualità dei bambini è cosa buona e giusta perché SCIENTIFICAMENTE accettabile.
Scientificamente siamo a livello di Clark Stanley e del suo elisir a base olio di serpente.
Ma quando la serietà del metodo scientifico tornerà ad affermarsi?
A proposito di scientificità, ora vado a comprare una bottiglia d’acqua minerale al collagene.
Non so la mia pelle ma sicuramente avrò un intestino tenue liscissimo.
Condivido al 100% siamo al delirio generalizzato dove si usano termometri senza senso per quantificare qualsiasi cosa soprattutto ciò che non si può quantificare. Si sono create delle nicchie accademiche anche internazionali davvero incredibili.
Sottoscrivo “Non capirò mai abbastanza questa massa di umanisti 3.0 che vede nel miraggio riduzionista dello scoring delle qualità, il passaggio naturale delle scienze umane alle scienze dure. E se ne vanta pure.”, ad eccezione di “3.0” e dello “scoring” che suona pure male e che significa semplicemente punteggio.
Quanto alle prove Invalsi indicate a https://invalsi-areaprove.cineca.it/docs/2018/Esempi%20di%20domande%20per%20ciascun%20livello%20di%20competenza%20%E2%80%93%20ITALIANO_8.pdf, i testi sono molto ma molto più difficili, più lunghi e più complessi, di qualche testo proposto alla prova di ammissione/selezione di LAUREATI per i corsi di formazione di insegnanti di sostegno. Sulla formulazione delle domande Invalsi si potrebbe discutere. Il periodo è sempre il 2018. Per cui posso ipotizzare che la maggiore difficoltà dei test proposti a tredicenni rispetto a test proposti a chi ha come minimo il doppio dell’età (per non parlare dell’istruzione), dipenda dal fatto che all’università ci si muove sul terreno delle competenze reali, nella scuola in un mondo utopico desiderabile.
Rapporto costi/beneficio? Qualcuno potrebbe fare una stima della spesa?
Sì. Ieri sono stato relatore di una laurea magistrale che ha stimato i costi di un anno di INVALSI.
Muoio dalla curiosità …
Discussione interessante, ma non tanto per i suoi risvolti legali o tecnici, bensì per quelli di filosofia o sociologia della scienza.
Sotto il secondo profilo si evidenzia come, una volta creata una struttura, che questa sia funzionale o no al sistema, si creano intorno ad essa funzioni, e quindi interessi, di “tecnici” che hanno lavorato alla stessa, e che sono pronti a difenderla col sangue.
Sotto il primo profilo è la stessa funzione di “controllo oggettivo” delle conoscenze che lascia quanto meno perplessi. E’ un po’ come la VQR. Meno “soggettività” c’è, meglio è. Ma che il sapere sia “oggettivo” è a sua volta una scelta epistemologica quanto meno discutibile; e ancor più discutibile che chi burocraticamente si trova al centro del sistema sia depositario assoluto di questa oggettività. Anche a esserci i 7.400 (dico per dire) laureati magistrali che indefessamente monitorano il gigantesco grande fratello dell’INVALSI, non ho ancora ben capito perché questi dovrebbero alla fine fare una valutazione più accurata rispetto alla docimologia dei docenti professionisti che dovrebbero essere incaricati di tal compito. Alla base c’è una scelta filosofica, di tipo neopositivistico, anche piuttosto rozza, secondo la quale le competenze e le conoscenze si possono tutte rigidamente pianificare a livello centrale, e poi minutamente controllare per evitare che qualche “pezzo” esca fuori “difettoso” dalla fabbrica della conoscenza. Tutto ciò è “tossico”, oltre che inutilmente costoso. Le finalità stesse, poi, non sono quelle di una generale valutazione di (alcuni elementi, solo quelli standardizzabili della) efficacia complessiva dell’insegnamento scolastico, ma quello di dare vere e proprie “pagelle” con tanto di valore legale, e quindi ancora una logica premiale/penale che appare vero delirio. La prova “strutturata” è semplice, ma perde la complessità, non apprezza la maturazione o lo spirito critico del discente. La prova “non strutturata” sotto questo aspetto si presta meglio, ma è inevitabilmente affidata all’esperienza e professionalità del valutatore “locale” che non sempre è da demonizzare. L’idea cartesiana che tutto sia scomponibile e misurabile ha fatto il suo tempo. La cosa migliore che si potrebbe fare per riformare l’INVALSI sarebbe semplicemente abolirlo. Non credo che la Scuola italiana peggiorerebbe. Anzi. Scusate la divagazione.
Vorrei sapere quanti precari lavorano al e per l’Invalsi, e che sono perciò costretti a difenderla con sangue e a sostenerne la bontà.