Tutte le università italiane somministrano questionari agli studenti, ma non è affatto chiaro come quei risultati vengano utilizzati. In molti casi gli atenei cercano “l’eccellenza”. La Facoltà di scienze Matematiche Fisiche e Naturali dell’università “Sapienza” di Roma ha invece cercato di di individuare la “pessimenza”, cioè i corsi che presentassero delle criticità. Lo scopo principale non è stato “puniamo i docenti cattivi”, ma piuttosto di capire perché i loro corsi fossero giudicati negativamente. Rendere pubblica una valutazione metodologicamente solida è un valido deterrente contro i “comportamenti sbagliati”.

La valutazione dell’università è un argomento di grande dibattito. Il mondo accademico è una realtà complessa e la tentazione di comprenderlo attraverso semplificazioni è forte. Frequentare l’università richiede uno sforzo intellettuale ed economico, ed è perfettamente lecito che studenti e famiglie si chiedano se le loro energie sono ben spese in un ateneo di presunta “eccellenza”. Una risposta errata a questa giusta esigenza sono le cosiddette “classifiche di università”, le quali vorrebbero valutare e comparare interi atenei tramite un singolo numero. I ranking di atenei prendono un concetto che appartiene allo sport agonistico e lo trasferiscono (male) in una realtà completamente diversa. Oltre a poter essere considerate pseudoscienza, le classifiche sono anche inutili. Servono solo ai giornalisti per scrivere articoli sensazionalistici; vedi qui, e qui.

Il sito Roars è particolarmente attivo nel denunciare e discutere tutti gli aspetti critici delle pseudovalutazioni. La valutazione seria è importante. Per misurare qualcosa è prioritario chiedersi cosa si misuri e soprattutto quale sia il significato della misura. La sfida più grande è però valutare qualcosa di particolarmente complesso. Per la maggior parte degli studenti non è prioritario sapere che il proprio ateneo sarebbe “il primo” tra tanti altri nella ricerca, ma piuttosto se loro avranno dei bravi docenti (didattica). Per capire quanto le classifiche di università siano inadeguate per rispondere a questa esigenza, basti pensare che la “qualità della didattica” nella classifica ARWU (Shangai Ranking, una di quelle più popolari) è valutata come il numero di premi Nobel tra gli allievi di quell’università.

Come studente, riterrei prioritario cosa si insegni oggi nella mia università, piuttosto che un mio ex-collega abbia ottenuto il Nobel 50 anni fa nella stessa istituzione.

Agli studenti universitari italiani è richiesto da qualche anno di compilare dei questionari anonimi sulla valutazione del corso (Opinioni degli Studenti, OpiS). Ci sono delle domande particolarmente informative, come “il docente è puntuale e presente in aula?”, “è complessivamente soddisfatto/a del corso?” e così via. Le quattro risposte possibili variano da “decisamente si” a “decisamente no”. La compilazione delle schede è un requisito di legge, ma mancano direttive chiare su come elaborare i dati raccolti.

La Facoltà di scienze Matematiche Fisiche e Naturali dell’università “Sapienza” di Roma ha valutato la propria didattica in un modo innovativo. Piuttosto che cercare “l’eccellenza”, in altre parole quei docenti davvero bravi, ha cercato invece di individuare la “pessimenza”, cioè i corsi che presentassero delle criticità. L’articolo che descrive questa valutazione è stato pubblicato da Gianluca Sbardella, Francesco Sebastianelli, Carlo Mariani, Vincenzo Nesi e Andrea Pelissetto sulla rivista scientifica Roars Transactions.

Lo scopo principale non è stato “puniamo i docenti cattivi”, ma piuttosto di capire perché i loro corsi fossero giudicati negativamente. Si potrebbe pensare che i docenti con i punteggi più bassi sono semplicemente quelli più severi con i voti. In realtà, gli studenti sono molto più obiettivi di quello che si possa credere, e sono interessati alla propria formazione. Rispettano molto di più un docente severo che svolga il proprio lavoro con passione piuttosto che uno di “manica larga” che non trasmetta nulla. Se la riposta alla domanda riguardante le presenze in aula del docente è “decisamente no”, questo evidenzia una criticità che deve essere affrontata con la persona, invece se gli studenti sono insoddisfatti dall’aula (es. troppo piccola) questa è una questione organizzativa. La permanenza da parte di un docente nella fascia problematica per più anni non può essere ignorata.

Quando si parla dell’università, molti sottolineano aspetti negativi specifici che sicuramente esistono, ma che in pratica riguardano sono una piccola parte dei docenti. Le condotte errate di alcuni ricadono però su tutta l’istituzione, se non altro perché l’università pubblica italiana ha pochi strumenti per affrontarle e ancora di meno per riconoscerli. Rendere pubblica una valutazione metodologicamente solida è un valido deterrente contro i “comportamenti sbagliati”. Affermano gli autori dello studio: “Senza attribuire valore sacrale a tali suggerimenti, bisogna affermare il dovere di rispondere con puntualità alle critiche, analizzandole con serietà”.

Le schede OpiS sono diffuse in tutta Italia: perché non utilizzarle per una valutazione seria e basata su uno studio scientifico, piuttosto che lanciarsi in pseudovalutazioni tipo alcune della ricerca?

Testo apparso anche sul Blog di Marco Bella sul Fatto Quotidiano.

Print Friendly, PDF & Email

20 Commenti

  1. stupidaggine.
    Viene richiesto un curriculum altissimo per entrare, ora, all’ASN, anche per associato, quando si sa che ormai la domanda per associato la fanno i precari che in quanto tali non possono avere avuto un curriculum eccelso.
    Allo stesso modo dovrebbe essere chiesto un curriculum eccelso anche agli strutturati, giusto?
    Quindi se sei dentro e non solo non hai i valori soglia, ma trasmetti la “pessimenza” devi essere cacciato.

    • Caro Anto,
      Mi sembra tu non abbia compreso granché del post. Mi permetto di suggerire una rilettura e soprattutto di leggere l’articolo originale su ROARS Transactions. Lo scopo delle valutazioni (in questo caso della didattica) non dovrebbe essere quello di creare improvvisate classifiche di docenti al fine di “cacciare” (un’opzione di fatto impossibile con le leggi vigenti) quelli in fondo alla lista, ma piuttosto di capire le criticità. Criticità che potrebbero essere abbastanza indipendenti dal docente. Mi permetto di notare che con la retorica di “cacciamo i fannulloni” si sono giustificati una serie di tagli lineari che nell’ambiente accademico hanno colpito tutti, ma soprattutto i più deboli.

  2. @Marco Bella:
    scusa, reazione istintiva da parte mia, cioè una persona che più pubblica, più si vede alzare l’asticella (nuovi criteri per PA – ASN allucinanti) all’infinito in uno stato di precariato/disoccupazione senza fine.
    Non può esserci un’Università a 2 velocità:
    1) Asticella sempre più alta per chi deve entrare, quasi da premio Nobel per associato (vedere nuovi criteri) che, purtroppo, diventa l’unico modo per essere strutturato (grazie alla Gelmini).
    2)Tolleranza per quegli strutturati che non riuscirebbero a superare neppure la metà dell’altezza dell’asticella di cui sopra.
    Se la situazione è questa, l’unica cosa da fare è di riportare alla realtà chi ha scritto i criteri dell’ASN che si vuole costruire in questi mesi.
    Nel post è scritto: “La permanenza da parte di un docente nella fascia problematica per più anni non può essere ignorata questi mesi”.
    Ma questo che significa? Quello è strutturato e “fa da tappo”, al limite gli assegni un altro insegnamento ma intanto lo paghi per limitare i danni.
    Non esiste solo la realtà di chi è strutturato, purtroppo esiste anche quella di chi non lo è, al quale viene chiesto troppo, troppo, troppo, molto di più rispetto a chi è dentro (a livello di titoli sempre più alti a parità di stipendio e posizione rispetto a chi è già associato).
    Scusa ancora, ma la CRUDELTA’, la MIOPIA e lo scarso senso della realtà del Ministero giocano brutti scherzi.

  3. RIBADISCO: le azioni del Ministero sono caratterizzate da CRUDELTA’ (sapendo che il precariato è senza fine, si ignorano i problemi e si alza l’asticella come se si dovesse giudicare un candidato al Nobel)
    da MIOPIA (si rimane ciechi di fronte a tutto quello che viene prodotto, limitando nei settori non bibliometrici gli articoli degli ultimi 5 anni)
    Lo SCARSO SENSO DELLA REALTA: si perdono intere generazioni di studiosi.
    Preghiamo affinché qualcuno (all’interno del Ministero) venga illuminato dalla sapienza!

    • Sono perfettamente d’accordo che la “crudeltà” sia uno dei motivi ispiratori delle nuove norme.

      Infatti l’ASN andrebbe abolita tout court e ridotto il potere delle strutture centrali (MIUR ed ANVUR) di intervenire in materia.

  4. L’argomento essendo la valutazione della didattica, si dovrebbe parlare di questo, ma non perché gli altri argomenti non siano importanti.
    Non capisco perché la valutazione da parte degli studenti sia obbligatoria, sta per caso nel loro ‘contratto’ coll’università? Poi succede che non possono iscriversi all’esame se prima non valutano. Essendo il modulo ‘stupido’ basta scrivere frasi senza senso o una sfilza di xxxxxxxxxx o altro e il foglio può essere chiuso.
    Non si capisce perché nella valutazione del docente entrino domande su aspetti indipendenti dalla preparazione, puntualità , disponibilità del docente. Cosa significa poi e in che misura dipende dal docente se lo studente ritiene che la propria preparazione non l’abbia aiutato a comprendere. Del resto basta fare delle domande, che spesso sono molto utili e interessanti, per superare il momento di difficoltà. Oppure chiedere di ritornare su un argomento e altre cose del genere. Quanti sono gli studenti che lo fanno davanti ai compagni così anche gli altri ne possono impararne qualcosa?
    Reazioni di colleghi quando ricevono la scheda individuale, alla quale può accedere ad es. il coordinatore del CdL, il quale cosa ne può divulgare e cosa no?
    Dunque reazioni: “ho ricevuto la scheda, l’ho subito cestinata”. Reazione opposta: insistendo anche su certi dettagli, il collega fa azione di autopromozione davanti agli altri, raccontando quanto gli studenti lo abbiano lodato ed apprezzato, al 100%; saranno stati invitati in maniera subliminale a fare ciò? mistero, perché nessuna parte terza era presente.

  5. Son d’accordo. L’ASN è CRUDELE come una giapponese… citazione cinefila … vediamo chi indovina.
    Ma non è crudele solo perché mette l’asticella alta per i precari e mantiene dentro chi non la supera. E’ Crudele perché crea degli ILLUSI!!!
    E caro @ANTO, paradossalmente tanto più bassa è l’asticella tanto più è CRUDELE: crea tanti illusi e facilita il compito a chi deve piazzare degli asini e degli “Yes men”.
    Se non sei del giro giusto e nel posto giusto al momento giusto, la tua Abilitazione te la puoi mettere nel C…V, ma mai nessuno ti chiamerà, e se l’asticella è troppo bassa ci saranno tanti “Yes men” al posto giusto nel momento giusto… stai tranquillo.

  6. @paolo:
    “Ma non è crudele solo perché mette l’asticella alta per i precari e mantiene dentro chi non la supera…”
    secondo me ci si deve fermare al primo punto, come tu hai sintetizzato i mio pensiero in 2 righe, vale a dire:
    “mette l’asticella alta per i precari e mantiene dentro chi non la supera”: ECCO IL PUNTO, LA VALUTAZIONE E’ SEMPRE PIU’ ALTA ED E’ SOLO ALL’ENTRATA, CHE SISTEMA IPOCRITA QUELLO ITALIANO!

  7. Gentile Marco Bella,
    Ho investito molto del tempo trascorso come rappresentate degli studenti nell’Università di Genova proprio in questioni relative ai questionari oggetto del suo intervento, partecipando a molte discussioni sia su come gestirne i risultati in generale sia, in alcuni casi, riguardo agli esiti dei questionari stessi.
    .
    Considero questi questionari uno strumento cruciale per migliorare la realtà universitaria e in effetti ho avuto la fortuna di conoscere diverse realtà in cui sono impiegati in modo secondo me molto soddisfacente (mi permetto a margine di farle notare che quando afferma “La Facoltà di scienze Matematiche Fisiche e Naturali dell’università “Sapienza” di Roma ha valutato la propria didattica in un modo innovativo”, in effetti si è trattato di “un’innovazione” attuata dalla Facoltà di Medicina e dalla Facoltà di Scienze Matematiche Fisiche e Naturali di Genova svariati anni fa :) ;) ).
    .
    Tuttavia non concordo con quanto ha proposto:
    “Le schede OpiS sono diffuse in tutta Italia: perché non utilizzarle per una valutazione seria e basata su uno studio scientifico, piuttosto che lanciarsi in pseudovalutazioni tipo alcune della ricerca?”
    .
    Provo a spiegare il mio punto di vista concentrandomi sugli aspetti legati alla qualità della didattica:
    .
    In generale, per definizione, i questionari danno informazioni esclusivamente sul “successo” che un determinato docente ha riscosso presso i suoi studenti nel tenere un particolare corso. Nello specifico, intendo sottolineare che:
    1) Non tutti gli insegnamenti sono uguali: in particolare, le materie pesanti e non “di indirizzo” ai primi anni sono spesso poco amate. Uno studente di Fisica potrebbe essere più “punitivo” nei confronti di un pur valido docente di Matematica di quanto non lo sarebbe uno studente di Matematica con quello stesso docente;
    2) Assumendo per ipotesi che i docenti siano un “sistema dotato di memoria” e capaci di imparare dai propri errori: troverei ingiusto che un giovane docente a cui è stato assegnato per la prima volta un corso e che lo abbia tenuto in modo poco ottimale per mancanza di esperienza, sia valutato peggio di un docente più anziano che semplicemente quel tempo di rodaggio lo ha avuto quando i questionari non esistevano ancora;
    3) Il programma del singolo corso non è deciso completamente dal docente, né lo è il bilanciamento complessivo del carico didattico: se si verifica la “tempesta perfetta” – una flessione congiunturale nella preparazione media degli studenti dalla scuola superiore + una riorganizzazione decisa per motivi strategici dal CCS – questa si riflette immediatamente sugli esiti dei questionari, ma non è legata di per sé alla qualità dei docenti.
    Questa circostanza può sembrare statisticamente improbabile ma non lo è nella mia esperienza: si consideri la frequenza delle valutazioni, l’alternanza di buone e cattive “coorti” e i tentativi dei CCS in difficoltà per numero di iscritti di adattarsi meglio alle richieste del “mercato”.
    4) Vi sono insegnamenti in cui gli studenti entrano in contatto con molte persone contemporaneamente – l’epica figura dell’esercitatore, e le folte schiere degli assistenti di laboratorio e dei co-docenti dei corsi integrati. In base a come i questionari sono realizzati e presentati, potrebbe verificarsi una perequazione dei meriti e dei demeriti – a Genova, per rispettare sia il dettame di legge, sia per esigenze tecniche, solo dopo molti incontri si è ottenuta una “forma di questionario” che soddisfacesse i più, e alcuni “docenti ausiliari” sono ancora scoperti.
    5) Le “misure di successo” sono sempre misure relative: gli studenti inconsciamente assumono come valore asintotico di eccellenza quello del docente più elevato, e “concentrano il fuoco” contro il docente meno brillante che incontrano. Questo è un grande pregio per i corsi in sé, perché li spinge a migliorarsi costantemente, ma diventerebbe un grande difetto se fosse usato come criterio di valutazione: lo stesso del “criterio delle mediane”.
    6) Per proteggere l’anonimato degli studenti, i risultati dei questionari sono “bruciati” se inferiore a un certo numero (a Genova questo numero è 5), molti corsi di nicchia non possono così essere valutati con il sistema dei questionari.
    7) Dal momento che i questionari sono obbligatori per tutti, è necessario discriminare tra studenti frequentanti e studenti non frequentanti: a Genova viene fatto mediante un’autocertificazione al momento della compilazione del questionario, per evitare “appelli” impossibili nelle classi numerose. Si sono comunque accese notevoli polemiche su questo punto, che diventerebbero impossibili da sanare se i questionari fossero usati come ha suggerito (“io non ritengo che uno studente che non sia stato presente in classe possa valutare il mio corso, ma chi garantisce la veridicità dell’autocertificazione?”).
    8) Se impiegati come strumento di valutazione, i questionari potrebbero acquisire una bias in aree dove c’è un forte “spirito di corpo”: ebbene sì: a volte, in un eccesso di masochismo, gli studenti si affezionano al proprio dipartimento :) e proprio per questo di solito sono severi con docenti che hanno dato cattiva prova di sé…
    .
    Oltre a queste questioni, dipendenti esclusivamente dallo strumento del questionario in sé, vi sono altri due punti che dipendono più specificamente dal modo in cui i questionari sono “vissuti”:
    .
    PUNTO 1: Come gli studenti si approcciano alla compilazione dei questionari?
    (ricordo che questa è obbligatoria: se il questionario relativo non è stato compilato, non è di solito possibile registrarsi agli esami):
    .
    LA CIRCOSTANZA IDEALE:
    Gli studenti, massicciamente stimolati dai propri rappresentanti e dai docenti, sanno che i questionari sono un potente strumento (si conoscono perfino casi di docenti sostituiti per i risultati dei questionari!;)) e li affrontano con serietà: si impegnano, scrivono anche molti commenti nell’apposito spazio dedicato, lodando i docenti che adorano e criticando i docenti che non hanno soddisfatto le loro aspettative.
    LA CIRCOSTANZA NON IDEALE:
    Gli studenti, gregge allo sbando senza nemmeno un cane che abbia detto loro qualcosa in proposito, a parte il “fatelo perché dovete”, compilano i questionari controvoglia e non hanno nessuna fiducia che possa servire a qualcosa.
    LA CIRCOSTANZA BUFFA:
    All’esame: “Prof, non sono riuscito a compilare il questionario, cosa facciamo?” *** fa gli occhi dolci *** “Non preoccuparti, ti iscrivo d’ufficio” (Nonostante gli obblighi, la percentuale di compilazione è ancora disomogenea tra le diverse aree).
    LA CIRCOSTANZA TRISTE:
    Gli studenti sanno che “Dio ti vede” quando compili i questionari e alcuni sono perfino convinti che faccia la spia al docente, nonostante tutte le rassicurazioni sull’anonimato: quindi compilano i questionari di conseguenza.
    .
    PUNTO 2: Cosa avviene quando una criticità viene effettivamente segnalata?
    .
    LA CIRCOSTANZA IDEALE:
    Alla segnalazione di una criticità, il docente prende coscienza del problema – anche discutendo direttamente con gli studenti interessati – e “si migliora”: il problema non si ripresenterà l’anno successivo (questa situazione è tipica per docenti abili e attenti, che si trovano alle prese per la prima volta con un corso impegnativo e hanno bisogno di un anno o due per ambientarsi).
    Se il problema persiste nonostante gli sforzi, si “agisce”: per esempio sostituendo il docente se sembra che questo possa aiutare, o riorganizzando il singolo insegnamento o alcuni insegnamenti se la criticità sembra piuttosto “strutturale” (il tipico caso: carenza nei prerequisiti)
    .
    LA CIRCOSTANZA NON IDEALE:
    La criticità viene ignorata, o comunque non vi sono indicazioni che si intenda affrontarla: è il tipico caso in cui i dati dei questionari vengono discussi blandamente, o non vengono discussi per nulla. Gli studenti non sono minimamente interpellati per avere informazioni aggiuntive sul problema e nessuno ha la forza o l’iniziativa per prendere provvedimenti: l’inerzia regna.
    Questa circostanza è, ahimè, ancora molto diffusa in alcune aree.
    .
    LA CIRCOSTANZA INCREDIBILE MA VERIFICATASI
    Il docente interessato, ferito dall’esisto dei questionari che ritiene profondamente lesivo del proprio Onore, si rivolge alla Stampa denunciando l’ingiustizia subita e protestando che gli studenti non hanno titolo alcuno per valutare il suo Valore di Accademico/a d’Italia…
    .
    Fintanto che su questi due punti continui ad esserci grande variabilità di attitudini e comportamenti, i questionari danno risultati altamente non confrontabili e non sono pertanto utilizzabili per analisi comparative.
    .
    .
    In conclusione la mia personale opinione è che i questionari della didattica, pur costituendo uno strumento potenzialmente molto efficace per promuovere il miglioramento della qualità di un corso di studio, non possono essere usati come strumento di valutazione perché:
    1) Non sono legati in modo lineare alla capacità / buona volontà del singolo docente – cioè al suo valore.
    2) Sono “vissuti” in modo molto disomogeneo anche all’interno dello stesso Ateneo – per non dire della situazione nazionale.

    • P.S.: quando ero giovane e innocente (=prima di incontrare ROARS), ero fermamente convinto che i questionari sottoposti agli studenti “dovessero” essere usati per valutazione dei docenti, e anche, aggregati, per i dipartimenti, e per le facoltà e per gli Atenei nel loro complesso, fino a costituire la classifica perfetta che ci avrebbe detto dove andare a studiare, dove trovare “l’eccellenza”… … …
      Ora forse sto esagerando nell’altro senso, ma ogni proposta di valutazione basata su dati numerici mi sembra insufficiente e inaffidabile per chi legge i risultati e pericolosa per il sistema che la subisce :) :) :)

    • Caro Marco,
      Parto dalla fine:
      ———————-
      In conclusione la mia personale opinione è che i questionari della didattica, pur costituendo uno strumento potenzialmente molto efficace per promuovere il miglioramento della qualità di un corso di studio, non possono essere usati come strumento di valutazione perché:
      1) Non sono legati in modo lineare alla capacità / buona volontà del singolo docente – cioè al suo valore.
      ———————-

      L’articolo originale (perché lo abbiamo letto vero?? http://riviste.unimi.it/index.php/roars/article/view/6862) non vuole creare una estemporanea classifica di docenti. È chiaro che in tante istituzioni si sia cercato di identificare una strategia affidabile per utilizzare le schede OPIS ai fini valutativi. Il pregio dell’articolo pubblicato su ROARS transacion è che stato sottoposto a peer-review e ha una base metodologica affidabile.

      Su 100 ipotetici docenti, interessa poco chi sia il primo il ventesimo o il cinquantesimo. Piuttosto, il sistema di valutazione proposto è incentrato a capire perché gli ultimi siano in quella posizione. È vero che non è sempre facile intervenire sulle criticità, ma avere un sistema che almeno le segnala è il primo passo.
      È molto diverso per un Preside di Facoltà convocare il docente numero 99, avendo in mano strumenti oggettivi o meno. Tra dirgli “mi riferiscono che gli studenti non gradiscono il tuo corso” oppure “secondo le schede OPIS sei uno dei meno puntuali a lezione e uno dei più assenti” c’è un’enorme differenza. Una critica motivata è sicuramente più efficace di una molto generica.

      Non sottovaluterei affatto il potere della “moral suasion”. Molti dipartimenti stanno introducendo dei software antiplagio per evitare che gli studenti presentino tesi in parte copiate da internet. Il software serve solo in minima parte a punire. In realtà, è la presenza stessa di un controllo lo strumento più efficace per evitare che gli studenti copino. Sapendo che c’è un controllo, gli studenti ci pensano due volte prima di eseguire copia-e-incolla su internet.

      Rispetto alle procedure “ideali” dell’ASN, il concetto analogo è il “taglio delle code”, per cui in questo caso divengono accettabili metodi di valutazione automatici biliometrici applicati ai singoli. In un mondo ideale l’ASN dovrebbe trovare in modo rapido e semiautomatico proprio la pessimenza, ovvero quei candidati la cui produzione scientifica è talmente bassa che non necessita un’approfondita valutazione nel merito. Mentre con un’ideale ASN potremmo scartare i candidati che entrano nella “pessimenza”, per quanto riguarda la valutazione della didattica con le schede OPIS oltre a individuare le situazioni problematiche si può cercare di intervenire.

      Il punto chiave dell’articolo (espresso con il concetto “pessimenza”) è proprio questo: identifichiamo le “pecorelle smarrite” e cerchiamo di capire perché si sono smarrite. Questo è il modo per migliorare tutto il gregge.

    • Gentile Marco Bella,
      ______________________________________________
      “L’articolo originale (perché lo abbiamo letto vero?? http://riviste.unimi.it/index.php/roars/article/view/6862) non vuole creare una estemporanea classifica di docenti.”
      ______________________________________________
      La frase “Le schede OpiS sono diffuse in tutta Italia: perché non utilizzarle per una valutazione seria e basata su uno studio scientifico, piuttosto che lanciarsi in pseudovalutazioni tipo alcune della ricerca.” mi aveva indotto a credere che si volesse proporre una valutazione comparativa dei docenti metodologicamente simile a quella descritta nell’articolo ma su una base nazionale: se l’ho mal interpretata, chiedo scusa. (Ma se al contrario avevo capito bene, l’impossibilità di effettuare confronti tra dati non omogenei permane anche se tale confronto ha come fine l’individuazione delle code.)

      .
      Ammetto che avevo letto solo l’abstract dell’articolo originale, ma l’averlo scorto un po’ meglio non mi ha particolarmente convinto perché continuo a ritenere poco vantaggioso il ricorso a metodologie come quella proposta.
      .
      In primo luogo perché non si può ricorrere a strumenti di analisi statistica – almeno per quanto riguarda le mie attuali conoscenze – per superare gli errori caratteristici di un sistema che è nato “solamente” per migliorare progressivamente la qualità degli insegnamenti dei singoli corsi di studio, anno dopo anno, e non per confrontare corsi e docenti: mi riferisco alle mie osservazioni “generiche” 1-8, che mi sembra restino valide anche se si limita il campione in esame a una singola Facoltà e l’obiettivo a trovare la “pecora nera”)
      .
      Ma soprattutto, a prescindere da ogni altra considerazione più specifica, i tre metodi proposti si basano comunque su un ordinamento di valori relativi, che a mio parere non può essere usato in questo caso.
      Cerco di spiegarmi meglio:
      .
      OBIEZIONE 1) La posizione in una classifica dipende fortemente dal campione stesso, nell’esempio da lei citato:
      “Su 100 ipotetici docenti, interessa poco chi sia il primo, il ventesimo o il cinquantesimo. Piuttosto, il sistema di valutazione proposto è incentrato a capire perché gli ultimi siano in quella posizione.”
      Seguendo questo esempio, Il cinquantesimo docente a livello di facoltà potrebbe essere il “peggiore” per un singolo corso di studi: perché privare quel corso di una possibilità di discutere quel risultato e migliorarlo?
      D’altra parte, se si analizzano separatamente i CdS come viene fatto nell’articolo, si cade nell’estremo opposto: ci sono molti “peggiori”, ma potenzialmente molto diversi tra loro: trattarli nello stesso modo sarebbe un’ingiustizia nei confronti di chi ha la “sfortuna” di avere colleghi mediamente più bravi nel proprio CdS. O semplicemente, studenti più “convinti” e quindi “spietati” nell’uso dei questionari: perfino CdS diversi non sono campioni confrontabili!
      .
      OBIEZIONE 2) Per definizione, c’è un solo risultato “peggiore”, ma questo non esclude che anche alcuni di quelli precedenti siano comunque sotto una soglia di guardia che non può essere ignorata:
      Supponiamo che la distribuzione per una data domanda sia la seguente:
      20 corsi con valutazione positiva oltre il 75%
      5 corsi con valutazione positiva oltre il 50%
      3 corsi con valutazione positiva oltre il 20%
      2 corsi con valutazione positiva inferiore al 20%
      Limitandosi a considerare le “code” c’è il rischio di considerare “accettabili” quei 3 corsi che probabilmente sono un problema.
      .
      OBIEZIONE 3) riguardo alla “moral suasion”: per me, una classifica è sempre un’arma a doppio taglio perché crea fastidiose “zone grigie”. Lei considera come una posizione di “forza” per chi è deputato a stimolare un miglioramento il poter affermare qualcosa come: “secondo le schede OPIS sei uno dei meno chiari a lezione”…
      Non pensa che sarebbe ancora più efficace: “secondo le schede OPIS, 8 studenti su 10 non trovano chiare le tue lezioni”?
      Ma soprattutto: supponiamo ora che ci siano un altro docente con 7 studenti insoddisfatti e altri tre docenti per i quali siamo a 5 studenti su 10, cosa a direbbe a questi ultimi tre?
      Pur brandendo minaccioso un istogramma simile a quelli riportati nella Figura 3 del suo articolo e facendo del suo meglio per mostrare tutta la sua indignazione, sarebbe comunque costretto a dire a Tizio qualcosa come: “Lei, Caio e Sempronio siate terzultimi a pari merito…” e quello penserà: “beh, non sono l’ultimo, e comunque mal comune mezzo gaudio”…
      Ma cosa penserà se invece si sentirà dire: “Amico caro, metà degli studenti a cui fai lezione pensano che tu non insegni bene?”
      .
      OBIEZIONE 4) I numeri tradiscono…
      Nella modalità di confronto introdotta, non si tiene conto della differente numerosità dei corsi, questo può portare a buffe conseguenze: perché cercare di individuare il corso “più problematico” e quello che richiede un intervento più urgente sono cose non sempre equivalenti.
      Supponiamo che l’insegnamento A del primo anno, obbligatorio e propedeutico per tutti gli altri insegnamenti del CdS, abbia 100 studenti e una soglia di gradimento del 50%: 50 studenti sono insoddisfatti…
      Il corso B del terzo anno, facoltativo e di un argomento di nicchia, ha invece 10 studenti, e una soglia di gradimento del 10%: 9 studenti sono insoddisfatti…
      Quale è la situazione più urgente da risolvere?
      Certo, il docente B sarà nella “coda dell’infamia”, ma se dovesse scegliere su quale dei due intervenire, non giudicherebbe comunque più importante migliorare A?
      OBIEZIONE 5) I numeri tradiscono (ancora)….
      Ha specificato che il suo interesse non è quello di creare classifiche ma identificare le code inferiori, ma alla fine una classifica verrà comunque stilata e qualche buontempone la userebbe per le solite finalità “premialistiche”. Potrebbe accadere qualcosa del genere:
      Supponiamo che il corso A, di nuovo di base e di nuovo al primo anno, abbia 100 studenti, e una soglia di gradimento sempre del 50%: 50 studenti sono contenti, gli altri no perché non c’è stato tempo di rispondere alle domande e, impreparati all’impatto con l’università non hanno seguito bene durante l’anno.
      Il corso B del terzo anno, di nuovo facoltativo e di un argomento di nicchia, ha 10 studenti e questa volta un gradimento del 100%: tutti e 10 gli studenti sono esaltatissimi perché hanno potuto usare i nuovi strumenti nel laboratorio di ricerca del docente e sanno che quella è la strada della loro vita.
      Il docente B è nell’olimpo del percentile più elevato!
      Il docente A si vergogna un po’…
      Non si sentirebbe un po’ rattristato per il docente A? ;)
      .
      .
      Chiedo scusa ma continuo convintamente a dissentire sull’opportunità di introdurre metodologie di confronto basate su una qualsiasi forma di ordinamento dei risultati dei questionari della didattica :)
      .
      Resto dell’opinione che solo l’analisi dettagliata delle schede e la discussione aperta con gli studenti, con il minore impiego possibile di pur formalmente corrette elaborazione statistiche dei dati, sia la strada migliore per ottenere valide informazioni dai questionari di valutazione della didattica.

    • * Scusate tutti, come al solito la revisione finale ha fatto più male che bene -.-
      nell’Obiezione 3) quel “siate” è chiaramente un “siete”…

  8. Ho letto tutto l’articolo da cui è tratto questo post e sono decisamente perplessa.
    Intanto mi pare che il concetto di “pessimenza” sia quello già correntemente utilizzato da diversi Nuclei di Valutazione delle università per individuare gli insegnamenti più deboli, con richiesta di relativa discussione in CdS. Non so fornire, però, numeri su quante università seguano effettivamente questo metodo. Volevo solo dire che non si tratta certo di una novità.
    .
    Entrando più nel merito dell’articolo:
    .
    – l’affermazione: “In analogia con quanto accade con la valutazione della ricerca, noi siamo fermi sostenitori del fatto che valutazioni numeriche possano essere utili, quando i numeri sono abbastanza grandi per valutare comparativamente grandi popolazioni di studiosi. Ma possono essere anche utili per valutare individualmente quella che, volendo scherzosamente creare un neologismo, potremmo definire la “pessimenza”.” partendo da un assunto corretto, *quando però si definiscono n maniera altrettanto corretta i parametri su cui si fondano tali valutazioni numeriche* (se usiamo l’impact factor della rivista per valutare le pubblicazioni, ad es, neanche i grandi numeri suppliscono alla carenza di valore dell’indicatore), mi pare poi che si giustifichi l’uso di queste grandi statistiche per la valutazione “individuale”, cosa di per sé, come si sa, scorretta; segue però l’altra affermazione: “individuare la coda più problematica è più facile, presenta maggiori caratteri di oggettività ed è anche più utile.” e cioè in realtà tutto il lavoro dell’articolo si concentra sull’individuazione del *meno del 10% dei corsi*, quelli che presentano cioè criticità evidenti; tutto ciò mi ricorda inevitabilmente l’uso un po’ risibile (a parte che gli altri usi non sembrano comunque molto più utili) della costosissima VQR per trovare un 5% di fannulloni, cosa che di certo non richiede, neanche nel caso della valutazione della didattica a partire dai questionari, una grande elaborazione statistica;
    .
    – il confronto fra i metodi M1, M2 ed M3 risulta particolarmente efficace per l’esempio della tabella 2, ossia quando il numero di schede è effettivamente basso (e c’è una differenza particolare fra due casi…) e quindi le code contengono un numero di risposte che, per quanto piccolo, è percentualmente più significativo; aumentando il numero di risposte, M1 e M3 danno naturalmente dei risultati del tutto simili e quindi non se ne apprezza la differenza; M3 si basa sull’eliminazione del 50% dei dati: questa operazione è tanto più rischiosa (50% di livello di confidenza!!) quanto più i numeri delle schede sono piccoli e infatti per i corsi con meno schede (il CdS 1 ad esempio) la linea di M3 fluttua tra M1 ed M2 in maniera irregolare;
    .
    – la scelta del tipo di domanda non è neutrale naturalmente: la domanda più oggettiva può dare risultati più affidabili statisticamente, mentre quella meno oggettiva può sicuramente presentare variazioni statistiche più significative e bias (è recente uno studio di come il genere del docente influenzi l’apprezzamento del corso): il metodo che scarta il 50% delle risposte mi sembra essere molto più rischioso in questo caso, peggiorando l’uso generale della statistica per domande troppo soggettive;
    .
    – infine, e qui mi ripeto, lo scopo è di individuare il numero di corsi “più pessimi”, che siano docenti ritardatari, oppure ermetici, oppure bugiardi (il loro programma sul web non corrisponde alle lezioni svolte ad es), ecc… con soglie che alla fine vogliono individuare un numero di corsi di meno del 10%: much ado about nothing? C’è bisogno di scomodare elaborazioni statistiche tanto “complesse” quanto magari fallaci per questo obiettivo?
    .
    Ritengo poi che, in generale, non basti agire solo sulla “pessimenza” (casi peraltro eclatanti e, per alcuni dei quesiti, come la puntualità, neanche difficilmente affrontabili), ma serva una riflessione da parte di ogni singolo docente sui risultati avuti, da portare poi eventualmente in discussione negli organi preposti (comprese commissioni didattiche, sull’offerta formativa) per migliorare l’offerta formativa tutta, le condizioni in cui gli studenti seguono corsi ed esercitazioni, il materiale didattico, ecc…
    Con, insomma, e sicuramente, maggior flessibilità che quella suggerita dal verdetto dei numeri sulla sola, presunta, “pessimenza”, con lo scopo di migliorare il giudizio complessivo del CdS tramite l’eliminazione di questa.

  9. Comunque la si giri si usano “sondaggi” fatti con campioni piccolissimi e non controllati. Sondaggi soggetti ad ogni sorta di “perturbazione” come il fatto che sia o non sia simpatico il prof., quanto piaccia o non piaccia la materia, se sia o meno difficile e cosi via. Sono a malapena dei pessimi indicatori e vengono usati come misure per la valutazione del singoli. Una pazzia, ma è il linea con l’uso dell’impact factor, H-index e altri indicatori per “misurare oggettivamente” la ricerca.

  10. Quando noi giudichiamo gli studenti agli esami quando siamo bias ati dalla nostra umana debolezza???
    Allora, secondo me un modo per valutare bisogna trovarlo e sarebbe opportuno che fosse proposto da esperti del campo e non da stregoni o frequentatori di bar di turno.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.