Testo pubblicato in Aspenia 63 “Dove Est incontra Ovest”, Aspen Institute Italia, Roma, dicembre 2013 

Oggi è tecnicamente possibile la raccolta di enormi quantità di dati. Ma il trattamento dei “big data” non è in grado, di per sé, di migliorare la capacità di previsione di fenomeni naturali o sociali. Anche di fronte alla cono- scenza delle leggi dinamiche sottostanti, infatti, rimane difficile comprendere l’evoluzione di forze che danno spesso luogo a comportamenti caotici. 

Grazie allo sviluppo dell’informatica e di internet è ora possibile accumulare grandi insiemi di dati; si è così venuta a creare una nuova situazione che solo fino a qualche anno fa appariva impensabile. La quantità di dati archiviati in forma digitale, infatti, sta crescendo in maniera esponenziale e questo scenario pone una serie di nuovi problemi nuovi da considerare, dalla privacy degli individui alla qualità dell’informazione che può essere estratta dalle banche dati. Mentre ci sono delle applicazioni, come ad esempio lo sviluppo di traduttori  automatici, in cui i dati possono davvero rappresentare un’innovazione fondamentale, la domanda che molti si pongono è se tali dati, da soli (senza cioè un modello teorico di riferimento) possano essere sufficienti per comprendere i fenomeni naturali o sociali, e se questa nuova situazione implichi una sorta di “fine della teoria”. In realtà, ci sono dei limiti intrinseci alla possibilità di estrazione di informazioni da grandi quantità di dati. Per illustrare il punto prendiamo le mosse da un esempio “storico” di comprensione di un fenomeno naturale avvenuto senza un modello teorico di riferimento.

IL COMPORTAMENTO CAOTICO DEI PIANETI.

Ogni civiltà a noi nota ha sviluppato delle conoscenze astronomiche: sono stati osservati i cicli del sole e della luna perché la loro conoscenza era importante per programmare le semine e i raccolti. Tra queste civiltà è interessante ricordare i maya che non avevano formulato un modello fisico per spiegare il movimento degli astri, ma dallo studio delle osservazioni astronomiche effettuate nell’arco di centinaia d’anni sono stati capaci di fare previsioni molto accurate. In particolare, la loro civiltà è stata in grado di prevedere non solo le eclissi di luna ma, cosa più difficile, le eclissi di sole. Dall’accumulazione dei dati delle osservazioni i maya hanno dunque compreso le diverse e sottili periodicità dei moti dei pianeti senza un modello fisico di riferimento. Questo è stato possibile poiché il problema fisico era ben posto.  Oggi, infatti, sappiamo che non solo esistono delle leggi deterministiche che regolano il moto dei pianeti (la legge di gravità), ma che il sistema solare stesso mostra un comportamento caotico solo su scale di tempo molto più lunghe di quelle interessanti per le previsioni utili all’uomo.

Il concetto di caoticità di un sistema è alla base della possibilità sia di fare previsioni accurate che di trovare periodicità o ricorrenze nell’evoluzione dinamica del sistema stesso. Cerchiamo di chiarire meglio di cosa si tratta: in termini semplici possiamo affermare che la precisione finita con cui possiamo conoscere lo stato del sistema solare oggi – in altre parole la posizione dei vari pianeti,  della luna, e così via – causerà una differenza rilevante per la previsione della posizione dei pianeti tra qualche migliaio di anni.  Questa situazione può sembrare sorprendente. Ci si aspetterebbe, infatti, che, essendo note le leggi che determinano la dinamica di un sistema, per conoscere la posizione di un corpo sia sufficiente risolvere le equazioni del moto (che sono dunque anch’esse note) e calcolare le varie quantità fisiche a partire dalla conoscenza delle condizioni iniziali, ovvero la posizione e la velocità a un certo istante di tempo.

Tuttavia, la situazione non è così semplice visto che un sistema in cui vi sono “molti corpi” in interazione non lineare diventa rapidamente caotico, e dunque non lineare: una piccola variazione nelle condizioni iniziali produce un grande cambiamento della posizione e della velocità quando il sistema si è evoluto per un tempo sufficientemente grande. E nel caso di sistemi che interagiscono attraverso la legge gravitazionale, è sufficiente avere tre o più corpi (come terra, luna e sole) per ottenere un comportamento caotico.

LE CONDIZIONI INIZIALI E L’EFFETTO FARFALLA.

L’aspetto principale del caos è stato ben riassunto dal matematico francese Henri Poincaré: “Se pure accadesse che le leggi della natura non avessero più alcun segreto per noi, anche in questo caso potremmo conoscere la situazione iniziale solo approssimativamente. […] può accadere che piccole differenze nelle condizioni iniziali ne producano di grandissime nei fenomeni finali. Un piccolo errore nelle prime produce un errore enorme nei secondi. La previsione diventa impossibile e si ha un fenomeno fortuito”.  A questa dipendenza sensibile dalle condizioni iniziali si fa riferimento quando si parla di “effetto farfalla” (cioè del fatto che il battito di una farfalla in Brasile possa causare un tornado in Florida). In altre parole, una piccola incertezza che caratterizza lo stato di un sistema in un certo momento (che la farfalla batta oppure no le ali) cresce esponenzialmente nel tempo, provocando un alto o altissimo grado di incertezza sulle condizioni del sistema nel futuro. Anche in condizioni ideali – in assenza cioè di perturbazioni esterne e con un modello fisico esatto, cioè con delle leggi deterministiche note che ne governano l’evoluzione dinamica – l’errore con cui conosciamo lo stato iniziale del sistema è dunque destinato ad amplificarsi nel tempo a causa della caoticità che caratterizza la maggior parte dei sistemi non lineari.

L’errore sulla condizione iniziale, anche se infinitesimo, cresce esponenzialmente diventando rilevante per lo svolgimento del fenomeno e rendendo impossibile compiere previsioni oltre un certo periodo.   Nel compiere una previsione si dovrà quindi fissare una soglia di tolleranza sull’errore con cui si vuole prevedere un certo fenomeno, come ad esempio la posizione della luna. Questa soglia, a sua volta, determinerà il tempo massimo per cui la previsione è ritenuta accettabile, in altre parole l’orizzonte di predicibilità. Più è piccola l’incertezza con cui vogliamo conoscere la posizione della luna, più breve sarà l’orizzonte di predicibilità. La caoticità della dinamica pone dunque limiti intrinseci alla nostra capacità di compiere delle previsioni. Questi limiti variano da sistema a sistema: l’orizzonte di predicibilità per le eclissi è dell’ordine di migliaia d’anni, mentre per il tempo metereologico è di qualche ora o giorno a seconda delle condizioni atmosferiche e del luogo specifico.

Questo avviene perché l’atmosfera è caotica, ma con una complessità molto maggiore del sistema solare: si tratta di un sistema non lineare “a N corpi”, con N
molto maggiore rispetto al sistema solare.

LEGGI DETERMINISTICHE E PREVISIONI.

Assumiamo ora che un dato sistema sia regolato da leggi deterministiche che però ci sono ignote. Rispetto all’esempio precedente, in cui le leggi erano note, abbiamo dunque aumentato la complessità del problema. Ci si chiede dunque se, in questo caso, studiando una grande quantità di dati che descrivono l’evoluzione del sistema – proprio come avevano fatto i maya con il sistema terra-luna-sole – si possano comprendere caratteristiche del sistema utili a conoscere il suo stato in un tempo futuro; cioè utili per eseguire una previsione affidabile. L’idea essenziale è applicare a questi dati il cosiddetto “metodo degli analoghi”, che permette, dalla conoscenzadello stato del sistema fino a un tempo abbastanza remoto nel passato, di inferire lo stato futuro. In altre parole, si cerca nel passato una situazione “vicina” a quella di oggi e, da quella, si inferisce l’evoluzione del  sistema: se nella serie temporale che descrive la passata evoluzione si trova una situazione simile a quella attuale, si può sperare di imparare qualcosa sul futuro del sistema anche in assenza di un modello che ne descriva l’evoluzione.

Il matematico polacco Kac ha però mostrato che il tempo medio di ritorno di un sistema a una certa condizione cresce esponenzialmente con la dimensionalità del sistema stesso, ovvero con il numero di variabili rilevanti che ne descrivono lo stato fisico. In pratica, le regolarità in un sistema con alta dimensionalità (un sistema cioè con un numero sufficientemente grande di corpi in interazione) appaiono su scale di tempo che sono e rimarranno inaccessibili per quanto le banche dati digitali possano auspicabilmente crescere.  Nel caso del sistema terra-luna-sole – proprio per il fatto che la sua dinamica è guidata da leggi deterministiche e che il numero dei corpi è solo tre – è stato possibile scoprire delle regolarità dai dati delle serie storiche. Ma questo caso è stato una fortunata eccezione.

Nonostante un sistema sia regolato da leggi deterministiche note, è dunque possibile fare delle predizioni sulla sua evoluzione nel lungo periodo solo per dei periodi di tempo determinati dalle caratteristiche del sistema stesso. La legge di gravità che muove i pianeti, così come le leggi della fluidodinamica che descrivono la dinamica dell’atmosfera (o le leggi dell’elasticità che regolano i movimenti delle placche terrestri e dunque sono alla base dei terremoti), sono tutte leggi della fisica ben note, definite “leggi deterministiche”. Malgrado questo, poiché i sistemi cui si applicano sono composti di molti corpi, esiste comunque un orizzonte di predicibilità, un tempo oltre il quale non è possibile fare una previsione affidabile perché il sistema diventa caotico. Nel caso dei terremoti, ad esempio, non è possibile conoscere lo stato del sistema a un certo tempo, se non in maniera molto grossolana, ed è dunque impossibile compiere previsioni affidabili.  La situazione diventa poi molto più complicata se le leggi deterministiche che regolano la dinamica del sistema non sono note o se neppure esistono (come nel caso di sistemi la cui evoluzione è regolata o da leggi statistiche o da leggi che cambiano nel tempo, si pensi all’economia o altre scienze sociali).

È lecito allora chiedersi se in  campo economico esistano leggi che governano la dinamica dei mercati nello stesso senso in cui la legge di gravità muove i pianeti. A quanto è dato oggi sapere, la risposta è negativa, poiché queste leggi sono sicuramente dipendenti dal tempo, dato che in diversi periodi storici sono state adottate diverse regolazioni degli scambi commerciali; inoltre non si può trascurare l’influenza delle diverse condizioni storiche e sociali.

ESPERIMENTI SCIENTIFICI E CORRELAZIONI STATISTICHE.

Per cogliere la differenza tra le scienze sociali e le scienze naturali bisogna ricordare che le leggi di natura per definizione sono universali e immutabili. La conoscenza di queste leggi rende possibili previsioni verificabili con esperimenti effettuati in condizioni controllate per eliminare o minimizzare gli effetti di fattori esterni non contemplati dalla teoria. Solo in questo caso il risultato di un esperimento è, a parità di condizioni, universale: ripetibile cioè in un altro luogo o momento. Quando queste condizioni non sono verificate bisogna essere molto cauti nell’usare i metodi matematici e statistici che sono stati sviluppati nello studio delle scienze naturali. Si rischia di ottenere infatti risultati che sembrano scientifici – ovvero simili a quelli che si ottengono quando si studiano le scienze naturali – ma che in realtà sono determinati dagli assunti a- priori (o da una vera e propria impostazione ideologica) che, in maniera più o meno esplicita, si sono usate nell’analisi.

Cerchiamo di chiarire meglio questo punto centrale. In molti casi si fa un uso piuttosto disinvolto di analisi statistiche per trovare delle correlazioni tra variabili: anche non avendo un modello di riferimento si cercano delle correlazioni, sperando che da queste si possano inferire le leggi che regolano la dinamica di un sistema. Le banche dati sono il luogo ideale in cui cercare correlazioni a posteriori, ovvero non attese a priori in base ad un  modello teorico ma semplicemente identificate nei dati e a cui si cercherà, a posteriori, di dare una spiegazione.  Si misurano,  dunque, periodicamente i valori di due variabili e si calcola il coefficiente di correlazione: questo vale 1 se le due variabili sono proporzionali, zero se sono del tutto indipendenti e -1 se sono inversamente proporzionali. Una correlazione alta non implica, però, che una variabile abbia una relazione di causalità con l’altra; piuttosto può verificarsi che queste variabili possano avere una causa comune. Ad esempio nelle città italiane sia il numero di chiese che quello di omicidi commessi ogni anno sono proporzionali alla popolazione, ma questo non significa che aumentando il numero di chiese aumenti il numero di omicidi, né peraltro l’inverso!

Oppure, è noto che in Italia il coefficiente di correlazione fra il numero di personal computer e quello di malati di aids fra il 1983 e il 2004, risulti uguale a 0,99: ovvero una correlazione altissima ma completamente irrilevante. Sono solo due processi di penetrazione casualmente sorti e cresciuti insieme e che ora, insieme, stanno frenando. Tale esempio serve a chiarire che si possono trovare correlazioni spurie che non hanno alcun senso: questo accade quando si hanno tanti dati ma pochi strumenti concettuali per analizzarli o, peggio ancora, quando si hanno preconcetti e si usano i dati per trovare un qualche tipo di correlazione che ne giustifichi a posteriori l’uso.  Per illustrare con un altro esempio il problema delle correlazioni spurie a posteriori, possiamo ricordare uno studio in cui è stata trovata una correlazione statisticamente significativa tra il consumo di cioccolato e il numero di premi di Nobel vinti dai cittadini di una determinata nazione: ovvero più un paese consuma cioccolato, più si vincono premi Nobel. Si è scoperto addirittura che per aumentare di un’unità il numero di premi Nobel per dieci milioni di abitanti è necessario aumentare il consumo di cioccolato pro capite di 0,4 kg. Questo risultato è palesemente insensato, e il problema è che la presenza di una correlazione non implica la presenza di un nesso di causalità. Si possono fare moltissimi altri esempi di casi in cui, analizzando un gran numero di dati, sono rilevate correlazioni tra fenomeni completamente indipendenti.

Possiamo dunque usare le moderne banche dati digitali come la civiltà maya utilizzò i dati astronomici, ovvero trovando delle “regolarità” nelle serie temporali di un certo  fenomeno, senza un modello di riferimento, per capire quello che succederà in futuro?  La risposta a questa domanda è in genere negativa, e la “fine della teoria” risulta così un miraggio. Perfino i sistemi fisici – che sono più gestibili poiché si conoscono le leggi dinamiche sottostanti – sono governati da forze che, benché deterministiche, danno luogo a comportamenti caotici e dunque pongono delle difficoltà intrinseche per effettuare una previsione e per conoscerne il comportamento futuro.

IL MIRAGGIO DELLA “FINE DELLA TEORIA”.

Quando non si conoscono le leggi che governano l’evoluzione di un sistema o quando queste leggi non sono deterministiche e universali (ma cambiano nel tempo o sono leggi statistiche) la situazione diventa rapidamente  intrattabile. Possiamo in questi casi sperare di trovare correlazioni nei dati che legano il cambiamento di alcune grandezze e usare la conoscenza di queste correlazioni, anche senza capirne l’origine, per predire il comportamento futuro di sistema? Anche in questo caso, la risposta deve essere generalmente negativa.  Già prendendo in considerazione un sistema sufficientemente complesso, con molti corpi e governato da leggi deterministiche, l’analisi di serie storiche non aiuta a trovare un analogo, ovvero a rilevare una situazione vicina a quella attuale già verificatasi nel passato e dunque capace di dare indicazioni per inferire l’evoluzione futura del sistema stesso.  È possibile invece usare le banche dati per trovare, a posteriori, delle correlazioni tra variabili che descrivono lo stato di un sistema, ma è necessario aver ben presente che una correlazione a posteriori – dunque non una genuina predizione di una teoria – non implica in genere l’esistenza di un nesso causale. Anzi, può essere molto fuorviante e può essere usata in maniera strumentale per sostenere, attraverso un’analisi pseudo- scientifica, delle tesi che invece sono solo assunti ideologici.

D’altra parte, i big data possono essere uno strumento utile proprio per capire se gli assunti alla base di certi modelli o teorie, anche nel campo delle scienze sociali, sono verificate o meno. Per esempio, riguardo all’economia i mercati finanziari rappresentano un laboratorio idealizzato per testare alcuni concetti fondamentali. Questa situazione è particolarmente importante per la teoria mainstream dei mercati efficienti: la teoria assume che i mercati deregolati dovrebbero essere efficienti e gli agenti razionali dovrebbero aggiustare velocemente ogni prezzo non completamente corretto oppure ogni errore di valutazione. Per esempio, le carte di credito e il commercio elettronico dovrebbero permettere di monitorare il consumo in tempo reale e dunque di testare le teorie del comportamento dei consumatori in grande dettaglio. Si potrebbe così rispondere a queste domande: il prezzo delle merci riflette fedelmente la sottostante realtà e assicura l’allocazione ottimale delle risorse? Il prezzo è davvero stabilito in maniera tale che l’offerta incontri la domanda? I cambiamenti dei prezzi sono dovuti a particolari informazioni e notizie disponibili agli operatori? Analogamente, i terabyte di dati che sono elaborati ogni giorno dai mercati finanziari potrebbero permettere di confrontare in dettaglio le teorie con le osservazioni: i mercati “in equilibrio” sono stabili? Le crisi economiche sono innescate solo da grandi perturbazioni esogene come gli uragani, i terremoti o gli sconvolgimenti politici (o meno drammaticamente l’instabilità di una coalizione di governo), o sono causate dall’instabilità intrinseca dei mercati stessi?  Dunque, piuttosto che cercare correlazioni a posteriori per trovare un effimero supporto empirico a qualche modello teorico, è necessario essere preparati ad avere a che fare con grandi quantità di dati ed essere pronti a imparare ad analizzarli senza pregiudizi.  A volte – ma non sempre – sarà possibile così verificare se gli assunti teoriche alla base di importanti modelli interpretativi della realtà sociale, spesso in aperta competizione con modelli alternativi, trovino davvero qualche riscontro parziale nella realtà.

Send to Kindle

14 Commenti

  1. Molto bello, mi trovo d’accordo con il ragionamento.

    Aggiungo alle conclusioni una domanda che sto cercando di investigare nel mio campo (Empirical Software Engineering), ma che magari puo’ essere generalizzabile (con opportuni accorgimenti) ad altre discipline.

    Possiamo usare le analisi curiosity-driven dei big data per velocizzare le fasi iniziali esplorative della ricerca, lasciando poi alla sperimentazione ed in genere alle metodologie scientifiche tradizionali (nel mio caso, empiriche) la conferma (o creazione) dei modelli teorici ?

    • Una che contenga effettivamente le misurazioni delle vere variabili che causano entrambe, giocando nel mondo lineare.
      Immagino sia per il sake della divulgazione, ma dal testo sembra che chi si occupi dello studio empirico di dataset grandi in discipline non mature quanto la fisica sia un ingenuo scrutatore di matrici di correlazione. La realtà è molto più sofisticata, ad esempio il problema di controllare linearmente per dei confound (inversione della covarianza) è vecchia quanto la regressione. Ci sono concetti relativamente moderni tipo la sparsità (e conseguenti tecniche per la stima della correlazione: http://biostatistics.oxfordjournals.org/content/9/3/432.short), che uniti con tecniche di resampling permettono quanto meno di escludere tutte le relazioni che non contengono informazioni.

  2. Ci sono altre 10 righe che ha sapientemente saltato concentrandosi sulla battuta. Se vuole rispondere con arroganza consigliando un altro post si limiti a non permettere la pubblicazione del commento, grazie.
    Lei ha parlato di correlazione per 2 pagine facendo finta che equivalga a dipendenza statistica e io ho mantenuto l’assunzione. In un sistema gaussiano (aka giocando nel mondo lineare) correlazione=dipendenza e se effettivamente ci sono delle variabili realmente correlate (aka la concentration matrix del data generation process del sistema ha valore diverso 0) con il consumo di cioccolato e i premi nobel, tenendole in considerazione la correlazione spuria dovrebbe scomparire anche dalla stima empirica.

  3. Da ricercatore di informatica e di database devo dire questo articolo mi ha lasciato stupito. da un po do tempo sto studiando i problemi sui big data (in particolare la loro qualità) ma non ho mai letto articoli (nel mio settore) che affermino che big data porta alla fine della teoria
    ho trovato anzi parecchie volte nuove sfide su come le teorie possano essere validate o meno usando i big data o sul senso di usare campioni di riferimento statisticamente validi… un riferimento a chi parla di fine delle teoria sarebbe apprezzato.

  4. non sono uno statistico per cui mi scuso in anticipo per l’imprecisione del linguaggio. Che io sappia, la correlazione tra variabili non implica assolutamente una dipendenza causale. Misura solamente la la loro variazione congiunta. Un test statistico sulla correlazione misura la probabilità che questa sia dovuta al caso ovvero ad “altre” cause. “Altre” può voler dire una terza (quarta…) variabile che le influenza entrambe.
    Per fare un esempio: la correlazione tra consumo di carne e cancro al colon+altre malattie(es. Singh PN, Fraser GE Dietary risk factors for colon cancer in a low-risk population. Am J Epidemiol. 1998 Oct 15;148(8):761-74)non implica un legame causa effetto come è stato abbondantemente dimostrato (es. Cox, B D, and M J Whichelow. 1997. ‘Frequent Consumption of Red Meat Is Not Risk Factor for Cancer’. BMJ 315 (7114): 1018).
    Infatti il consumo di carne è associato ad una elevata ingestione di nitriti-nitrati (carni conservate), scarso consumo di vegetali contenenti antiossidanti ecc. Per cui dire ingenuamente che mangiare carne fa venire il cancro significa interpretare male la correlazione. Di conseguenza, si possono usare tecniche sofisticate per depurare i dati, ma questo non fa trovare le cause di un fenomeno. Peggio ancora validare una teoria.

    saluti

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.