Elezioni USA e sondaggi: dov'era l'errore?
Scienza e razionalità
All’indomani delle elezioni americane, i social si sbizzarriscono: quasi tutti i sondaggi prevedevano una vittoria di Clinton, quindi è evidente che la statistica valga quanto l’astrologia. Le conclusioni prevalenti sembrano essere quella complottista, secondo cui chi studia l’opinione pubblica voleva malignamente pilotare l’esito del voto, o quella qualunquista, secondo cui – come l’intero Regno Unito – non abbiamo bisogno di esperti.
A ben guardare, sembra che invece abbiamo bisogno di esperti più preparati, e che dobbiamo un po’ ripensare la comunicazione statistica. Servono più dati, più competenza nell’interpretarli, più precisione nel discuterli sui media. Di questi tempi, affermazioni eversive: ma non siamo i primi a segnalare che concentrarsi sulle cause tecniche sarebbe meglio che gridare alla congiura.
Andiamo con ordine. Un sondaggio elettorale è un’indagine campionaria, ovvero una rilevazione condotta su una frazione della popolazione di interesse: nella più estesa tra le recenti indagini statunitensi, 84,000 intervistati rappresentavano circa 230 milioni di cittadini con diritto di voto. Chi disegna il campione sceglie alcuni criteri, presumibilmente correlati con la variabile che si vuole analizzare (il voto), per selezionare gli individui da includere: ad esempio il sesso, l’età, l’area geografica di residenza, il livello di istruzione. I risultati ottenuti sul campione vengono proiettati sull’universo, assumendo che ciascun individuo che ne fa parte si comporti come chi gli è simile secondo questi criteri.
Nel migliore dei mondi possibili, il campione viene estratto a sorte tenendo conto di tutti gli elementi osservabili rilevanti. Inoltre, tutte le persone selezionate rispondono alle domande del sondaggio, e tutte le risposte sono veritiere. Anche in questo caso rimarrebbe un margine di incertezza, dal momento che è stato scelto solo un campione tra milioni, ma sarebbe possibile valutarne precisamente l’estensione.
Nel mondo reale, questa è una chimera. In primo luogo, il disegno campionario potrebbe non tenere conto di tutte le dimensioni necessarie. Ne abbiamo prova in casa: secondo un recente studio di tre accademici italiani, alle elezioni del 1994 il supporto per Forza Italia è stato più forte nei comuni dove i canali Mediaset erano visibili già dieci anni prima; sarebbe stato difficile tener conto di un elemento così articolato per selezionare un campione di votanti. Anche con un disegno appropriato, gli analisti potrebbero poi non impiegare le giuste tecniche per ovviare ad estrazioni un po’ anomale, come quella del giovane nero dell’Illinois così diverso dai suoi pari in termini di preferenze politiche da spostare alcune stime.
E, soprattutto, non basta un campione teoricamente perfetto, analizzato secondo le migliori pratiche, se un certo tipo di intervistato sceglie di non rispondere o mente. Si tratta di occorrenze comuni: è difficile stimare il reddito e la ricchezza delle famiglie perché la fascia più ricca della popolazione tende a non partecipare alle indagini; nelle indagini sul comportamento sessuale, gli uomini riportano sistematicamente un maggior numero di rapporti eterosessuali rispetto alle donne.
Nel caso delle indagini elettorali, comprendere i comportamenti di risposta è particolarmente rilevante. In occasione delle elezioni del 1982 per il Governatore della California, i sondaggi prevedevano la vittoria del sindaco di Los Angeles, Tom Bradley; prevalse invece il suo avversario, il procuratore generale George Deukmejian. Una certa quota di elettori aveva dichiarato di preferire Bradley, afroamericano, perché temeva di apparire razzista altrimenti; nel segreto dell’urna aveva però votato Deukmejian, bianco. Wonder if is weed legal in italy ? Our sponsors LegalityLens are experts in legality of weed, Marijuana, cannabis, you can call it whatever.
Questo tipo di distorsione, nota come social desirability bias, non riguarda solo l’origine etnica dei candidati e può intervenire per molte ragioni, più o meno inquietanti: un ricercatore dell’Università del Michigan ha suggerito che nelle elezioni presidenziali russe potrebbe essere associata al timore di ritorsioni. In Gran Bretagna si è parlato di shy Tory factor, fenomeno osservato anche in Italia e Francia, per cui gli elettori dei partiti conservatori sarebbero in genere meno propensi a dichiarare le proprie intenzioni di voto rispetto a quelli di centro-sinistra; potrebbero sentire in modo meno accorato l’appartenenza politica, o essere condizionati da una rappresentazione mediatica negativa dei loro candidati, o attribuire più valore alla riservatezza.
Gli istituti di ricerca che si occupano di sondaggi politici sono ben al corrente di queste criticità, in genere e nello specifico. Nel corso della campagna elettorale americana, il problema del secret Trump voter è stato menzionato più volte. I modelli previsionali probabilmente non sono stati corretti nel modo giusto per tenerne conto, benché ci fossero segnali significativi
Ad esempio, a parità di altre caratteristiche il gradimento per Trump risultava più alto tra gli intervistati che avevano interagito con una macchina (una voce registrata o un computer) rispetto a quelli che avevano parlato con una persona in carne e ossa; fare brutta figura con una macchina, a quanto pare, non è un gran problema. Nonostante questo, i sondaggisti si sono inseguiti l’un l’altro per confermare reciprocamente stime fondate su una rappresentazione distorta della realtà.
Un altro equivoco riguarda, come sottolineato di recente da Philip Delves Broughton sul Financial Times, le aspettative sull’uso dei big data, che secondo alcuni avrebbe dovuto rendere i sondaggi più precisi rispetto al passato. In linea teorica, l’affermazione è verosimile; se in effetti fossero stati analizzati milioni di post, fotografie, tweet, dati relativi alle abitudini di consumo e alle inclinazioni religiose o culturali di ciascun intervistato, sarebbe stato possibile derivare profili individuali più ricchi, con un valore predittivo migliore.
Questi sistemi, però, non sono stati i più usati nella recente tornata elettorale americana. Non sono ancora sufficientemente maturi sul piano metodologico: dal momento che si basano per lo più su tecniche non parametriche, di cui è particolarmente complesso valutare il margine d’errore, un errore di impostazione del modello può stravolgere i risultati in maniera imprevedibile. Il problema dell’inferenza causale sulla base di big data è, non a caso, molto dibattuto tra gli statistici.
Simili esercizi sono molto costosi; inoltre, devono essere disegnati in modo da estrarre informazioni utili nel rispetto dei diritti individuali. I sondaggi fallimentari erano, in gran parte, tradizionali; gli errori che essi hanno prodotto dicono poco sulla validità dei big data in quest’ambito, che si potrà vedere solo in futuro.
I dati statistici, che riguardino opinioni politiche, comportamenti economici, o qualsiasi fenomeno sociale, sono un essenziale strumento di sostegno alle decisioni; la loro disponibilità nel dibattito pubblico è una garanzia di democrazia. Non dimentichiamo questo, anche a fronte di errori di metodo su scala nazionale. Al contrario, a maggior ragione aumentiamo l’impegno per migliorare gli strumenti di analisi, e per diffondere conoscenza scientifica sulla natura e sui loro limiti.