La tecnica che uso è la seguente:
- segno, per ogni sondaggio, data di esecuzione (non di pubblicazione!), stime sui principali partiti al netto di astensionisti, indecisi, bianche e nulle e cardinalità del campione;
- se un sondaggio fosse eseguito spalmato su più giorni, prendo la data finale come data indicativa;
- se in uno stesso giorno ci fossero più sondaggi, il dato per quel giorno è rappresentato dalla media pesata [1] dei sondaggi eseguiti in quel giorno;
- le coalizioni che considero sono quelle considerate dai principali sondaggisti: PD/all. = PD, SeL, SVP, il Megafono, Socialisti; FI/all. = FI, NCD, Lega, vari post AN (tutti insieme, ovvero La Destra + Movimento per Alleanza Nazionale), MPA e simili, etc; Centro = SC e UDC (FLI ormai non lo riportano nemmeno, immagino sia rientrato nei post AN); Rif/IdV/All quello che alle scorse si è presentato come Rivoluzione Civile; M5S va da solo;
- messi i dati, eseguo regressione lineare; per chi può capirlo, a costo di avere maggiore incertezza, i termini di calcolo della retta non sono pesati in base alla cardinalità del campione sulla singola data.
- dal 20 marzo in poi, la regressione lineare è pesata, e questo si dovrebbe tradurre in maggiore accuratezza, diciamo che la mia stima dell'incertezza di questo studio è 1.5% a partito.
- i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [2];
- il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
- la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
- ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
- in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
- l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
- il modo migliore per leggere un dato affetto da incertezza è il seguente [3] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
- in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
- esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [4];
- i sondaggi su 800 persone hanno in genere incertezza 4.5%, quelli su 1000 persone 3.5%, quelli su 1500 persone 2.5%;
- facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore di 2.5%.
Dato che ancora si sa un cazzo di come sarà la legge elettorale, aggiungo il grafico dei 3 principali partiti.
Divertitevi.
_____________________
[1] Se nel sondaggio A, eseguito su 1000 persone, il PD è stimato a 30% e nel sondaggio B, eseguito su 800 persone, il PD è stimato a 29%, il dato del PD per quel giorno nel mio studio sarà:
30% * 1000 + 29% * 800
------------------------------------- = 29.56%
1000 + 800
[2] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50000000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[3] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[4] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
Nessun commento:
Posta un commento
Libertà assoluta, anche se mi offendi al limite ti rispondo ma non ti censuro