[1] 7.492108
Miksi 1000 satunnaista vastaajaa on parempi kuin 100 000 vinoutunutta
Suuri otos voi olla täysin väärässä
Suomessa tyypillinen kyselytutkimus perustuu noin 1000 vastaajaan.
Somessa moni yllättyy tästä ja kiistää sen takia tulokset.
Eikö miljoonien ihmisten maassa tarvittaisi paljon enemmän?
Intuitio sanoo, että suuri otos on aina parempi.
Todellisuudessa tärkeämpää kuin otoksen koko on se, miten otos on kerätty.
Jos otos ei ole satunnainen, suuri määrä havaintoja voi tehdä tuloksesta varman mutta väärän.
Tässä postauksessa simuloin tilanteen, jossa kysytään samaa kysymystä kuin aiemmassa kirjoituksessa Suomen onnellisuudesta eli kuinka onnellisiksi ihmiset kokevat itsensä asteikolla 0–10.
Tarkastelen kolmea vaihtoehtoa:
- 1000 satunnaisesti valittua vastaajaa
- 10 000 vinoutunutta vastaajaa
- 100 000 vinoutunutta vastaajaa
Maailma on jakauma.
Populaatio: miten onnellisuus jakautuu
Oletetaan, että onnellisuus vaihtelee väestöryhmittäin.
Nuoret raportoivat keskimäärin hieman korkeampaa onnellisuutta.
Keski-ikäiset ovat lähellä keskiarvoa.
Ikääntyneet raportoivat hieman matalampaa onnellisuutta.
Yksittäinen luku ei kuvaa todellisuutta.
Todellisuus on jakauma.
Populaation todellinen keskiarvo on noin 7.5.
Emme kuitenkaan koskaan näe koko populaatiota.
Näemme vain otoksen.
kolme otantatilannetta
Simuloimme kolme realistista skenaariota.
1 satunnainen kysely
1000 henkilöä valitaan aidosti satunnaisesti.
Tämä vastaa hyvin toteutettua mielipidemittausta.
2 suuri mutta vinoutunut verkkokysely
10 000 vastaajaa.
Nuoret vastaavat todennäköisemmin.
Tyypillinen somekysely, joita eri tahot tekevät.
3 erittäin suuri mutta vinoutunut data
100 000 vastaajaa.
Vinouma on sama.
Dataa on paljon, mutta se ei ole edustavaa.
simulointi
Toistan tutkimuksen 4000 kertaa ja näytän jakauman, en vain yhtä lukua.

Kuva näyttää kolme jakaumaa. Pystysuora viiva on todellinen arvo. Satunnainen 1000 vastaajan otos osuu oikeaan keskimäärin. Suuri vinoutunut otos ei osu oikeaan, vaikka havaintoja on moninkertainen määrä. Vinouma ei katoa otoskokoa kasvattamalla.
Miksi näin tapahtuu?
Otoskoon kasvattaminen pienentää satunnaisvaihtelua, mutta se ei poista systemaattista harhaa. Jos nuoret vastaavat kyselyyn useammin, tulos painottuu heidän kokemukseensa. Lopputulos näyttää täsmälliseltä mutta kuvaa väärää populaatiota.
Iso data ei automaattisesti ole hyvä data.
Mitä tämä tarkoittaa onnellisuustutkimukselle?
Kun Suomea kutsutaan maailman onnellisimmaksi maaksi, tulos perustuu kyselyihin. Kyselyiden laatu riippuu otannasta. Hyvä tutkimus pyrkii varmistamaan, että jokaisella on yhtä suuri todennäköisyys tulla valituksi. Jos tämä ei toteudu, tulos voi vääristyä. Siksi kyselytutkimuksessa käytetään painotuksia, otantakehyksiä ja korjauksia. Silti epävarmuutta jää aina.
Maailma on jakauma.
Keskeinen oppi
satunnainen otos:
- epävarma mutta oikeassa paikassa
vinoutunut suuri otos:
- varma mutta väärässä paikassa
Tilastotiede ei poista epävarmuutta. Se tekee epävarmuuden näkyväksi.
Miksi 1000 vastaajaa riittää usein?
satunnaisessa otoksessa virhemarginaali pienenee nopeasti otoskoon kasvaessa.
1000 havaintoa on usein kompromissi kustannusten ja tarkkuuden välillä, sillä lisähavainnot parantavat tarkkuutta vain vähän. Mutta väärä otanta voi pilata tuloksen täysin. Siksi otannan edustavuus on tärkeämpää kuin sen koko.
maailma on jakauma
Yksittäinen kyselyluku ei ole totuus, vaan se on vain yksi mahdollinen havainto jakaumasta.
Kun seuraavan kerran näet lauseen:
Suomen onnellisuus on 7.5, niin muista, että todellinen arvo ei ole yksi luku, vaan se on jakauma ja jakauma riippuu siitä, miten data on kerätty.