Statcounter

torstai 16. huhtikuuta 2020

Miksi koronaviruksen leviämisestä ja vaarallisuudesta ei ole luotettavaa tilastotietoa ja uutisointia Suomessa?

Kansanedustajat ovat viime päivinä kirjoitelleet ja julistaneet suuria prosenttilukuja siitä, miten monta prosenttiyksikköä on ollut kussakin kunnassa testatuista koronapositiivisia. Valtamedia levittää viranomaiskäyriä tartunnansaaneista ja kuolleista sekä lasketaan kuolleisuusprosenttia. Näitä numeroita käytetään perusteluina erilaisille pakkotoimille, rajoituksille ja suosituksille.

Esimerkiksi tanskalaistutkimus antaa huomattavan pienet luvut kuolleisuudelle, koska sairastaneiden kokonaismäärä nähdään suuremmaksi, kuin tyypillisesti monissa muissa tilastoissa. Suomessa eivät edes kaikki oirehtivat pääse testeihin ja saa nimeänsä koronavirukseen sairastuneiksi. Vielä suurempi määrä kantaa oireettomina tai suhteellisen lievästi kipeänä viruksen. Myös kuolleisuuden rekisteröinti on häilyvää. Suomessa on koronavirukseen kuolema merkitty aina, vaikka virus itsessään ei olisi pieni tai iso tekijä kuolemassa.

Epidemiologian dosentti Mikko Painio on tuonut samanlaisia kriittisiä kysymyksiä esiin koronavirukseen liittyvistä arvioista. 

Koronaviruksen leviämisestä on viranomaisten, poliitikkojen ja journalistien toimesta levitetty moninaisia ”tuloksia” ja ”prosenttilukuja”, joita numeroarvoja on tässä täysin tarpeetonta toistaa, koska esitetyt luvut eivät vastaa edes ammattikoululaisen epäonnistuneeksi jääneen opinnäytetyön luotettavuustasoa. Minulle on muodostunut erittäin vaikeaksi tulkita ja ymmärtää, mitä nuo tarjotut luvut todellakaan kertovat koronaviruksen todellisesta levinneisyydestä ja vaarallisuudesta.

Kertaan muutamia perusasioita opinnäytetyöstäni liiketalouden koulutusohjelmasta, jossa selvitin vuonna 2004 ”kuluttajien ostovoimaa”. Aihe ei toki koske viruksen leviämistä, mutta opinnäytetyötäni varten valitsin kvantitatiivisen kuluttujatutkimuksen, jossa otantatutkimuksessa tutkin suhteellisesti kiintiöityä otosta. Tiedonkeruumenetelmänä käytin henkilökohtaista suullista haastattelua. En siis työntänyt neuloja tai letkuja haastateltavien nenän kautta, joka sekään ei ole tiedonkeruumenetelmänä virheetön. Opinnäytetyössäni kiinnitin huomiota siihen, että suullinen haastattelu oli itsessään altis virheellisille vastauksille. Nyt tarjolla oleva ”koronadata” on huomattavasti villimpää.

Kouluja käyneet viranomaiset, journalistit ja poliitikot luulisivat muistavan, että empiirisen tutkimuksen rajoituksia on tutkijoiden keskuudessa paljon arvioitu. Sikäli kuin journalistit ovat saaneet opinnäytetöitään koskaan valmiiksi, niin niihinkin on sisältynyt tutkimusmenetelmän kuvauksia. Sitä vastoin koronasta uutisoitaessa on kokonaan kaikki tuo oppineisuus unohdettu. Kun toimittajat kirjoittavat näitä ”koronaprosentteja”, niin jättäkää viinat juomatta samana päivänä ja kerratkaa tilastotiedettä!

Esimerkiksi vasta tammikuussa 2019 rekisteritutkimuksen professoriksi saatu Reijo Sund olisi kliinisen lääketieteen yksikössä varmasti pätevä tulkitsemaan kerätyn ”koronadatan” luotettavuutta ja yleistettävyyttä. Hän on vuosien aikana pitänyt useita tilastotieteen luentoja yliopisto-opiskelijoille. Astuessaan vuoden 2019 alussa uuteen virkaansa, hän korosti yliopiston vahvuudeksi monia väestöpohjaisia seurantatutkimuksia ja viittasi rekisteridatan keräämiseen. Eikö nyt olisi poikkeusaikana käytettävä osaamista myös koronaviruksesta tehtäviin yhteiskunnallisiin yleistyksiin, joita toistaiseksi on tehty hyvin holtittomasti? 

Empiiriset tutkimukset jaotellaan käytännönläheisissä oppikirjoissa tavanomaisesti kvantitatiiviseen ja kvalitatiiviseen tutkimukseen. Kvantitatiivisiin tutkimukseen kuuluvat tyypillisesti aineistokeruumenetelminä kyselyt, haastattelut ja kokeelliset tutkimukset, kun taas kvalitatiivisessa tutkimuksessa henkilökohtaiset haastattelut, eläytymismenetelmät ja dokumentit. Kvalitatiivisia tutkimuksia voisivat olla enemmän suggestiiviset kuin täsmälliset potilaiden ja epäilevien ihmisten tunnelmakuvaelmat. Valitettavasti "tilastojen" avulla tehdyt tarinat ovat nykyään myös noita suggestiivisia juttuja, tunnelmointia. 

Suunnitelmalliset survey-tutkimukset on tehokkaita tapoja kerätä tietoa silloin, kun tutkittavia on paljon. Kun kyse on viruksen leviämisen selvittämisestä kokeellisten tutkimuksen tietojen valossa, niin otantatutkimuksessa tulisi tutkia perusjoukon osajoukkoa eli otosta, pienoiskuvaa väestöstä.



Suhteellinen kiintiöpoiminta merkitsee ei-satunnaisuuteen perustuvaa ositettua otantaa. Sinänsä otos ei yksistään takaa edustavuutta, vaan myös kustakin ositetusta ryhmästä pitäisi olla mukana riittävän monta edustajaa, useita kymmeniä. Suhteellisesti kiintiöityä ositettua otantaa pidetään tehokkaana menetelmänä, kun perusjoukko on heterogeeninen. Itse perusjoukon heterogeenisuus luo aina otokseen virhettä. Ryväsotanto olisi perusjoukosta arvottu otos, jota tutkijat voisivat aktiivisesti lähestyä.

Tutkimuksessa käytettävä kiintiöinti tulisi suorittaa valtiollisesti ja kunnallisesti luotettavien tilastotietojen perusteella esimerkiksi ikäjakauman perusteella siten, että kunkin kiintiön koko muodostuu vähintää useiksi kymmeniksi.

Kvantitatiivisessa tutkimuksessa käytettävä otos on ihan käyttökelpoinen menetelmä, kun projektin taso halutaan säilyttää yhdenmukaisena ja otokseen keräämiseen käytettävää aikaa lyhentää siinä tarkoituksessa, että saadaan esille edes tietyn ajan melko luotettava tulos. Tätä metodin lähtökohtaa ovat esimerkiksi Babbie 1973:74 ja Hopkins 1996:231 selvittäneet seikkaperäisesti ymmärrettävästi.

Näin kootun reaalimaailmaa koskevan uuden primäärisen tiedon luotettavuus olisi aidosti kiinnostava ja se voisi palvella luotettavaa päätöksentekoa. Voidaan sanoa tilastotieteen sanoilla, että sellaisen aineiston kerääminen vastaisi tieteellistä tehtävää ”tavoitella ja hankkia uutta tietoa” (Sund 2001a).

Otantakehikon muodostaminen on kiintiöpoiminnan suuri haaste, mihin tilastotieteen teoreetikot ovat usein viitanneet. Suomessa vaalitutkimuksessa on hyvin ymmärretty haasteet ja korjata laskelmia ennusteissa. Kun satunnaisotantaa käytetään, silloin umpimähkäisesti jokaisella yksilöllä olisi yhtä suuri todennäköisyys tulla valituksi tutkimusotokseen. Ositettu otanta korjaa vääristymiä esimerkiksi liikkeellä olevien ja tutkimukseen sattuvien ihmisten iän suhteen. Suhteellisesti olisi kuitenkin aiheellista kiintiöidä sukupuolet ja eri ikäryhmät, jolloin jokaisesta ositteesta valitaan prosentuaalisesti yhtä paljon tutkittavia. Vasta vastaavuuden jälkeen voidaan varmistaa, että estimoitaessa otoksen laskettuja tunnuslukuja päästään lähelle perusjoukon arvoja. Bailey 1994:94-95 sekä Rose & Sullivan 1996 ovat kirjoittaneet tämän vastaavuuden tarpeellisuudesta.

Kiintiöidyn otoksen avulla voidaan pyrkiä pienempään otoskokoon kuin ilman kiintiöintiä, niin että ei tarvitse testata pääkaupunkiseudun kaikkia miljoonaa ihmistä, jotta voidaan jollakin luotettavuudella lausua viruksen leviämisestä. Miljoonan ihmisen tutkimushanke olisi sekä hidas että kallis, mistä seurauksena se tuskin olisi edes sen luotettavempi.

Kiintiöpoiminnan avulla tehdyt markkinatutkimukset ja vaaligallupit ovat hyvin tyypillisiä. Markkinatutkimuksissa tavallisin käytetty ositetun otannan menetelmä on kiintiöpoiminta (quota samplin). Haastattelututkimuksia on käytetty poliittisiin tarkoituksiin jo 1880-luvulta alkaen. Jopa Max Weber käytti menetelmää valmistaessaan tutkimustaan protestantismin etiikasta. Haastattelututkimusten kehitys liittyy Gallupin, Neymanin, Roperin, Harrisin, Stoufferin, Lazarsfeldin, Pearsonin ja Fisherin kehitystyöhön. Modernit teoriat hyödyntävät modernia tilastotiedetta ja todennäköisyyslaskentaa.

Sen sijaan että vain tiettyä rajattua ryhmää selvittäisi, niin tutkijan tulisi tutkia jokaisen tapaamansa henkilön, mikäli tämä mahtuu kiintiöön, jolloin kiintiöpoiminta on ositetun satunnaisotannan (stratified random samplin) versio. Suhteellisesti kiintiöity ositettu satunnaisotanta on nimenomaisesti kehitetty tällaisia tarpeita varten, jotta saavutettaisiin parempi edustavuus tutkittavasta väestöstä.

Vuoden 1936 vaalitutkimus Literary Digest on klassinen esimerkki survey-tutkimuksen sosiaalisesta vääristymästä: tutkimus vääristi tuloksen, koska perusjoukosta ei laadittu kehikkoperusjoukkoja ja datan kokoamismenetelmä rajoitti joidenkin sosiaalisten ryhmien vastausmahdollisuutta. Tuolloin tiedonkeruumenetelmänä käytettiin puhelinta, mikä vääristi tulosta, koska kaikilla äänestäjillä ei ollut puhelinta.

Koronaviruksesta saatavan tiedonkaruumenetelmän aiheuttamat ongelmat tulosten yleistettävyydelle ja johtopäätöksille ovat huikeasti räikeämmät kuin klassisessa epäonnistuneessa Literary Digest-tapauksessa, koska tutkittaviksi ei edes hyväksytä perusjoukon mukaista väestörakennetta. Tällä tavoin saadun rajallisen ja vääristyneen datan käyttö yleistyksissä ja uutisoinnissa tulisi olla erittäin harkinnanvaraista ja tilastotieteen menetelmiä ymmärtävää.

Kvantitatiivisten tutkimusten validiteetin (pätevyyden) arviointityyppejä on useita: sisäinen validiteetti, ulkoinen validiteetti ja face-validiteetti, sisältövaliditeetti, kriteerivaliditeetti ja käsite- eli rakennevaliditeetti. Nämä kysymykset tutkimuksen pätevyydestä, päätelmien sopivuudesta, mielekkyydestä ja käyttökelpoisuudesta ovat koronavirustapauksessa jopa aivan ydinasioita, mutta juuri validiteettia ei oudosti ole lainkaan käsitelty missään julkisessa esityksessä.

Tutkimuksen reliabiteetillä tarkoitetaan tulosten pysyvyyttä, toistettavuutta ja tarkkuutta, joka luonnollisesti sisältää ongelmia jo pelkästään viruksen etenemisen johdosta ja tutkimusmenetelmään sisältyvien väärien negatiivisten tulosten johdosta. Tilastotieteessä hyvin tunnetaan, että tulokset jäävät erittäin sattumanvaraisiksi, jos otoskoko on kovin pieni ja otos on vääristynyt kuva populaatiosta. Estimaatioiden käyttö edellyttää todennäköisyyttä. Vallitsevan virustutkimuksen yhteydessä on täysin absurdia ja epäselvää, kuinka estimaatiot voitaisiin ylipäätänsä muodostaa.

Vanhastaan Suomen Sanomalehtien liitto julkaisi haastattelututkimuksen luotettavuuden selvittämiseksi muutamia peruskysymyksiä. Ensimmäinen koski tutkijan tai tilaajan oman intressin pohtimista. Toinen koski tutkittujen joukkoa ja heidän valintaa. Myös tilastollista merkittävyystasoa, virhemarginaalia ja tuloshaarukkaa piti vanhan ajan journalistin arvioida silloin, kun tehtiin yleistyksiä yhteiskuntaan.

Lukusuosituksia:

Babbie, Earl R. 1973. Survey Research Methods. Wadsworth Publiching Company, Inc. Belmont,
California.

Bailey, Kenneth D. 1994. Methods of Social Research. The Free Press. New York.

Hopkins, Glass 1996. Basic Statistics for the Behavioral Sciences. Boston: Allyn & Bacon. 3rd
Edition

Ramachandran, G. & Rao, T.J., 1974. Stratified sampling and allocation of sample size. Journal
of the Royal Statistical Society, Series B, Methodological 36: 292-298.

Rose, D. & Sullivan, O. 1996. Introducing Data Analysis for Social Scientists. Second Edition.
Open University Press.

Kunnioittaen Suomen turvallisuuden ja maailmanrauhan puolesta,

Juha Molari, 
pitkäaikaistyötön, koronalomautettu osa-aikainen wc-siivooja
D.Th, BBA.
GSM +358 40 684 1172
EMAIL juhamolari-ÄT-gmail.com (-at-= @)

Ei kommentteja:

Lähetä kommentti