Kansanedustajat ovat viime päivinä
kirjoitelleet ja julistaneet suuria prosenttilukuja siitä, miten
monta prosenttiyksikköä on ollut kussakin kunnassa testatuista
koronapositiivisia. Valtamedia levittää viranomaiskäyriä
tartunnansaaneista ja kuolleista sekä lasketaan
kuolleisuusprosenttia. Näitä numeroita käytetään perusteluina
erilaisille pakkotoimille, rajoituksille ja suosituksille.
Esimerkiksi tanskalaistutkimus antaa huomattavan pienet luvut kuolleisuudelle, koska sairastaneiden kokonaismäärä nähdään suuremmaksi, kuin tyypillisesti monissa muissa tilastoissa. Suomessa eivät edes kaikki oirehtivat pääse testeihin ja saa nimeänsä koronavirukseen sairastuneiksi. Vielä suurempi määrä kantaa oireettomina tai suhteellisen lievästi kipeänä viruksen. Myös kuolleisuuden rekisteröinti on häilyvää. Suomessa on koronavirukseen kuolema merkitty aina, vaikka virus itsessään ei olisi pieni tai iso tekijä kuolemassa.
Epidemiologian dosentti Mikko Painio on tuonut samanlaisia kriittisiä kysymyksiä esiin koronavirukseen liittyvistä arvioista.
Esimerkiksi tanskalaistutkimus antaa huomattavan pienet luvut kuolleisuudelle, koska sairastaneiden kokonaismäärä nähdään suuremmaksi, kuin tyypillisesti monissa muissa tilastoissa. Suomessa eivät edes kaikki oirehtivat pääse testeihin ja saa nimeänsä koronavirukseen sairastuneiksi. Vielä suurempi määrä kantaa oireettomina tai suhteellisen lievästi kipeänä viruksen. Myös kuolleisuuden rekisteröinti on häilyvää. Suomessa on koronavirukseen kuolema merkitty aina, vaikka virus itsessään ei olisi pieni tai iso tekijä kuolemassa.
Epidemiologian dosentti Mikko Painio on tuonut samanlaisia kriittisiä kysymyksiä esiin koronavirukseen liittyvistä arvioista.
Koronaviruksen leviämisestä on
viranomaisten, poliitikkojen ja journalistien toimesta levitetty
moninaisia ”tuloksia” ja ”prosenttilukuja”, joita
numeroarvoja on tässä täysin tarpeetonta toistaa, koska esitetyt
luvut eivät vastaa edes ammattikoululaisen epäonnistuneeksi jääneen
opinnäytetyön luotettavuustasoa. Minulle on muodostunut erittäin
vaikeaksi tulkita ja ymmärtää, mitä nuo tarjotut luvut
todellakaan kertovat koronaviruksen todellisesta levinneisyydestä ja
vaarallisuudesta.
Kertaan muutamia perusasioita
opinnäytetyöstäni liiketalouden koulutusohjelmasta, jossa selvitin
vuonna 2004 ”kuluttajien ostovoimaa”. Aihe ei toki koske viruksen
leviämistä, mutta opinnäytetyötäni varten valitsin
kvantitatiivisen kuluttujatutkimuksen, jossa otantatutkimuksessa
tutkin suhteellisesti kiintiöityä otosta. Tiedonkeruumenetelmänä
käytin henkilökohtaista suullista haastattelua. En siis työntänyt
neuloja tai letkuja haastateltavien nenän kautta, joka sekään ei
ole tiedonkeruumenetelmänä virheetön. Opinnäytetyössäni
kiinnitin huomiota siihen, että suullinen haastattelu oli itsessään
altis virheellisille vastauksille. Nyt tarjolla oleva ”koronadata”
on huomattavasti villimpää.
Kouluja käyneet viranomaiset,
journalistit ja poliitikot luulisivat muistavan, että empiirisen
tutkimuksen rajoituksia on tutkijoiden keskuudessa paljon arvioitu.
Sikäli kuin journalistit ovat saaneet opinnäytetöitään koskaan
valmiiksi, niin niihinkin on sisältynyt tutkimusmenetelmän
kuvauksia. Sitä vastoin koronasta uutisoitaessa on kokonaan kaikki
tuo oppineisuus unohdettu. Kun toimittajat kirjoittavat näitä
”koronaprosentteja”, niin jättäkää viinat juomatta samana
päivänä ja kerratkaa tilastotiedettä!
Esimerkiksi vasta tammikuussa 2019
rekisteritutkimuksen professoriksi saatu Reijo Sund olisi kliinisen
lääketieteen yksikössä varmasti pätevä tulkitsemaan kerätyn
”koronadatan” luotettavuutta ja yleistettävyyttä. Hän on
vuosien aikana pitänyt useita tilastotieteen luentoja
yliopisto-opiskelijoille. Astuessaan vuoden 2019 alussa uuteen
virkaansa, hän korosti yliopiston vahvuudeksi monia väestöpohjaisia
seurantatutkimuksia ja viittasi rekisteridatan keräämiseen. Eikö
nyt olisi poikkeusaikana käytettävä osaamista myös
koronaviruksesta tehtäviin yhteiskunnallisiin yleistyksiin, joita
toistaiseksi on tehty hyvin holtittomasti?
Empiiriset tutkimukset jaotellaan
käytännönläheisissä oppikirjoissa tavanomaisesti
kvantitatiiviseen ja kvalitatiiviseen tutkimukseen. Kvantitatiivisiin
tutkimukseen kuuluvat tyypillisesti aineistokeruumenetelminä
kyselyt, haastattelut ja kokeelliset tutkimukset, kun taas
kvalitatiivisessa tutkimuksessa henkilökohtaiset haastattelut,
eläytymismenetelmät ja dokumentit. Kvalitatiivisia tutkimuksia
voisivat olla enemmän suggestiiviset kuin täsmälliset potilaiden ja
epäilevien ihmisten tunnelmakuvaelmat. Valitettavasti "tilastojen" avulla tehdyt tarinat ovat nykyään myös noita suggestiivisia juttuja, tunnelmointia.
Suunnitelmalliset survey-tutkimukset on
tehokkaita tapoja kerätä tietoa silloin, kun tutkittavia on paljon.
Kun kyse on viruksen leviämisen selvittämisestä kokeellisten
tutkimuksen tietojen valossa, niin otantatutkimuksessa tulisi tutkia
perusjoukon osajoukkoa eli otosta, pienoiskuvaa väestöstä.
Suhteellinen kiintiöpoiminta merkitsee
ei-satunnaisuuteen perustuvaa ositettua otantaa. Sinänsä otos ei
yksistään takaa edustavuutta, vaan myös kustakin ositetusta
ryhmästä pitäisi olla mukana riittävän monta edustajaa, useita
kymmeniä. Suhteellisesti kiintiöityä ositettua otantaa pidetään
tehokkaana menetelmänä, kun perusjoukko on heterogeeninen. Itse
perusjoukon heterogeenisuus luo aina otokseen virhettä. Ryväsotanto
olisi perusjoukosta arvottu otos, jota tutkijat voisivat aktiivisesti
lähestyä.
Tutkimuksessa käytettävä kiintiöinti
tulisi suorittaa valtiollisesti ja kunnallisesti luotettavien
tilastotietojen perusteella esimerkiksi ikäjakauman perusteella
siten, että kunkin kiintiön koko muodostuu vähintää useiksi
kymmeniksi.
Kvantitatiivisessa tutkimuksessa
käytettävä otos on ihan käyttökelpoinen menetelmä, kun
projektin taso halutaan säilyttää yhdenmukaisena ja otokseen
keräämiseen käytettävää aikaa lyhentää siinä tarkoituksessa,
että saadaan esille edes tietyn ajan melko luotettava tulos. Tätä
metodin lähtökohtaa ovat esimerkiksi Babbie 1973:74 ja Hopkins
1996:231 selvittäneet seikkaperäisesti ymmärrettävästi.
Näin kootun reaalimaailmaa koskevan
uuden primäärisen tiedon luotettavuus olisi aidosti kiinnostava ja
se voisi palvella luotettavaa päätöksentekoa. Voidaan sanoa
tilastotieteen sanoilla, että sellaisen aineiston kerääminen
vastaisi tieteellistä tehtävää ”tavoitella ja hankkia uutta
tietoa” (Sund 2001a).
Otantakehikon muodostaminen on
kiintiöpoiminnan suuri haaste, mihin tilastotieteen teoreetikot ovat
usein viitanneet. Suomessa vaalitutkimuksessa on hyvin ymmärretty
haasteet ja korjata laskelmia ennusteissa. Kun satunnaisotantaa
käytetään, silloin umpimähkäisesti jokaisella yksilöllä olisi
yhtä suuri todennäköisyys tulla valituksi tutkimusotokseen.
Ositettu otanta korjaa vääristymiä esimerkiksi liikkeellä olevien
ja tutkimukseen sattuvien ihmisten iän suhteen. Suhteellisesti olisi
kuitenkin aiheellista kiintiöidä sukupuolet ja eri ikäryhmät,
jolloin jokaisesta ositteesta valitaan prosentuaalisesti yhtä paljon
tutkittavia. Vasta vastaavuuden jälkeen voidaan varmistaa, että
estimoitaessa otoksen laskettuja tunnuslukuja päästään lähelle
perusjoukon arvoja. Bailey 1994:94-95 sekä Rose & Sullivan 1996
ovat kirjoittaneet tämän vastaavuuden tarpeellisuudesta.
Kiintiöidyn otoksen avulla voidaan
pyrkiä pienempään otoskokoon kuin ilman kiintiöintiä, niin että
ei tarvitse testata pääkaupunkiseudun kaikkia miljoonaa ihmistä,
jotta voidaan jollakin luotettavuudella lausua viruksen leviämisestä.
Miljoonan ihmisen tutkimushanke olisi sekä hidas että kallis, mistä
seurauksena se tuskin olisi edes sen luotettavempi.
Kiintiöpoiminnan avulla tehdyt
markkinatutkimukset ja vaaligallupit ovat hyvin tyypillisiä.
Markkinatutkimuksissa tavallisin käytetty ositetun otannan menetelmä
on kiintiöpoiminta (quota samplin). Haastattelututkimuksia on
käytetty poliittisiin tarkoituksiin jo 1880-luvulta alkaen. Jopa Max
Weber käytti menetelmää valmistaessaan tutkimustaan
protestantismin etiikasta. Haastattelututkimusten kehitys liittyy
Gallupin, Neymanin, Roperin, Harrisin, Stoufferin, Lazarsfeldin,
Pearsonin ja Fisherin kehitystyöhön. Modernit teoriat hyödyntävät
modernia tilastotiedetta ja todennäköisyyslaskentaa.
Sen sijaan että vain tiettyä rajattua
ryhmää selvittäisi, niin tutkijan tulisi tutkia jokaisen
tapaamansa henkilön, mikäli tämä mahtuu kiintiöön, jolloin
kiintiöpoiminta on ositetun satunnaisotannan (stratified random
samplin) versio. Suhteellisesti kiintiöity ositettu satunnaisotanta
on nimenomaisesti kehitetty tällaisia tarpeita varten, jotta
saavutettaisiin parempi edustavuus tutkittavasta väestöstä.
Vuoden 1936 vaalitutkimus Literary
Digest on klassinen esimerkki survey-tutkimuksen sosiaalisesta
vääristymästä: tutkimus vääristi tuloksen, koska perusjoukosta
ei laadittu kehikkoperusjoukkoja ja datan kokoamismenetelmä rajoitti
joidenkin sosiaalisten ryhmien vastausmahdollisuutta. Tuolloin
tiedonkeruumenetelmänä käytettiin puhelinta, mikä vääristi
tulosta, koska kaikilla äänestäjillä ei ollut puhelinta.
Koronaviruksesta saatavan
tiedonkaruumenetelmän aiheuttamat ongelmat tulosten
yleistettävyydelle ja johtopäätöksille ovat huikeasti räikeämmät
kuin klassisessa epäonnistuneessa Literary Digest-tapauksessa, koska
tutkittaviksi ei edes hyväksytä perusjoukon mukaista
väestörakennetta. Tällä tavoin saadun rajallisen ja vääristyneen
datan käyttö yleistyksissä ja uutisoinnissa tulisi olla erittäin
harkinnanvaraista ja tilastotieteen menetelmiä ymmärtävää.
Kvantitatiivisten tutkimusten
validiteetin (pätevyyden) arviointityyppejä on useita: sisäinen
validiteetti, ulkoinen validiteetti ja face-validiteetti,
sisältövaliditeetti, kriteerivaliditeetti ja käsite- eli
rakennevaliditeetti. Nämä kysymykset tutkimuksen pätevyydestä,
päätelmien sopivuudesta, mielekkyydestä ja käyttökelpoisuudesta
ovat koronavirustapauksessa jopa aivan ydinasioita, mutta juuri
validiteettia ei oudosti ole lainkaan käsitelty missään julkisessa
esityksessä.
Tutkimuksen reliabiteetillä
tarkoitetaan tulosten pysyvyyttä, toistettavuutta ja tarkkuutta,
joka luonnollisesti sisältää ongelmia jo pelkästään viruksen
etenemisen johdosta ja tutkimusmenetelmään sisältyvien väärien
negatiivisten tulosten johdosta. Tilastotieteessä hyvin tunnetaan,
että tulokset jäävät erittäin sattumanvaraisiksi, jos otoskoko
on kovin pieni ja otos on vääristynyt kuva populaatiosta.
Estimaatioiden käyttö edellyttää todennäköisyyttä. Vallitsevan
virustutkimuksen yhteydessä on täysin absurdia ja epäselvää,
kuinka estimaatiot voitaisiin ylipäätänsä muodostaa.
Vanhastaan Suomen Sanomalehtien liitto
julkaisi haastattelututkimuksen luotettavuuden selvittämiseksi
muutamia peruskysymyksiä. Ensimmäinen koski tutkijan tai tilaajan
oman intressin pohtimista. Toinen koski tutkittujen joukkoa ja heidän
valintaa. Myös tilastollista merkittävyystasoa, virhemarginaalia ja
tuloshaarukkaa piti vanhan ajan journalistin arvioida silloin, kun
tehtiin yleistyksiä yhteiskuntaan.
Lukusuosituksia:
Babbie,
Earl R. 1973. Survey Research Methods. Wadsworth Publiching Company,
Inc. Belmont,
California.
Bailey,
Kenneth D. 1994. Methods of Social Research. The Free Press. New
York.
Hopkins,
Glass 1996. Basic Statistics for the Behavioral Sciences. Boston:
Allyn & Bacon. 3rd
Edition
Ramachandran,
G. & Rao, T.J., 1974. Stratified sampling and allocation of
sample size. Journal
of
the Royal Statistical Society, Series B, Methodological 36: 292-298.
Rose,
D. & Sullivan, O. 1996. Introducing Data Analysis for Social
Scientists. Second Edition.
Open
University Press.
Kunnioittaen Suomen turvallisuuden ja maailmanrauhan puolesta,
Juha Molari,
pitkäaikaistyötön, koronalomautettu osa-aikainen wc-siivooja D.Th, BBA.
GSM +358 40 684 1172
Blog http://juhamolari.blogspot.com/ ja VKontakte http://vk.com/id157941374
EMAIL juhamolari-ÄT-gmail.com (-at-= @)
LinkedIN-profiili: http://fi.linkedin.com/pub/juha-molari/99/160/a4
Molari in Russian media: http://juhamolari.blogspot.fi/2010/01/blog-post_23.html
|
Ei kommentteja:
Lähetä kommentti