Menetelmien kehittäminen Karvissa uudelle tasolle. Osa 1: Kehitetään uusia korrelaatiokertoimia
johtava arviointiasiantuntija Jari Metsämuuronen, Kansallinen koulutuksen arviointikeskus
Karvissa on tutkittu, kuinka osaamismittareiden luotettavuutta voidaan tutkia entistä tarkemmin. Osana tätä kehittämistyötä olen julkaissut kansainvälisesti myös uusia korrelaatiokertoimia. Nämä antavat aiempaa tarkemman kuvan kahden muuttujan välisen yhteyden suuruudesta.
Yksi Karvin lakisääteisistä tehtävistä on oppimistulosten arviointi. Arviointitietoa kootaan esimerkiksi matematiikan tai äidinkielen ja kirjallisuuden osaamisen tasosta ja siihen liittyvistä tekijöistä kansallisella tasolla. Tämänkaltaista tietoa kootaan arviointimittarilla, jota kouluissa perinteisesti kutsutaan nimellä ”koe” ja josta psykologian piirissä käytetään termiä psykometrinen ”testi”. Käytetyn mittarin luotettavuus ja tarkkuus ovat keskeisiä asioita, kun tulosten perusteella halutaan päätellä, kuinka paljon osaamista Suomessa on ja miten se on jakautunut.
Kaikissa psykometrisissa testeissä ja koulukokeissa – niin myös Karvin arviointimittareissa – on aina mittausvirhettä, ja tämän virheen suuruuden arviointi on oleellinen osa mittausta. Jos mittausvirhe on suurta, mittari on epätarkka ja tällöin myös arviointituloksiin liittyvä virhe on suurta. Vastaavasti jos mittausvirhettä on vain vähän, mittari on tarkempi, ja arviointituloksiin liittyvä virhe on pienempää.
Epätarkalla mittarilla esimerkiksi pistemäärän 50 saanut oppilas olisi voinut toisena päivänä saada 45 pistettä tai 55 pistettä. Tällöin mittari ei pysty erottelemaan toisistaan niitä oppilaita, jotka saivat 45 tai 55 pistettä ja niin osaamisen kokonaisarviointi on epävarmaa. Vastaavasti tarkemmalla mittarilla tämä ns. ”tosi” pistemäärä voi vaihdella välillä 49–51 tai jopa vähemmän, jolloin kansallista osaamista koskea arviointi on selvästi uskottavampaa ja luotettavampaa.
Tämän kaikille mittauksille tyypillisen mittausvirheen suuruuden arvioinnissa käytetään ns. reliabiliteettikertoimia, joista tunnetuin ja käytetyin Cronbachin alfa tai alfakerroin. Tiedetään, että alfa antaa aina aliarvion mittarin reliabiliteetista; mittauksen tarkkuus on siis aina korkeampi kuin alfa kertoo.
Miksi korrelaatiokertoimia on hyvä tutkia?
Oppimistuloksia kartoittava arviointimittari koostuu yksittäisistä tehtävistä eli osioista, joiden korkea erottelukyky on oleellinen, jotta myös koko mittarista tulee erotteleva. Yksittäisten osioiden erottelukykyä arvioidaan yleensä osion ja koko mittarin summan välisillä korrelaatiokertoimilla. Jo aiemmin osoitin, että yleisesti käytössä oleva Pearsonin osio-summa-korrelaatio (Rit) tuottaa selkeän aliarvion yksittäisen tehtävän erottelukyvystä (Metsämuuronen, 2009, 2016) samoin kuin mahdollisesti vieläkin useammin käytössä oleva Henryssonin osio-muut osiot -korrelaatio (Rir), joka aliarvioi yhteyttä enemmän kuin Rit (Metsämuuronen, 2017, 2018). Myöhemmin havaitsin (Metsämuuronen, 2021a, 2022a), että tämä aliarvio voi olla jopa 80–90 prosenttia yhteyden todellisesta suuruudesta, jos muuttujien väliset asteikot poikkeavat toisistaan selvästi ja jos toisessa muuttujista on hyvin epätasainen jakauma.
Käytännössä Pearsonin korrelaation antama aliarvio on aina merkittävä arviointimittarin yhteydessä, sillä yksittäisen osion (esimerkiksi 0–1 pisteitetyn oikein/väärin-tehtävän) ja kokonaissumman (esimerkiksi 60 pisteen summan) asteikkojen ero on suuri. Aliarvio on erityisen merkittävä erittäin helppojen ja erittäin vaikeiden tehtävien yhteydessä. Kun korrelaatio periaatteessa vaihtelee välillä -1 ja +1, erittäin helpoilla ja vaikeiden osioilla korrelaation suurin mahdollinen arvo voi olla 0,20 tai jopa 0,10 riippuen siitä, kuinka helposta tai vaikeasta osiosta on kysymys.
Pearsonin korrelaation aliarviolla on suora vaikutus myös arvioituun reliabiliteetin arvoon, sillä kerroin on sellaisenaan osa monien reliabiliteettikertoimien kaavaa. Jos aliarvio on niinkin suuri kuin 80–90 prosenttia ja mittarin reliabiliteetti on tästä johtuen matala, saatamme luulla, että mittari on epätarkka, vaikka se todellisuudessa voisi olla hyvinkin tarkka. Siksi olisi tärkeää löytää Pearsonin kerrointa tarkempia arvoja tuottavia korrelaatiokertoimia.
Aiemmassa Karvi-blogissani kerroin, että vuonna 2021 julkaistiin arvostetussa tiedesarjassa, Behaviormetrika-lehdessä, Karvin menetelmäkehittämisen tuloksena syntynyt artikkeli, jossa tutkin Goodmanin ja Kruskalin gamma -kertoimen (G) ominaisuuksia ja sen yhteyttä arviointikokeen luotettavuuden arviointiin (Metsämuuronen, 2021a). Artikkeli oli osa pidempään jatkunutta kirjoitusten sarjaa, jossa olen pyrkinyt löytämään korvaavia korrelaatiokertoimia Pearsonin korrelaatiokertoimelle (R).
Tutkitaan olemassa olevia kertoimia
Alkuperäisestä Pearsonin korrelaation tuottamaa aliarviota koskevasta huomiosta (2016) alkoi korvaavien korrelaatiokertoimien etsiminen.
- Artikkelissa 2020a tutkin Kelley’s diskriminaatioindeksin (DI) ominaisuuksia.
- Artikkeleissa 2020b ja 2020c tutkin Somersin delta -kertoimen (D), osio-muut osiot -korrelaation (Rir), bi- ja polyseriaalisen korrelaatiokertoimen (RBS, RPS) ja Goodmanin–Kruskalin lambdan (L) ja taun (T) ominaisuuksia.
- Artikkeleissa 2021a ja 2021b tutkin Goodmanin–Kruskalin gamma -kertoimen ominaisuuksia sekä G:n ja D:n yhteyttä.
- Artikkelissa 2022a tutkin eta-kertoimen (η) ominaisuuksia.
- Artikkelissa 2022b tutkin useita kertoimia yhtä aikaa yhdentoista erilaisen stressitestin kautta: kuinka paljon mekaanista virhettä syntyy erilaisissa olosuhteissa.
Kaikissa artikkeleissa tavoitteena on ollut löytää sellaiset osion tarkkuutta kuvaavat kertoimet, joilla voidaan uskottavimmin kuvata, kuinka tarkasti koko mittari heijastaa todellista osaamista. Kun siis perinteinen osio-summa-korrelaatio aina aliarvioi yksittäisen tehtävän ja siten koko kokeen luotettavuutta, vaihtoehtoisissa kertoimissa tämä virhe on oleellisesti pienempi.
Ennen näkemättömiä korrelaatiokertoimia
Osana tätä etsimistyötä sellaisista perinteisistä kertoimista kuin DI, G, D, Pearsonin kerroin ja eta-kerroin löydettiin heikkouksia, jotka olivat syynä radikaaliin korrelaation aliarvioon. Niinpä parempien kertoimien löytämisen yhteydessä kehitettiin myös useita uusia korrelaatiokertoimia.
- Artikkelissa 2020a havainnollistin jo aiemmin tunnettua tietoa, että diskriminaatioindeksi soveltuu vain binäärisille, 0/1-tyyppisille osioille ja se antaa ilmeisiä aliarvioita vaikeilla ja helpoilla tehtävillä. Näitä heikkouksia korjaamaan kehitin uuden kertoimen: yleistetty diskriminaatioindeksi (generalized DI, GDI) soveltuu sekä binäärisille että useita arvosaaville osioille ja antaa osion vaikeustasosta riippumattomasti uskottavampia arvioita osion erottelukyvystä.
- Artikkelissa 2020b osoitin, että Somersin D aliarvioi yhteyttä, mikäli osiossa on enemmän kuin kolme kategoriaa eli jos osaamistehtävässä suurin pistemäärä on suurempi kuin 2 (esimerkiksi 0–1–2–3). Artikkelissa 2020c esittelin tätä heikkoutta korjaamaan uuden kertoimen: dimensiokorjattu D (D2) toimii paremmin kuin D erityisesti useita arvoja saavilla muuttujilla.
- Artikkelissa 2021a osoitin, että myös G aliarvioi yhteyttä, mikäli osiossa oli enemmän kuin neljä kategoriaa eli jos suurin pistemäärä tehtävässä oli suurempi kuin 3 tai jos kyseessä on perinteinen 5-portainen Likert-asteikko (esimerkiksi 0–1–2–3–4). Samassa artikkelissa esittelin uuden kertoimen: dimensiokorjattu G (G2) toimii paremmin kuin G erityisesti useita arvoja saavilla muuttujilla.
- Artikkelissa 2021b osoitin, että sekä G että D olivat suoraan yhteydessä Jonkheere–Terpstra-testisuureeseen, mistä johtuen molemmat ovat ns. järjestyspolyseriaalisia korrelaatiokertoimia; perinteisissä luokituksissa tällaista kerrointa ei edes tunneta (ks. mm. Drasgow, 1986).
- Artikkelissa 2022a osoitin, että eta-kerroin aliarvioi yhteyttä radikaalisti. Kehitin kolme uutta tilastollista tunnuslukua: attenuaatiokorjattu R (RAC) ja attenuaatiokorjattu eta (EAC, ) ovat uusia korrelaatiokertoimia ja attenuaatiokorjattu etan neliö (E2AC, ) tuottaa paremman arvion luokittelevan muuttujan selityskyvystä kuin perinteinen etan neliö (η2).
Kun siis esimerkiksi perinteinen korrelaatiokerroin kuten R tai eta antaa arvon 0,20, tämä perinteisesti tulkitaan niin, että toinen muuttuja selittää toisen vaihtelusta 0,20 × 0,20 × 100 = 4 prosenttia. Emme kuitenkaan voi tietää, onko korrelaatio aidosti matala vai johtuuko matala arvo siitä, että toisen muuttujan arvot ovat jakautuneet erittäin epätasaisesti. Jälkimmäisessä tapauksessa tämä arvo 0,20 voikin olla kertoimen suurin mahdollinen arvo. Uudet kertoimet aistivat tämän kaltaisia erityistilanteita ja tuottavat arvoksi (oikein) RAC = EAC = E2AC = 1, mikäli korkein arvo on saavutettu eli yhteys kahden muuttujan välillä on täydellinen.
- Artikkelissa 2022b tutkin näitä uusia ja muitakin kertoimia ja niiden ominaisuuksia. Osoitin, että sekä dimensio- että attenuaatiokorjatut kertoimet olivat selvästi vastustuskykyisempiä aliarviota vastaan kuin perinteinen Pearsonin korrelaatiokerroin (Rit) puhumattakaan ”korjatusta” osio-mittari-korrelaatiosta (Rir).
Artikkeleissani ehdotan, että voisimme siirtyä käyttämään näitä paremmaksi havaittuja kertoimia, jos ei yksinomaan niin ainakin perinteisten kertoimien rinnalla. Näillä kertoimilla on myös suora yhteys uuteen mittauksen luotettavuuteen liittyvään viitekehykseen, deflaatiokorjattuihin reliabiliteettikertoimiin, joita pohdin seuraavassa blogissa ja joita on käytetty joissain Karvin oppimistulosarvioinneissa (Metsämuuronen & Nousiainen, 2021; Metsämuuronen & Ukkola, 2019; Ukkola & Metsämuuronen, 2021).
Kirjallisuutta
Drasgow, F. (1986). Polychoric and polyserial correlations. Teoksessa S. Kotz & N. L. Johnson (Toim.), Encyclopedia of statistical sciences- Vol 7 (ss. 68–74). John Wiley.
Metsämuuronen J (2009). Metodit arvioinnin apuna. Oppimistulosten arviointi 1/2009. Helsinki: Opetushallitus.
Metsämuuronen, J. (2016). Item–total correlation as the cause for the underestimation of the alpha estimate for the reliability of the scale. GJRA – Global Journal for Research Analysis, 5(1), 471–477. https://www.worldwidejournals.com/global-journal-for-research-analysis-GJRA/file.php?val=November_2016_1478701072__159.pdf
Metsämuuronen, J. (2017). Essentials of research methods in human sciences. SAGE Publications.
Metsämuuronen, J. (2018). Algebraic reasons why item-rest correlation underestimates item discrimination power more than item-test correlation. Preprint at https://doi.org/10.13140/RG.2.2.25568.94728
Metsämuuronen, J. (2020a). Generalized Discrimination Index. International Journal of Educational Methodology, 6(2), 237–257. https://doi.org/10.12973/ijem.6.2.237
Metsämuuronen J (2020b). Somers’ D as an alternative for the item–test and item–rest correlation coefficients in the educational measurement settings. International Journal of Educational Methodology, 6(1), 207–221. https://doi.org/10.12973/ijem.6.1.207
Metsämuuronen, J. (2020c). Dimension-corrected Somers’ D for the item analysis settings. International Journal of Educational Methodology, 6(2), 297–317. https://doi.org/10.12973/ijem.6.2.297
Metsämuuronen J. (2021a). Goodman–Kruskal gamma and dimension-corrected gamma in educational measurement settings. International Journal of Educational Methodology, 7(1), 95–118. https://doi.org/10.12973/ijem.7.1.95
Metsämuuronen, J. (2021b). Directional nature of Goodman-Kruskal gamma and some consequences. Identity of Goodman-Kruskal gamma and Somers delta, and their connection to Jonckheere-Terpstra test statistic. Behaviormetrika, 48/2. http://dx.doi.org/10.1007/s41237-021-00138-8
Metsämuuronen, J. (2022a). Mechanical attenuation in eta squared and some related consequences. Attenuation-corrected eta and eta squared, negative values of eta, and their relation to Pearson correlation. Behaviormetrika (Accepted)
Metsämuuronen, J. (2022b). Effect of various simultaneous sources of mechanical error in the estimators of correlation causing deflation in reliability. Seeking the best options of correlation for deflation-corrected reliability. Behaviormetrika, https://doi.org/10.1007/s41237-022-00158-y, julkaistu osoitteessa https://rdcu.be/cGMUt.
Metsämuuronen, J. & Nousiainen, S. (2021). Matematiikkaa COVID-19-pandemian varjossa. Matematiikan osaaminen 9. luokan lopussa keväällä 2021. Julkaisut 27:2021. Kansallinen koulutuksen arviointikeskus.
Metsämuuronen, J. & Ukkola, A. (2019). Alkumittauksen menetelmällisiä ratkaisuja. Julkaisut 18:2019. Helsinki: Kansallinen koulutuksen arviointikeskus.
Ukkola, A., & Metsämuuronen, J. (2021). Matematiikan ja äidinkielen ja kirjallisuuden osaaminen kolmannen luokan alussa. Julkaisut 20:2021. Kansallinen koulutuksen arviointikeskus.
Teksti:
Jari Metsämuuronen
Jari Metsämuuronen työskentelee Kansallisessa koulutuksen arviointikeskuksessa johtavana arviointiasiantuntijana.