Millainen on hyvä psykologinen testi?

28.01.2019
Jaa

Muutamalla nyrkkisäännöllä voi kätevästi arvioida testien hyvyyttä, vaikka ei olisikaan asiantuntija.

Jokaiseen psykologiseen testiin pitäisi kuulua samanlainen tuotekuvaus kuin jogurttipurkkiin: lista ravintoaineista ja lisäaineista, joiden perusteella tuotteen haluttuja vaikutuksia voi arvioida. Vasta näiden perusteella eri tuotteita voi vertailla yhteismitallisesti.

Tämän artikkelin lukemisen jälkeen osaat tuotekuvauksen selvittämiseksi kysyä myös niitä vaikeita kysymyksiä. Niitä, joiden avulla testikauppiaat ja konsultit voi laittaa paremmuusjärjestykseen.

Onnistunut henkilöarviointi on osiensa summa

Hyvään henkilöarviointiin kuuluu luonnollisesti aina haastattelu. Mutta hyväkään haastattelija ei pelasta arviointia, jos käytetyt testit ovat teknisesti huonoja tai tuloksiltaan harhaanjohtavia.

Immanuel Kantin kuuluisaa lausetta mukaillen voisi sanoa, että haastattelija ilman luotettavia testejä on sokea, kun taas testit ilman ihmisen tulkintaa ovat tyhjiä. Testin ja tulkinnan summasta syntyy luotettava henkilöarviointi. Hyvät psykologiset testit ovat siis välttämätön työkalu henkilöarvioinnissa.

Monessa henkilöarviointioppaassa korostetaan, kuinka psykologisten testien käyttäjän tulisi olla asiantuntija. Lisäksi laki yksityisyyden suojasta sanoo, että testien tulisi olla luotettavia.

Mutta mitä tarkoittaa ”luotettavuus”? Jokainen testikauppias korostaa testiensä luotettavuutta – harvempi osaa oikeasti perustella sitä.

Moni menetelmä päältä kaunis

Nykyisin psykologisia testejä on tarjolla enemmän kuin koskaan aikaisemmin. Useimpia myös käytetään ja markkinoidaan aktiivisesti. Vähän väliä julkisuuteen ilmaantuu myyntipuheita, joissa yritykset lupaavat entistä ylivoimaisempia menetelmiä. Ja yhtä usein lupaukset osoittautuvat naistenlehtitason psykohöpinäksi.

Yhteistä monille hömppätesteille on se, että ne kertovat käyttäjilleen juuri sen, minkä he haluavatkin kuulla. Niiden kehittäjät vetoavat uusiin ja mullistaviin tutkimustuloksiin sekä testien helppouteen, nopeuteen ja tarkkuuteen. Tunneälyllä, aivojohtamisella ja monella muulla trendillä yritetään rahastaa kauppaamalla uudenlaisia testejä.

Tosiasia kuitenkin on, että isoimmat keksinnöt psykologisissa testeissä on tehty vuosia sitten. Jos katsotaan, kuinka hyvin erilaiset testit ennustavat todellista työsuoritusta, niin parhaimmat ovat perinteisiä persoonallisuus- ja kykytestejä. Ehkä tylsiä ja konservatiivisia, mutta käytännössä toimivia.

Toimivan menetelmän erottaminen huuhaasta vaatii aikaa, hermoja ja pitkää paneutumista aiheeseen. Siksi ei ole ihme, että monen yrityksen henkilöstöpäällikkö on lyönyt hanskat tiskiin ja jättänyt testaamisen kokonaan siihen erikoistuneille firmoille.

Vastuuta ei voi silti kiertää. Ongelma on siinä, että moni henkilöarviointifirmakin käyttää kyseenalaisia testejä. Jos asiantuntijaan ei voi luottaa, niin mihin sitten?

Millä erottaa hyvä huuhaasta?

Tilanne ei kuitenkaan ole toivoton. Pätevät psykologiset testit on aina tutkittu ennen niiden käyttöönottoa tosielämässä. Jokaisesta hyvästä testistä on olemassa jonkinlainen luotettavuustutkimus, jota usein kutsutaan validointitutkimukseksi.

Monesti luotettavuustutkimukset ovat ainoa tapa saada erilaisia testityyppejä edes jollakin tavalla samalle viivalle. Validointitutkimusten tuloksia vaatimalla voi helposti varmistaa ainakin sen, että testejä tekevä firma käyttää tutkittuja menetelmiä ja tuntee itse käyttämänsä testit.

Toimeksiantajan kannattaakin aina pyytää nähtäväksi käytettyihin testeihin liittyvät empiiriset tutkimukset. Jokaiselle tutkitusti toimivalle testille löytyy aina joukko tunnuslukuja, joiden avulla niitä voi vertailla muihin testeihin. Jos nämä puuttuvat, kannattaa suosiolla etsiä muita vaihtoehtoja.

Lisäksi on huomioitava testin normiryhmä. Tämä on se ryhmä, joka muodostaa vertailujoukon jokaiselle arvioitavalle. Jos normiryhmä on huonosti valittu tai liian pieni, ei testituloskaan ole pätevä. Esimerkiksi hongkongilaisten tietoliikenneinsinöörien joukko ei ole sopiva vertailukohta, jos tavoitteena on arvioida suomalaisia yritysjohtajia.

Psykologisen testin kolme kulmakiveä ovat normitus ja kaksi erilaista luotettavuuslukua, reliabiliteetti ja validiteetti. Jos yksikin näistä on pielessä, ei testi enää toimi luotettavasti.

Näistä jokaista voi arvioida myös itse, kunhan ymmärtää, mikä niiden käytännön merkitys on.

Normitus takaa reiluuden

Helpoin arvioitava asia on testin normitus. Jos testi on normitettu vastaavalla kieli-, koulutus- ja ammattiryhmällä kuin mihin sitä käytetään, on asia yleensä kunnossa. Jotta otos olisi tilastollisesti riittävän edustava, pitäisi normiryhmään kuulua vähintään muutama sata testattua.

Pelkkä siirtyminen kielestä toiseen tekee sen, että testi pitää normittaa uudelleen. Jos testi on alun perin kehitetty ja normitettu englanninkieliseen väestöön, se ei sovi sellaisenaan Suomessa käytettäväksi.

Normitus siis takaa oikeudenmukaisen vertailuryhmän. Se ei silti kerro vielä testin teknisestä laadusta mitään. Sen arvioimiseksi tarvitaan tietoja sisällöllisestä luotettavuudesta. Tämä luotettavuus voidaan jakaa kahteen eri alalajiin, reliabiliteettiin ja validiteettiin.

Reliabiliteetti kertoo satunnaisvirheistä

Testin tilastollista luotettavuutta kuvaa reliabiliteetti. Reliabiliteetin avulla voidaan selvittää, kuinka altis testi on erilaisille satunnaisvirheille. Käytännössä kysymys on siitä, mittaako testi ihmisen todellisia psykologisia ominaisuuksia vai satunnaisia, testitilanteeseen liittyviä heittoja.

Jos testi ei ole reliaabeli, niin samakin ihminen saa uudelleen testattuna erinäköisen profiilin. Vastaavasti venyvä mittanauha ei ole pituuden reliaabeli mittari, koska se antaa joka kerta hiukan erilaisen mittaustuloksen.

Esimerkiksi persoonallisuustesti, joka antaa samalle ihmiselle päivästä riippuen hyvin erilaisia tuloksia, ei ole reliaabeli, koska siihen sisältyy liikaa satunnaisvaihtelua. Silloin se ei mittaa luotettavasti persoonallisuutta vaan tulokseen sisältyy testiahdistusta, vireystilaa tai muita satunnaistekijöitä.

Hyvän testin reliabiliteetti on – asteikolla nollasta ykköseen – vähintään noin 0,7–0,8 paikkeilla. Käytännössä tämä tarkoittaa sitä, että mittaustuloksessa on vähemmän kuin puolet satunnaisvaihtelun tuottamaa virhettä. Kykytesteissä reliabiliteetti on luonnostaan isompi, persoonallisuustesteissä taas aavistuksen pienempi.

Validiteetti valitsee kohteen

Testi on validi silloin, kun se mittaa sitä, mitä sen on tarkoituskin mitata. Tämä tuntuu itsestään selvältä, mutta on helpommin sanottu kuin tehty. Validiteetin parantaminen on sikäli taitolaji, ettei sen kasvattaminen onnistu tilastollisella kikkailulla, vaan se vaatii aidosti asiantuntevaa testikehittelyä.

Henkilöarvioinnin kannalta tärkein validiteetin laji on työssä menestyminen, joten hyvän testin tärkein tehtävä on työkäyttäytymisen – ja vain työkäyttäytymisen – ennustaminen. Siksi hyvä rekrytointitesti keskittyy vain olennaisimpaan. Jos testi on lisäksi vahvassa yhteydessä muihin psykologisiin mittareihin, jotka mittaavat teoriassa samaa asiaa, on se erinomainen saavutus.

Usein pelkkä maalaisjärki riittää kertomaan, onko testin kysymyksillä relevanssia vai ei. Jos huomaa täyttävänsä lomaketta, jossa on pelkkiä lapsuuteen, äitisuhteeseen ja seksuaalikäyttäytymiseen liittyviä kysymyksiä, kannattaa kysyä arviointia tekevältä konsultilta suoraan, mitä järkeä testissä on. Jos testaajalla on puhtaat jauhot pussissaan, hän kyllä osaa kertoa selvällä suomen kielellä, mitä testin on tarkoitus mitata.

Validiteetille on vaikeaa antaa yhtä yksiselitteistä hyvyyslukua kuin reliabiliteetille, koska sitä voidaan mitata niin monella tavalla. Tämä johtuu yksinkertaisesti siitä, että ihmisen toimintaan vaikuttaa aina monta eri tekijää, joiden kiteyttäminen yhteen mittariin on sangen hankalaa.

Hyvä nyrkkisääntö validiteetin arviointiin kuitenkin löytyy: mitä enemmän testin yhteyksiä muihin, vakiintuneisiin ja hyväksi havaittuihin testeihin on tutkittu, sen parempi. Ja jos testin yhteydet myös todelliseen työmenestymiseen on selvitetty, ollaan jo reilusti voiton puolella.

Epävalidien testien käyttäminen tuhlaa sekä testaajan että testattavan aikaa eikä tuo minkäänlaista ennustetarkkuutta päätöksenteon avuksi. Pahimmillaan huonolaatuinen testi voi johtaa suoranaisesti harhaan ja siten heikentää muilta osin hyvän arviointiprosessin osumatarkkuutta.

Tekoälyllä vai ilman?

Uusimpana sovelluksena markkinoille ovat tulleet erilaiset oppivat algoritmit, joita jo nyt käytetään ihmisten tekemän arvioinnin rinnalla. Osa perustuu kasvojentunnistukseen, osa taas puheen tai tekstin analyysiin. Näiden perusteella pyritään tekemään päätelmiä mikroilmeistä, persoonallisuudesta, emootioista tai muusta työhön oletettavasti liittyvistä piirteistä.

Toistaiseksi minkäänlaista laajempaa ennustevaliditeettitutkimusta ei ole tehty. Jotta tällainen voitaisiin tehdä, tarvittaisiin paljon dataa sekä ennustetarkoituksiin että menestymiskriteereiden arvioimiseen. Analyysi tapahtuu tyypillisillä tilastotyökaluilla, joten pienemmissä otoksissa on samat rajoitteet kuin muunkinlaisessa henkilöarviointiin liittyvässä seurantatutkimuksessa. Ongelma algoritmin tekemissä arvioinneissa on se, että pohjimmiltaan kysymys on eräänlaisesta black box -ratkaisusta, joiden luotettavuuden arviointi on hyvin hankalaa. Kokonaisuutena voisi sanoa, että tekoälyn ohjaaman henkilöarvioinnin täytyy kehittyä vielä huomattavan paljon, ennen kuin sitä voidaan käyttää ilman ihmisen rinnalla tekemää arviointia. Lisäksi vastuukysymykset ovat epäselviä. Jos algoritmin suosituksen perusteella tehdään virhe arvioinnissa, niin onko vastuullinen arvioinnin myynyt taho, sen tilaaja vai algoritmin kehittäjä?

Uskalla vaatia

Seuraavan kerran, kun olet ostamassa henkilöarviointia, kysy konsultilta, millaisia heidän käyttämiensä testien tunnusluvut ovat. Lisäksi voit kysyä lyhyttä arkikielistä kuvausta siitä, mitä milläkin testillä on tarkoitus mitata. Tähän sinulla on oikeus.

Älä tyydy ympäripyöreään löpinään vaan pyydä ihan oikeasti mustaa valkoisella erilaisten testien luotettavuudesta. Jokainen omat testinsä tunteva konsulttitoimisto osaa nämä tutkimustulokset kyllä antaa, jos vain haluaa.

Kun olet saanut nämä luvut katsottavaksesi, koko henkilöarviointipalvelun arvottaminen on paljon helpompaa. Vertailun vuoksi voit kysyä tunnuslukuja useammaltakin saman alan yrittäjältä. Pienen harjoittelun avulla alkaa nähdä nopeasti, mikä on hyvä ja mikä huono testi.

Muutaman kierroksen jälkeen onkin helppo jo omalla näppituntumalla arvioida, mistä kannattaa maksaa ja mistä ei. Jatkossa pystyy säästämään paljon rahaa, kun virherekrytointien määrä vähenee.

Kirjoittaja

Mikael Nederström
Tutkimusjohtaja, osakas
Kaikki tämän kirjoittajan artikkelit