Kuinka huijata henkilöarvioinnissa?

08.09.2025
Jaa

Tuotan heti kättelyssä pettymyksen: tällä kertaa ei ole tarkoitus kertoa, kuinka huijaaminen onnistuu. Ohessa sen sijaan muutama ajatus siitä, minkälaiseen vedätykseen kannattaa varautua, jos haluaa tehdä rekrytoinnin luotettavasti.

Oma lähtökohtani on se, mikä aina aikaisemminkin: monimenetelmäinen henkilöarviointi on ylivoimaisesti paras tapa tehdä rekrytointi. Tämä johtuu yksinkertaisesti siitä, että sen ennustearvo on suurempi kuin minkään yksittäisen muun metodin.

Ja ihan uusimpien tutkimusten perusteella näyttää kovasti siltä, että näin on myös jatkossa – oli AI mukana pelissä tai ei.


Toisensa kumoavat virheet

Selkein perustelu monelle menetelmälle on historiallisesti ollut tilastollinen. Monimenetelmäisessä arvioinnissa erilaisten menetelmien mittaamisen kohde on aina jossain määrin erilainen. Tästä seuraa se, että eri menetelmien virhelähteet osittain kumoavat toisiaan.

Tilastotieteilijä sanoisi, että menetelmien yhteinen varianssi on parhaimmillaan mahdollisimman pieni. Siksi kokonaisuus on tietyssä mielessä aina luotettavampi kuin osiensa summa.

Asiasta on myös tehty Psyconilla pitkään empiiristä seurantatutkimusta, jossa sama asia on näkynyt havainnollisesti. Parhaimmillaan henkilöarvioinnin tuottama ennuste on vastannut 98 tapauksessa 100:sta täsmälleen henkilön todellista työsuoritusta. Eli arvioinnin osuvuus on ollut 98 %.

Mutta voiko AI:n aikana enää odottaa näin isoa osuvuutta?


Uudenlaisia virhelähteitä

Vanha selitys virheiden toisensa kumoavasta luonteesta ei enää mene täysin läpi, koska tekoäly on muuttanut testaamisen luonnetta. Eikä uutta seurantadataakaan ole vielä pitkään ehditty kerätä. Siksi paljon on vielä valistuneen arvailun varassa.

Erilaisiin urakyselyihin ja kykytesteihin voi tuottaa vakuuttavan tuntuisia vastauksia AI-algoritmin avulla. Osa HR-ihmisistä on käytännössä huomannut, että hakemuksen on kirjoittanut AI eikä oikea ihminen.

Tällaiset ilmiöt saattavat aiheuttaa arviointiprosessiin hyvinkin vaikeasti kontrolloitavia uudentyyppisiä virhelähteitä, vanhojen ja tuttujen epävarmuuksien lisäksi.

Sama ongelma tietysti pätee yksittäisiin testeihin – jopa vielä enemmän – mutta se on sitten testikauppiaiden päänsärky. Tällä kertaa tarkoitus on pohtia asiaa henkilöarvioinnin näkökulmasta.


Perinteinen vedättäminen

Tyypillisesti henkilöarvioinnissa vedättäminen on näkynyt esimerkiksi persoonallisuustestin vastausten kaunisteluna. Tätä ongelmaa on osittain blokattu erilaisilla kontrolliasteikoilla, jotka mittaavat sosiaalista suotavuutta.

Lisäksi viime aikoina on yleistynyt ns. IRT (item response theory) -metodi testien kehittämisessä, joka mahdollistaa pakkovalintaisten asteikkojen rakentamisen. Tällaisilla pystytään estämään osa kaunistelusta, koska vastaustapa pakottaa ottamaan kantaa väittämiin tavallista jyrkemmin.

Myös kykytesteissä vedättämiseen on olemassa ratkaisuja. Kuten Matias-kollegani jo aikaisemmin kirjoitti:
”Itsestään selvä vastaus on testin tekijän identiteetin varmistaminen ja testiolosuhteiden kontrollointi, joko etäyhteyden päässä tai toimisto-olosuhteissa.”

Tämä auttaa ainakin siihen, että hakija ei laita yliälykästä serkkuaan vastaamaan kykytesteihin.
Mutta estääkö tämäkään AI:n avulla tapahtuvaa vedättämistä? Toimisto-olosuhteissa kontrollointi kyllä onnistuu, joten kriittisissä tapauksissa sitä kannattaa aina suosia. Mutta miten on etänä?


Tuoreita tutkimustuloksia

Eräässä tutkimuksessa katsottiin, kuinka ihmisten vastaukset muuttuivat erilaisiin ongelmanratkaisutilanteisiin sen mukaan, oliko vastaamisessa käytetty AI-avustusta vai ei. Lopputulos oli varsin lattea: vastaukset paranivat AI:n avulla vain marginaalisesti. Sen sijaan erilaisilla tunnistamisohjelmilla AI:n käyttöä ei huomattu – vääriä hälytyksiä syntyi paljon (Harwood et al., 2024).

Toinen tutkimus keskittyi kykytesteihin. Chat GPT-4 onnistui varsin hyvin verbaalisissa testeissä, mutta pärjäsi suhteellisen huonosti numeerisessa päättelyssä (Hickman et al., 2024). Toki verbaalisenkin testin huijaaminen onnistuu luotettavasti vain silloin, jos on aikaa syöttää ärsykkeet malliin ja tarkistaa ne sen jälkeen. Yleensä näin ei ole.

Eräs tutkimus (Phillips et al., 2024) vertaili ChatGPT:n ja todellisen ihmisen kykyä luoda persoonallisuustesteissä johdonmukainen ihanneprofiili. Ihminen osoittautui paremmaksi vedättäjäksi, ellei AI:tä varta vasten koulutettu tällaisen profiilin tekemiseen.

Ja toisaalta: koska erilaisia ihanneprofiileja on – toimenkuvan mukaan – lukematon määrä, kuten myös erilaisia persoonallisuustestejä, en olisi tästäkään löydöstä kovin huolissani.

Maailmalla tutkitaan kovasti myös erilaisia kameraan liittyviä AI-pohjaisia ratkaisuja torjumaan vedätystä, esimerkiksi silmänliikeanalyysiä tai mikroilmeitä. Toistaiseksi näistä saadut tulokset ovat hyvin epämääräisiä. Lisäksi niiden keräämästä datasta saattaa tulla ongelma GDPR:n suhteen.


Paras tapa ehkäistä

Luultavasti maailmalla paljon käytettyjä Big Five -tyyppisiä persoonallisuustestejä opitaan huijaamaan ensimmäisenä. Samoin kaikkein yleisimpiä kykytestejä, joiden vastauksia syydetään jatkuvalla syötöllä erilaisiin tietokantoihin. Tässä kohtaa Psyconin omat menetelmät ovat verraton apu.

Entä simulaatiot? Ongelmanratkaisutehtävissä fiksu arvioija räätälöi myös ratkaistavan ongelman toimenkuvan mukaiseksi. Ei vain siksi, että sellainen ennustaa muutenkin paremmin työmenestymistä, vaan myös siksi, että sellaista on vaikeampi huijata kuin kaikkein yleisimpiä simulaatiotyyppejä.

Edelleen voi siis väittää, että paras tapa ehkäistä vedättämistä on monimenetelmäinen lähestymistapa. Kun arvio syntyy kokonaisuuden perusteella, yksittäisen testin onnistuminen (tai epäonnistuminen, näkökulmasta riippuen) ei kaada prosessia. Yksi virhelähde tulee aina kompensoiduksi muiden metodien kautta.

Vähemmän tunnettujen testityyppien avulla ongelmaa voi niin ikään lieventää. Kun väittämät eivät ole yleisesti levinneet ympäri internetiä, on mallien opettaminen huomattavasti vaikeampaa. Ja ilman mallien opettamista vedätyksen onnistumisesta ei voi olla koskaan ihan varma.

Jos haluaa aivan pelata varman päälle ja ehkäistä kokonaan vedättämistä, ainoa varma tapa on tiettyjen testien teettäminen valvottuna. Eli ihan se perinteinen henkilöarviointi livetilanteessa, jossa yksi ihminen tapaa toisen ihmisen, ja testit tehdään vaikkapa Psyconin toimistolla.


Lähteet

Harwood, H., Roulin, N., & Iqbal, M. Z. (2024). “Anything you can do, I can do”: Examining the use of ChatGPT in situational judgement tests for professional program admission. Journal of Vocational Behavior, 154, 104013.

Hickman, L., Dunlop, P. D., & Wolf, J. L. (2024). The performance of large language models on quantitative and verbal ability tests: Initial evidence and implications for unproctored high‐stakes testing. International Journal of Selection and Assessment, 32(4), 499-511.

Phillips, J., Robie, C., Dunlop, P., Bourdage, J., Risavy, S., Speer, A., & Christiansen, N. (2024). Can ChatGPT Outperform Humans in Faking a Personality Assessment While Avoiding Detection?.

Henkilöarvioinnit, huijaaminen ja tekoäly – näin pidämme prosessin luotettavana. Blogi, Matias Kaasalainen, Psycon.