,

Crowdsourcing-menetelmän hyödyntäminen tekoälypohjaisen algoritmin kouluttamisessa

By.

Kuva: Frida Bergenwall

Kansanedustajat ovat ennen kaikkea lainsäätäjiä, mutta myös poliittisen kommunikaation ammattilaisia, jotka retoriikan keinoin pyrkivät vaikuttamaan kansalaisten asenteisiin ja mielikuviin. Aristoteles esittää teoksessaan Retoriikka hyvän puheen kolme tärkeintä elementtiä: ethos, pathos ja logos. Toisin sanoen olemus, tunne ja järki. Nämä kolme retoriikan osa-aluetta ovat keskiössä vuorovaikutuksen analysoinnissa, joten niitä voidaan soveltaa myös kansanedustajien retoriikan tarkasteluun. Tunteisiin vetoaminen on yksi kansanedustajien keskeisimmistä retorisista keinoista. Tämä mahdollistaa kuulijoihin vaikuttamisen tavalla, johon esimerkiksi pelkkä järkipuhe ei sovellu.

Poliittisen retoriikan tutkimus, kuten tunteisiin vetoavan puheen tarkastelu, on keskeinen politiikan tutkimuksen osa-alue, jota tutkitaan pääasiassa erilaisin laadullisin menetelmin. Nämä menetelmät ovat kuitenkin rajallisia, jos poliittista puhetta halutaan tarkastella erittäin suurilla aineistoilla sekä pitkien aikavälien kontekstissa. Näiden ongelmien taklaamiseksi tarvitaan laskennallisten yhteiskuntatieteiden menetelmiä, jotka mahdollistavat täysin uudenlaisen lähestymistavan poliittisen kommunikaation tutkimiseen.

Viime aikoina poliittisen retoriikan tutkiminen on yleistynyt laskennallisten yhteiskuntatieteiden piirissä, ja myös LAWPOL-hankkeen yhtenä tavoitteena on olla edesauttamassa tätä kehitystä. LAWPOL-hankkeen eduskuntatutkimuksen keskuksen kehittämä tunneanalyysityökalu toimii hyvänä esimerkkinä tästä. Kyseinen digitaalinen työkalu perustuu algoritmiin, joka kykenee tunnistamaan tekstistä puhujien ilmentämiä tunnetiloja.

Algoritmin kouluttaminen edellyttää kuitenkin paljon dataa. Vaikka esimerkiksi tekoälyn hyödyntäminen on varteenotettava keino tunneluokittelussa, ihmisten tuottama koulutusdata on kuitenkin lähtökohtaisesti luotettavampaa – erityisesti ottaen huomioon, että niin sanottuja suuria kielimalleja (LLM) ei ole vielä hyödynnetty kovinkaan paljon annotointitehtävissä.

Kaikille tutkimusprojekteille tyypillisesti, myös LAWPOLin ajalliset resurssit ovat rajallisia. Miten saisimme tuotettua tarkoituksenmukaisessa ajassa tuhansia virkkeitä sisältävän, luotettavan koulutusdatan tunneanalyysityökalua varten? Ratkaisuna päätimme käyttää niin sanottua crowdsourcing-lähestymistapaa. Myös “joukkoistaminen” -nimellä kulkeva crowdsourcing on nimensä mukaisesti menetelmä, jossa tutkijat hyödyntävät yleensä vapaaehtoisten avustajien ryhmää, jolle ulkoistetaan jokin tietty tehtävä. Perusajatus on, että tällainen ryhmä peilaa yhteiskunnassa laajemmin vallitsevia näkemyksiä ja mahdollistaa realistisemman käsityksen saamisen tarkasteltavasta ilmiöstä.

— On tärkeätä huomata, että tunneanalyysi ei pyri tunnistamaan tekstin tuottajan tunteita, vaan sitä, millaisia tunnetiloja tekstin tuottaja tekstillään näyttäisi pyrkivän tekstin vastaanottajassa herättämään, dosentti Kimmo Elo toteaa.

— Koska tämä vastaanotto on hyvin subjektiivinen kokemus, joukkoistamisen oletetaan antavan luotettavamman kuvan siitä, miten erilaiset vastaanottajat kokevat viestin herättämät tunnetilat.

Käytännössä annotointi tarkoitti Excel-taulukoihin koottujen virkkeiden ilmentämien tunteiden luokittelemista.

Tässä tapauksessa rekrytoimme yhteiskuntatieteellisten ja humanististen alojen opiskelijoita, joiden tehtäväksi annoimme valiokuntakeskusteluista kootun eduskunta-aineiston tunneluokittelun. Käytännössä prosessi eteni seuraavasti: rekrytoituamme hieman yli 40 opiskelijaa järjestimme webinaarin, jossa osallistujat saivat sekä kirjallisen että suullisen ohjeistuksen luokittelua varten. Lisäksi he annotoivat lyhyen harjoitusaineiston, jonka tarkistamisen yhteydessä opiskelijat saivat tarvittaessa esittää tarkentavia kysymyksiä. Tämän jälkeen opiskelijat annotoivat omalla ajallaan heille sähköpostitse lähetetyt virkkeet, jotka lopuksi tarkistettiin korkean laadun takaamiseksi.

Crowdsourcing-menetelmää käsittelevässä tutkimuksessa on korostettu paitsi selkeää ohjeistusta, myös osallistujien motivaation ja työetiikan merkitystä. Rahallisen korvauksen tarjoamisen lisäksi toivoimme siksi potentiaalisilta osallistujilta myös aitoa mielenkiintoa projektia kohtaan. Esimerkiksi valtio-oppia opiskeleva Lauri Kettunen kertoo kiinnostuksensa tekoälyn mahdollisuuksiin yhteiskuntatieteiden ja politologian alalla toimineen kannustimena osallistumiselle.

— Valtio-opin opintojen tarjoama tietyntasoinen ymmärrys poliittisesta keskustelukulttuurista, sekä eduskuntatyöskentelystä tarjosivat hyvän pohjan lähteä annotoimaan juuri parlamenttipuheista muodostuvaa aineistoa, Kettunen toteaa.

Digitaalisen kulttuurin, maiseman ja kulttuuriperinnön tutkinto-ohjelmaa opiskeleva Annukka Saarva puolestaan kiinnostui hankkeesta sekä sen tutkimusorientaation että tutkimuksen tekoa edesauttavien elementtien vuoksi.

— Digitaalisen kulttuurin opiskelijana kiinnostuin hankkeessa kehitettävistä, poikkitieteellisistä tutkimusta edistävistä digitaalisista työkaluista, Saarva kertoo.

— Humanistisen tiedekunnan opiskelijalle LAWPOL-hankkeesta löytyy tutkimuksellisesti keskeisiä teemoja niin kandidaatintutkielmalle kuin pro gradu -tutkielmallekin.

Tunteiden luokittelu pelkästä tekstipohjaisesta aineistosta on haastavaa, sillä tunnepuheeseen liittyy myös muita ulottuvuuksia kuin vain kirjoitettu teksti. Esimerkiksi videon ja äänen hyödyntäminen annotoinnin tukena voisi helpottaa tunteiden luokittelua, erityisesti tilanteissa, joissa yhden tunteen havaitseminen ei ole yksiselitteistä. Kettusen mielestä juuri yhden tunteen tunnistaminen virkkeestä oli ajoittain vaikeaa.

— Joidenkin rajatapausten kohdalla päätös eri tunteiden valitsemisesta oli paikoin haastavaa. Ajallinen perspektiivi, parlamenttipuheenvuoroissa viitatut asiat tai sanavalinnat saattoivat paikoin tehdä valinnasta kimuranttia, Kettunen kertoo.

Myös Saarva koki annotoinnin monitulkintaisuuden haastavana.

— Tunnetilojen erottaminen perustuu lukijan tulkintoihin puheesta. Annotoinnin lyhyet puheenvuorot voivat muistuttaa medioiden tietotulvaa, mistä päällimmäiseksi mieleen jäävät toistuvat klikkiotsikot, Saarva toteaa.

Haasteista huolimatta crowdsourcing toimii esimerkkinä siitä, miten tekoälypohjaista algoritmia voi kouluttaa resurssitehokkaasti ja luotettavasti. Kyseessä on mahdollisuus osallistaa opiskelijoita useilta eri tieteenaloilta, mikä vahvistaa samalla poikkitieteellisyyttä. Hankkeeseen osallistuminen saattaa lisäksi motivoida opiskelijoita käyttämään kyseistä työkalua sekä LAWPOL-infrastruktuuria tulevaisuudessa, esimerkiksi pro gradu- tai kandidaatintutkielmissaan.

Ennen kaikkea crowdsourcing-menetelmä mahdollistaa vain muutamaa tutkijaa laajemman poliittisen lukutaidon ja tulkintakyvyn hyödyntämisen. Kimmo Elo muistuttaa, että laajojen kansankerrosten ymmärryksellä poliittisesta agendasta on suuri merkitys myös sen legitimiteetille.

— Joukkoistaminen ei missään nimessä korvaa perinteisiä tapoja tutkia kansalaisten ja politiikan välistä suhdetta, mutta se antaa uusia välineitä löytää uusia näkökulmia tähän monimutkaiseen kysymykseen.

Teksti: Juuso Laine ja Markus Korhonen


English (UK)